Empresa nueva, dataset antiguo ¿Por qué no?
En el post anterior, vimos la importancia para la estimación de costes, de tener un dataset ya preparado (podado), mejoraba la toma decisiones, fijaba plazos de tiempo más ajustados y conllevaba una mejor planificación de cada fase del proyecto.
Sin embargo, no todas las empresas tienen esta posibilidad de disponer de un conjunto de datasets generados previamente por ellos mismos, ya sea porque la empresa es de reciente creación o porque es un área completamente nueva para la empresa.
¿Estoy abocado al fracaso sin mi propio dataset?
La respuesta a esta pregunta es no. Aunque una empresa no disponga de un conjunto de datasets para un proyecto relacionado con un área concreta, existen repositorios públicos de datasets, que pueden ser consultados y gestionados, para crear un modelo válido para cualquier empresa.
Repositorios públicos de datasets
Un repositorio de datos de ingeniería, se puede definir como un conjunto de datos bien definidos, útiles y relacionados con el mundo real de los proyectos de software. Estos repositorios, incluyen información cuantitativa y descriptiva de los recursos que se han utilizado en otros proyectos. Los dos repositorios existentes a destacar son:
- ISBG: Datos reales de proyectos de software internacionales que pueden ayudar a mejorar el manejo de las tecnologías de la información.
- PROMISE: Predictor de modelos en la ingeniería de software. Busca mejorar el desarrollo de modelos predictivos.
¿De qué vale utilizar estos repositorios?
Tanto ISBG como PROMISE ofrecen proyectos ya desarrollados por otras empresas, que pueden ser aplicados a cualquier empresa que desarrolle un trabajo similar al dataset almacenado en el repositorio.
ISBG se centra en proporcionar datos para la estimación del tamaño del proyecto (esfuerzo, duración, coste…), comprobar los requisitos del sistema y planificación del desarrollo de la infraestructura.
PROMISE pretende ofrecer modelos de predicción de errores (bug reports), de estimación de esfuerzo y de extracción de requisitos. Su propósito más general, es proveer a los responsables de proyecto datos reales y fiables que puedan replicarse en nuevos proyectos de software.
Para presentar de forma adecuada la información, ambas fuentes de datos están clasificadas según unas categorías:
- ISBG:
- Proyectos de desarrollo de software
- PROMISE
- Predicción de errores
- Predicción de esfuerzo
- Minería de texto (obtención de requisitos)
- Ingeniería de software
- General
En el paper, los autores analizan estos repositorios para clasificarlos según los temas que ofrecen y la disponibilidad de cada uno de ellos. Los autores concluyen, que los datasets son válidos y están suficientemente trabajados, como para ser utilizados por terceros.
Como se puede apreciar, ISBG y especialmente PROMISE, cubren prácticamente todo el espectro de posibles proyectos de software que una empresa sin histórico de datos puede necesitar.
PROS Y CONTRAS DE UTILIZAR REPOSITORIOS
Estos repositorios tienen numerosas ventajas, pero también inconvenientes. Ya se ha explicado qué son y para qué valen, sin embargo, conviene analizar al detalle las ventajas que ofrece su uso y las consecuencias poco ventajosas que ello conlleva.
- Se ajustan a cada área de software
- Son datasets optimizados por expertos
- Ofrecen una referencia cuando no existe ningún histórico
- Los datasets pueden estar podados eliminando variables críticas para otro proyecto
- Las condiciones de la empresa que utiliza ese dataset, pueden ser diferentes de donde fueron tomados los datos
- Algunos datasets tienen disponibles los datos originales, pero no la descripción de estos
Como se puede ver, antes de tomar la decisión de utilizar un dataset de un repositorio se debe hacer un estudio de los datos que ofrecen estos repositorios, lo cual supone hacer un estudio extra de los datos, por lo que se incrementa el trabajo a realizar en ese proyecto. Sin embargo, si una vez realizado el estudio, se concluye que existe un dataset que se ajusta adecuadamente al proyecto a desarrollar, como se ha visto, se obtienen numerosos beneficios.