El análisis de grandes volúmenes de datos, más conocidos hoy en día como “big data”, consiste en buscar determinados patrones ocultos con algún tipo de valor predictivo. Esas búsquedas, por supuesto, se han automatizado, gracias a la potencia de los ordenadores modernos y el desarrollo de algoritmos cada vez mejores. No obstante, hasta ahora, la elección de qué aspectos o factores conviene analizar dentro de esos datos requería obligatoriamente cierta intuición humana.
Ahora, investigadores del MIT han desarrollado un nuevo sistema informático, denominado “Data Science Machine”, que no sólo busca patrones en los datos, sino que también diseña las características de la búsqueda, eliminando por completo cualquier tipo de intervención humana.
Los investigadores desarrollaron un prototipo del sistema y, para probarlo, lo inscribieron en tres competiciones en las que tuvo que competir con diversos equipos de científicos de datos descubriendo patrones predictivos en conjuntos de datos con los que no estaba familiarizado. El sistema informático desarrollado por MIT superó a 615 de los 906 equipos participantes en las tres competiciones; y en dos de las tres competiciones, sus predicciones mostraron un 94% y un 96% de precisión con respecto a las de los ganadores. En la tercera, obtuvo una cifra más modesta, un 87%, pero mientras que los equipos humanos necesitaron trabajar algunos meses en el desarrollo de sus algoritmos, el sistema del MIT tardó apenas entre 2 y 12 horas en generar cada una de sus entradas.
Sin duda, el sistema tiene muchas ventajas y ofrece buenos resultados. Existen numerosos volúmenes de datos de gran tamaño almacenados con los que, al menos por el momento no se ha hecho absolutamente nada, simplemente están ahí; y su número crece cada día. Sacar partido a esos datos, diseñando las búsquedas adecuadas para encontrar en ellos patrones predictivos que resulten de utilidad, requeriría la contratación de personal altamente cualificado, además de una inversión de dinero. Sin embargo, el nuevo sistema del MIT puede hacerlo de forma automática, prácticamente sin coste añadido y en una cantidad de tiempo mucho menor, ofreciendo unos resultados que, si bien por el momento pueden no ser los mejores, sí son lo bastante buenos.
El investigador Max Kanter, en cuya tesis de máster se basa el sistema, y Kalyan Veeramachaneni, su director de tesis e investigador del Laboratorio de inteligencia artificial y ciencias de la computación (CSAIL) del MIT, describen el nuevo sistema en un artículo presentado por Kanter en el Congreso Internacional de ciencia de los datos y análisis avanzado del IEEE, que tuvo lugar esta semana en París.
Cómo funciona
Para identificar en la base de datos los factores que podrían tener un valor predictivo, Kanter y Veeramachaneni:
- Aprovechan las relaciones estructurales inherentes en el diseño de bases de datos: las bases de datos suelen almacenar diferentes tipos de datos en diferentes tablas, indicando las correlaciones entre ellas mediante identificadores numéricos. El sistema de los investigadores del MIT rastrea estas correlaciones y las utiliza como clave para identificar los factores que convendrá utilizar en el análisis.
- Buscan los llamados datos categóricos, que parecen estar restringidos a un rango limitado de valores, como los días de la semana o los nombres de marcas. Entonces, genera nuevos factores candidatos dividiendo los que ya tiene en las diferentes categorías.
- Una vez seleccionado un conjunto de factores, reducen su número identificando aquellos cuyos valores parecen estar correlacionados.
- Finalmente, prueban ese conjunto reducido de factores en los datos de la muestra, realizando diferentes combinaciones, para optimizar la precisión de las predicciones generadas.
Puedes consultar y descargar el artículo completo en el siguiente enlace: «Deep Feature Synthesis: Towards Automating Data Science Endeavors«, de James Max Kanter y Kalyan Veeramachaneni, del MIT.