El #10yearchallenge de la Ciencia de Datos

Jairo Mejía y Santiago Basaldúa

d&a blog

Hace diez años, el término “Ciencia de datos” era solo un 7% de lo que es hoy en día en las tendencias de Google. Era casi inexistente en las noticias y solo ganaba tímidamente terreno en la narrativa corporativa. Uno tiene que volver al 2010 para ver una primera definición completa de la disciplina emergente de la Ciencia de Datos en la prensa. The Economist publicó un informe especial que se refiere a la nueva artesanía del científico de datos como la combinación de las “habilidades del programador de software, estadístico y comunicador/artista para extraer las pepitas de oro ocultas bajo montañas de datos”.

 

La disciplina de la ciencia de datos se ha disparado en la última década, dándole la vuelta a las estrategias económicas, sociales y de ciencias sociales. En este momento, la disciplina de la ciencia de datos es el componente principal de más de 250 programas de máster en los EE.UU., según un informe de la Universidad Estatal de Carolina del Norte, que en 2007 inició un programa de Analítica Avanzada, considerado el primer plan de estudios sobre ciencia de datos en el país.

 

Las corporaciones ahora ponen mucho interés en buscar científicos de datos, un término acuñado en 2011 por DJ Patil en su “Data Jujitsu – El arte de convertir datos en productos” (¡eso es historia, amigos!). Las instituciones financieras han dejado de contratar “quants” para comenzar con la búsqueda de “científicos de datos”, con la esperanza de que apliquen su “magia” a las vastas cantidades de datos que esperan ser explotadas para lanzar nuevos productos, crear eficiencias y extraer nuevas perspectivas. La historia no fue tan simple: varias encuestas han mostrado recientemente la frustración existente en las empresas al aplicar la ciencia de datos en los procesos productivos con el objetivo de encontrar la integración adecuada con otros equipos, como desarrollo de negocio, diseño, ingeniería o ética.

 

La definición original de un científico de datos, alguien con una combinación perfecta de habilidades de computación, matemáticas y conocimiento estadístico, y con experiencia de dominio para desarrollar casos de negocio, ha cambiado mucho en los últimos años que se han visto influenciados por la realidad. Las corporaciones descubrieron, de un modo u otro, que la aplicación de las herramientas de la Ciencia de Datos debe combinarse con la transformación cultural, el diseño, el desarrollo ágil, la previsión y una formulación adecuada de las preguntas e hipótesis comerciales.

 

Finalmente DJ Patil se dio cuenta de que un trabajo de Data Scientist es “amorfo. No hay nada específico que hagas”, según una entrevista publicada en 2016.

 

De 0 a 100 en 10 años.

Las técnicas actuales de Machine Learning, como el Deep Learning o el Reinforcement Learning, apenas se conocían hace 10 años, y hoy forman parte de la jerga de las corporaciones, los gobiernos y los tecnólogos.

 

En 2009, el estadístico Nate Silver, cofundador de FiveThirtyEight, fue nombrado como una de las 100 personas más influyentes de la revista Time Magazine por construir un sistema para pronosticar los campeones de béisbol y los resultados de las elecciones presidenciales. De repente, la estadística se convirtió en “el trabajo más sexy”. La experiencia estadística, las crecientes capacidades de procesamiento computacional y la computación en la nube (Amazon Web Services nació solo 3 años antes) fue la combinación perfecta para el nacimiento de la Ciencia de Datos. La nueva disciplina fue fundamental para el renacimiento de la Inteligencia Artificial (IA). Hoy en día, usamos la palabra IA para nombrar tareas que no existían o eran simplemente experimentales hace solo una década, entre ellas: asistentes de voz, traducción, reconocimiento facial y coches que conducen por sí mismos.

 

La Ciencia de Datos y la democratización del conocimiento

 

El hecho de que las fronteras de la Ciencia de Datos no estuvieran bien definidas -hoy tampoco lo están del todo- y de que esta disciplina de disciplinas no tuviera que responder a ciertas tradiciones académicas restrictivas de otros campos, le permitió crecer  de una manera muy democrática y abierta. Investigadores y aspirantes a científicos de datos de todo el mundo encontraron vías para probar nuevas aplicaciones analíticas y de técnicas, desde sofisticados modelos hasta el mundano, pero vital ejercicio de etiquetar datos.

 

Grandes innovaciones se han dado gracias a que personas como la investigadora de Princeton Fei-Fei Li y su equipo, que tuvieron la visión que les llevó a coordinar la anotación colectiva y a mano de 14 millones de imágenes. Este trabajo fue clave para para entrenar  y mejorar modelos de Deep Learning y para, posteriormente, contribuir a hacer realidad los coches autónomos, entre otras cosas.

Portales como Kaggle han contribuido al libre acceso de bases de datos, han permitido que se comparta conocimiento y técnicas analíticas y que se cree un sentido de comunidad y competición donde las ciencia de datos a acabado madurando con una filosofía open-source.

Uno de los hitos de mayor impacto para la democratización de la ciencia de datos fue el lanzamiento en 2012 de la plataforma de formación Coursera, fundada por Andrew Ng y Daphne Koller. Desde entonces, Coursera ha formado a millones de científicos de datos, ingenieros de datos, analistas de datos de manera gratuita, amena y explicada por los mejores científicos de las mejores universidades del planeta. De repente, el conocimiento de la ciencia de datos estaba a manos de cualquier persona sin coste alguno.

 

Los últimos 10 años de la ciencia de datos han traído logros como el reconocimiento facial, los coches autónomos, los asistentes de voz, la predicción en industria, servicio financieros, planificación urbana y en prevención. Del mismo modo, ha llevado la Inteligencia Artificial a todo tipo de productos y servicios, que, sin duda se ampliarán en el futuro… siempre que las máquinas tomen otras decisiones tras la singularidad.