Lo más relevante de la ciencia de datos en 2018

Jairo Mejía

d&a blog

El año que estamos a punto de dar por finalizado ha sido uno de los más importantes en cuanto al desarrollo de tecnologías de aprendizaje autónomo (machine learning). Durante el 2018, gran parte del debate se ha centrado en cómo seguir perfeccionando estas tecnologías y pasar de la simple optimización al afianzamiento de una disciplina avanzada en Ciencia de Datos, al mismo tiempo que se persigue una aplicación real de la Inteligencia Artificial.

Desde los desafíos que plantea la industrialización en sistemas de Inteligencia Artificial hasta los defectos que pueden aparecer en la implementación de modelos de Deep Learning, en los últimos 12 meses hemos asistido a una gran proliferación de noticias y debates significativos sobre cómo hacer sostenible e inclusiva la revolución de la Inteligencia Artificial. En este artículo, que publicamos como reconocimiento a la vida y obra de Stephen Hawking, ya recopilamos algunas frases del genio que anticipó la necesidad de un desarrollo responsable de la Inteligencia Artificial. “El éxito en la creación de una Inteligencia Artificial eficaz podría ser el acontecimiento más importante en la historia de nuestra civilización”, decía el Dr. Hawking, que con “éxito” se refería a detectar y neutralizar los riesgos potenciales que esta revolución tecnológica podría traer consigo si no se tenía en cuenta el enfoque ético y de equidad.

Inspirados en el éxito del artículo “qué vimos y nos gustó del 2017”, publicado ahora hace un año, hemos decidido lanzar un nuevo artículo echando un vistazo, en primer lugar, al progreso alcanzado en cuanto al proceso de industrialización de la Inteligencia Artificial. En los párrafos que siguen también abordaremos los hechos más relevantes de este año relacionados con Procesamiento de Lenguaje Natural (en adelante NLP), Deep Learning para grafos, Causal Inference y el abordaje de la ética en la implementación de tecnologías de Machine Learning.

Industrialización de la IA

por Rafael Hernández, Jose A Rodríguez, Roberto Maestre, César de Pablo.

El aprendizaje autónomo y la Inteligencia Artificial ya no son sólo un tema de investigación, sino que avanzan por el camino de convertirse en herramientas productivas, cuyo desarrollo encierra sus propios desafíos. Este año hemos visto esfuerzos en el camino hacia herramientas más profesionalizadas que permitan poner en práctica el desarrollo del aprendizaje autónomo.

Un ejemplo es la aparición de marcos de trabajo que buscan profesionalizar y automatizar plataformas de aprendizaje autónomo, como MLFlow o Tensorflow TFX. En el ámbito de Efficient Neural Architecture Search (ENAS), hemos sido testigos de la integración de AutoML en marcos de trabajo como Tensorflow, Keras y Pytorch. Además, Featuretools, un framework creado por el MIT para descubrir combinaciones de atributos, se aplicó para la detección de fraudes con tarjetas de crédito en colaboración con el BBVA.

Pero también hemos leído artículos sobre compañías que comparten sus aprendizajes al desplegar modelos de aprendizaje autónomo o Inteligencia Artificial a gran escala. En este sentido, Uber ha revisado su plataforma Michelangelo, Linkedin y su AI Academy han trabajado en llevar la formación en IA a todos los empleados, Amazon incluso ha abierto a todo el mundo la formación en aprendizaje automático que antes era solo accesible a sus empleados; Apple publicó un artículo describiendo su plataforma para proporcionar Deep Learning a escala interna, mientras, en otro artículo, Booking.com describía cómo democratizaban experimentos controlados en línea.

Durante este año también se han consolidado talleres en aprendizaje autónomo y software: se celebró una nueva edición de NIPS MLSystems Workshop al tiempo que se inauguraba una nueva conferencia (SysML).

Finalmente, también hemos visto durante este año algunos ejemplos relevantes en los que el aprendizaje autónomo superaba los límites de las “áreas” de una empresa. Por ejemplo, Amazon ofrece a los clientes de SageMaker un modelo de previsión de series temporales que comenzaron a desarrollar internamente para su propia predicción de demanda, mientras Uber desplegó aprendizaje autónomo para su propio pronóstico financiero.

Procesamiento de Lenguaje Natural-NLP

por César de Pablo.

En el último año hemos sido testigos de la aparición de una nueva generación de métodos de embbeding, embeddings universales o, más adecuadamente, modelos de lenguaje, que han demostrado ser útiles en diferentes tareas de Procesamiento de Lenguaje Natural, ayudando en problemas como la clasificación o traducción de texto mediante la utilización de enormes cantidades de datos de texto sin etiquetar. ELMO (Deep Contextualized Word representations), ULMFit e importantes mejoras en la arquitectura Transformer (liderada finalmente por BERT) han mostrado grandes avances en cuanto a clasificación de texto, NER o lectura automática. ELMO proporciona vectores fijos, tal y como hace Word2Vec, pero con el añadido de que éstos están contextualizados. Por el contrario, ULMF es un procedimiento que permite ajustar un modelo de lenguaje a una nueva tarea con unos pocos ejemplos supervisados. BERT aborda ambas vertientes, ya que se trata de un modelo de lenguaje pre-entrenado que tiene en cuenta el contexto, pero que también puede extraer embeddings. Su inconveniente para escalar fuera de Google es que, incluso para el reajuste, conlleva un alto coste de computación y requiere una gran cantidad de memoria.

Siguiendo con NLP, otra buena noticia es que estos progresos no se orientan únicamente al inglés, sino que pueden ser aplicados en otros idiomas con algunos cambios.

Aprendizaje profundo en grafos

por César de Pablo.

Las tecnologías relacionadas con Deep Learning han cosechado resultados muy prometedores en lenguaje e imágenes, en ambos casos debido a arquitecturas especializadas que tratan con secuencias (LSTM) o grids (CNN). Sin embargo, una gran cantidad de problemas pueden beneficiarse de una representación estructurada, aunque sin exhibir una estructura regular, sino una gráfica genérica con aplicaciones en sistemas de recomendación, Procesamiento de Lenguaje Natural o modelado de usuarios. Esta investigación (con casi 30 autores) ha servido para proporcionar un marco que abarca diferentes enfoques de modelado desde GCN (Graph Convolutional Networks) hasta una arquitectura de transformador generalizada aplicada a los gráficos. Gracias a DeepMind incluso tenemos una biblioteca de referencia basada en Tensorflow. También hemos visto el uso comercial de algoritmos relacionados como GraphSAGE en Pinterest.

Inferencia Causal

por Juan Arévalo.

Este año hemos sido testigos de la irrupción de la Inferencia Causal en el campo de la Ciencia de Datos con contribuciones importantes como las del libro de Jude Pearl, “The book of Why”, o el artículo de Miguel Hernán et al. sobre cómo incorporar la Causalidad en la Ciencia de Datos, entre otras cosas. El advenimiento de la Revolución Causal es concomitante a la aplicación exitosa del Análisis Contrafactual en la Comunidad de Sistema de Recomendación (ver SIGIR’16 para una introducción progresiva). No en vano, han habido dos premios “Best Paper”,  en las conferencias WSDM’18 y RecSys’18, por desarrollar estimadores contrafactuales que podrían prevenir la discriminación en selecciones (el artículo de Airbnb sobre la discriminación en selección en online A/B Testing es buen ejemplo de ello). Esto se suma a los esfuerzos en otras conferencias de Machine Learning bien conocidas, donde la inferencia causal está ganando fuerza (ver los workshops de NeurIPS y ICML )

Pese a todo, aunque la aplicación de la inferencia causal en el Machine Learning sigue siendo limitada, vemos una mayor interacción futura entre estos dos campos (del mismo modo que sucedió con la Inferencia Bayesiana y el Deep Learning).

Yoshua Bengio, uno de los padres del Deep Learning, explica en una entrevista en el MIT Technology Review  que “necesitamos llevar al Deep Learning a ser capaz de razonar, aprender de la causalidad”, porque “si se tiene un buen modelo causal del mundo, puedes generalizar incluso situaciones no familiares. Eso es crucial. Los humanos somos capaces de proyectarnos a nosotros mismos en situaciones muy diferentes a las de nuestro día a día. Las máquinas no pueden, porque no tienen esos modelos causales”.

Ética en IA

por Juan Murillo and Roberto Maestre.

Se están haciendo grandes esfuerzos para definir, desarrollar e integrar la ética en la Inteligencia Artificial (IA). Las más altas instituciones, especialmente en la UE (pero también en los EE. UU.), trabajan en la elaboración de principios que definan las reglas dirigidas a permitir la implementación de soluciones de IA que eviten riesgos de trato discriminatorio hacia los ciudadanos. Una vez que tomamos consciencia de que la IA puede amplificar el sesgo que existe en los datos de entrada de un modelo, debemos identificar y mitigar estos efectos en el desarrollo de sistemas que guían decisiones o desencadenan acciones automáticamente. Una tendencia interesante en la industria es desarrollar nuevas métricas (tanto de clasificación como de regresión) para monitorear dichos sesgos. A lo largo de 2018 hemos detectado un gran impulso orientado a considerar estos aspectos en el desarrollo de nuevos modelos, integrando todos estos conceptos.

Pero, a la hora de bajar de los grandes principios éticos a los casos de uso específicos, a menudo las empresas temen perder la necesaria capacidad discriminante que garantiza la sostenibilidad de sus negocios si aplican medidas antidiscriminación en los modelos que determinan a quién prestar servicio y a quién no. Por ejemplo este tipo de modelos en el sector financiero rigen decisiones de aceptación de solicitudes de crédito (admisión) y de asignación de precio a la financiación (cálculo de la tasa de interés en función del perfil crediticio del solicitante). El prescindir del empleo de una variable por considerarla discriminatoria en admisión, o la decisión de disminuir la horquilla de variación en el cálculo de precios para ser más ecuánime puede impactar en los resultados, y éste impacto ha de ser medido, como muestra este ejemplo. Por otro lado en este otro artículo investigadores del MIT Media Lab han demostrado que pequeñas variaciones de bajo impacto en negocio comportan incrementos de alto impacto positivo en favor de la equidad, medida mediante el aumento del número de solicitantes aceptados por los modelos de admisión, que en ningún caso trabajan con datos sensibles. En definitiva, la Inteligencia Artificial nos puede ayudar a encontrar el punto de equilibrio que maximice los beneficios empresariales y sociales.