Visualization of non-linear spaces, by our Analytics Dissemination Team

Lo que Vimos (y nos Gustó) en 2017

BBVA Data & Analytics Team

d&a blog

En BBVA Data & Analytics nos encanta compartir artículos, blogs y noticias sobre Inteligencia Artificial (AI) y Aprendizaje Automático (ML) para mantener al día nuestro compromiso y pasión por la utilización del Aprendizaje Automático en el campo de los datos financieros. Hace dos años creamos una comunidad en Google Plus que ha crecido hasta convertirse en un lugar de intercambio de novedades y opiniones sobre el futuro de la disciplina en la que trabajamos.

Con la llegada de 2018, nos gustaría compartir y abrir a discusión los contenidos más comentados de nuestra comunidad interna de expertos a lo largo de 2017. Este compendio refleja tendencias y conocimientos que creemos beneficiosos para BBVA y contiene una gran variedad de contenidos, con un protagonismo especial del Deep Learning, pero estos días quién no le da una relevancia especial a esa rama del ML.

Tras profundas discusiones en nuestro equipo, hemos seleccionado una lista de las contribuciones científicas más disruptivas que se han publicado en 2017 en nuestra opinión. Las hemos agrupado en tres partes: la primera, detalla algunos avances específicos en modelos de Deep Learning. La segunda, ofrece una perspectiva más amplia en la aplicación de ML, riesgo que se deben evitar, o como usar capacidades en este campo para mejorar la confianza y la imparcialidad en ML, un aspecto central en nuestro trabajo en BBVA. Finalmente, en la tercera parte, examinaremos las creciente y compleja relación entre humanos y máquinas, al tiempo que revisaremos los avances en el campo de redes complejas y programación probabilística en Deep Learning, como en el caso de métodos Bayesianos.

Para una visión más general de eventos en IA relevantes, recomendamos: Danny Britz’s summary, así como Google Brain’s recap of their own contributions.

Parte 1. Contribuciones científicas en DL

Reexaminando la eficiencia de los datos en la era del Deep Learning

por Jose Antonio Rodriguez Serrano and César de Pablo

De cuando en cuando, la comunidad de ML se enfrasca en una discusión recurrente: ¿invertirías en más datos o en mejores modelos? Aunque podría considerarse un falso dilema, los investigadores de ML normalmente se esfuerzan en la segunda prioridad: obtener modelos sólidos. En ocasiones, aparece un contraejemplo que sugiere que invertir en recopilación masiva de datos puede arrojar resultados sin precedentes. Investigaciones en esta línea incluyen “The Unreasonable Effectiveness of Data”, así como el esfuerzo de la colección de ImageNet.

En la era de Deep Learning, es legítima la pregunta de si este debate todavía tiene sentido para este tipo de modelos. El trabajo de Sun et al. (Google) aborda esta cuestión formando una deep neural network con una cantidad de datos sin precedentes (300 millones de imágenes, tres veces más grandes que el conjunto de datos anterior) y muestra que en tareas de aprendizaje comunes, el rendimiento sigue aumentando con más datos y no se satura (siempre que el modelo siga aumentando su capacidad). Otros hallazgos se pueden encontrar en el documento mencionado o en este blog post.

El debate sobre el rendimiento de más datos frente a mejores modelos a menudo vuelve a transitar por los algoritmos de búsqueda nearest-neighbor, un ejemplo de método que ofrece soluciones simples pero efectivas, especialmente cuando tratamos con montos de datos masivos. Precisamente este año NIPS organizó el workshop “Nearest neighbors for Modern Applications with Massive Data”, mientras que Facebook AI Research lanzó FAISS, una librería con implementaciones eficientes de búsquedas nearest-neighbor.

El reinforcement learning se supera a sí mismo

por Roberto Maestre and Juan Duque

Durante muchas décadas, el antiguo juego de Go fue un desafío imposible para los investigadores de inteligencia artificial de todo el mundo. Una razón es la gran cantidad de combinaciones posibles en el tablero, que hace que una búsqueda exhaustiva de movimientos sea una tarea inviable, ya que hay más configuraciones posibles de tablero que átomos en el Universo. Además, la dificultad de definir una función de evaluación de posición adecuada evita que se pueda definir una búsqueda con predicciones fáciles de calcular.

Cuando en enero de 2016 DeepMind AlphaGo de Google derrotó al campeón europeo de Go Fan Hui por 5 a 0 y se impuso al 18 veces campeón mundial Lee Sedol, ganando 4 de 5 partidas, fue difícil no ver que se había alcanzado un punto de inflexión. Finalmente un algoritmo de IA podía dominar el juego de Go. Para romper esta barrera, AlphaGo combinó redes neuronales artificiales profundas, búsqueda de árboles de Monte Carlo y Reinforcement Learning (RL), entre otras técnicas. Pero lo mejor estaba aún por llegar.

No contento con los logros alcanzados, en octubre de 2017 DeepMind reveló que una nueva versión de AlphaGo, llamada AlphaGo Zero, había ganado a su predecesor en el 100% de las partidas.

Inesperado movimiento 37 del segundo partido entre AlphaGo y el campeón del mundo Lee Sedol. Aunque parecía ser un error, este sorprendente movimiento ayudó a AlphaGo a ganar el segundo partido.

La nueva versión había aprendido el juego sola y exclusivamente mediante un proceso de prueba y error, jugando contra sí misma, sin el conocimiento adquirido de partidas con expertos humanos. Por si fuera poco, ahora AlphaGo está aprendiendo a dominar en otros juegos de estrategia y tablero. Existe espacio para mejoras, como por ejemplo en la manera en que deep neural networks -en el domino del RL- se entrenan y se extienden. La cuestión central es ¿Qué lejos puede llegar la inteligencia artificial de la mano del Reinforcement Learning?.

Cuestiones experimentales intrigantes y la desmitificación del DL

por Leonardo Baldassini

El debate sobre el alcance, la metodología, el potencial real y las deficiencias de los sistemas de deep learning está bastante animado. Más allá de proporcionar a la comunidad científica un enriquecedor debate, las discusiones están facilitando una necesaria autocrítica y un proceso de desmitificación de la investigación en Machine Learning.

Es necesaria una comprensión más profunda de nuestros modelos, como hemos visto en muchos trabajos este año, aprovechando herramientas que van desde la estadística a la información-teórica (y reconociendo que incluso la investigación “explicativa” no está libre de trampas metodológicas). La charla de Ali Rahimi, de Google, después de recibir el Premio de la Test of Time Award en el NIPS de este año fue un recordatorio aleccionador de que incluso las herramientas de optimización más extendidas no siempre son bien entendidas por los profesionales o investigadores del DL. Igualmente reveladores fueron los resultados del mejor trabajo en la International Conference on Learning Representations (ICLR) de este año, que demuestran que las redes neuronales muy grandes tienen la capacidad de memorizar inputs completamente aleatorios. En la misma línea, una investigación mostró que cambiar un solo píxel es suficiente para engañar a un sistema de visión basado en DL.

Pese a que los desarrollos de aplicaciones fuera del ámbito académico se someten a testing más intenso, las investigaciones prometedoras que se están realizando en el campo de las redes antagónicas apuntan a producir modelos más robustos. En un mundo en el que los vehículos sin conductor parecen estar a la vuelta de la esquina y la preocupación por las armas artificialmente inteligentes no está injustificada, la evaluación del alcance y las limitaciones reales de una metodología de investigación se convierte en primordial.

Hay una laguna en las Redes Convolucionales, y las cápsulas podrían tener la respuesta

por Alejandro Vidal and Juan Arévalo

No mucho después de revolucionar el campo de la clasificación de imágenes con Redes Neuronales Convolucionales Profundas (NIPS 2012), Geoffrey Hinton comenzó a cuestionar la naturaleza de las redes convolucionales, como se muestra en esta conferencia en el MIT de diciembre de 2014 (solo dos años después del famoso trabajo de ImageNet). En 2017, Sara Sabour, Nicholas Fross y el profesor Hinton han lanzado un nuevo paradigma: la cápsula, que proporciona una nueva abstracción para el aprendizaje de representaciones de entidades. Tales cápsulas podrían ser capaces de superar las dificultades de los ConvNets cuando se trata de adquirir la pose tridimensional de objetos (es decir, la relación entre una entidad y el espectador), y parecen ser más resistentes a los ataques antagónicos. En Medium se ha publicado una serie de artículos que explican estas cápsulas y cómo funcionan.

Ejemplo usado por Hinton y Sabour para explicar cómo la rotación afecta nuestra comprensión visual. (NYT)

La revolución no será supervisada, y podría haber comenzado en la traducción de idiomas

por César de Pablo and Juan Arévalo

La mayoría de las aplicaciones exitosas del aprendizaje automático utilizan el aprendizaje supervisado; sin embargo, los datos etiquetados son costosos y relativamente escasos en muchos dominios. Por lo tanto, los avances en paradigmas de aprendizaje que requieren menos supervisión siempre han capturado el interés de la comunidad de Machine Learning, incluyendo avances en el aprendizaje no supervisado de representaciones, aprendizaje semi-supervisado o activo, así como el aprendizaje transferido. En nuestro caso, donde los datos predominantemente no están etiquetados, es probable que la revolución algorítmica no esté supervisada.

La traducción automática es una de las aplicaciones que normalmente requiere grandes cantidades de datos etiquetados: un corpus de frases paralelas de dos idiomas (p. ej. inglés-alemán) que le gustaría aprender a traducir. Este año, dos trabajos de investigación de Artexte et al. y Lample et al., de forma independiente y casi simultánea, presentaron resultados prometedores sobre la traducción no supervisada usando arquitecturas neuronales. Ambas publicaciones utilizan una arquitectura de codificador y decodificador secuencial con atención, que comparten de manera crucial la misma palabra incrustada entre lenguajes. Pese a que requiere que las frases sean lo suficientemente similares, el uso inteligente de los datos disponibles, como la denotación y traducción inversa, o la traducción de un idioma a otro y viceversa proporciona un impulso adicional a este método.

En otras palabras, son capaces de producir un traductor razonablemente bueno sin un diccionario. No hay necesidad de un corpus con frases traducidas.

Las arquitecturas neuronales se están simplificando, ya que todo lo que necesitan es atención

por Alberto Rubio

Cuando realizamos tareas secuenciales como traducir, nos enfocamos en las palabras y aquellas que las rodean, pero no en la oración completa de una sola vez. Este comportamiento se puede lograr mediante LSTM usando el mecanismo de atención. Para hacer esto, usamos el mismo truco que en Neural Turing Machines, donde cada token de palabra de salida del decodificador ahora depende de una combinación ponderada de todos los estados de entrada, no solo del último estado. Los puntajes se introducen en un softmax para crear la distribución de la atención.

Figura. Ejemplo de traducción de inglés a francés.

Este enfoque se puede utilizar con las Convolutional Neural Networks en el subtitulado de imágenes para comprender qué parte(s) de la imagen motivó una palabra determinada en el subtítulo.

Desafortunadamente, tales Recurrent Neural Networks tienen problemas cuando entrenan, porque la entrada debe ser procesada secuencialmente, lo que previene la paralelización completa. Esta falta de rendimiento puede evitarse con CNNs apilados, que son altamente paralelizables. La desventaja de este enfoque es que la captura de las relaciones entre tokens lejanos requieren grandes kernels y más computación.

Todos estos problemas se alivian en la arquitectura del Transformador – ya que aparentemente, la atención es todo lo que se necesita. Los autores consiguen una mejor puntuación y un buen rendimiento de entrenamiento utilizando una arquitectura de codificador-decodificador, donde cada parte implementa la atención de múltiples cabezales. Abordan el problema secuencial de los CNNs y RNNs eliminando la recurrencia y las convoluciones, y reemplazandolos con atención multicabezal para manejar las dependencias entre la entrada y la salida. De este modo, logra mejorar notablemente el rendimiento a la vez que elimina tanto la recurrencia como la convolución a favor de la autoatención.

Tendremos que estudiar más matemáticas, porque la naturaleza no es Euclidiana

por Leonardo Baldassini, Juan Duque and Juan Arévalo

La mayoría de las disciplinas científicas comienzan con una mezcla de experimentación y descubrimientos que impulsan la investigación, pero a menudo carecen de un marco teórico completo para explicar sus hallazgos. Por lo tanto, la evolución natural de la investigación científica es que a medida que un campo de estudio madura comienza a buscar explicaciones matemáticas rigurosas de sus hallazgos. De hecho, a pesar de la aparente simplicidad matemática detrás de las Neural Networks (NN), la hipótesis múltiple -que los datos de interés para las tareas de IA yacen en un múltiple de baja dimensión- sugiere que los datos que estamos aprendiendo podrían vivir en espacios no euclídeos bastante complejos. Además, se han propuesto varias conexiones con las propiedades observadas en Física -como simetría, localidad, composicionalidad, logaritmo polinomial o incluso el Grupo de Renormalización-. En este sentido, cabe destacar también los esfuerzos realizados por Stéphane Mallat y Joan Bruna para proporcionar una comprensión matemática de Deep Convolutional Networks.

En este último año, hemos sido testigos de un interés creciente por acomodar las arquitecturas NN existentes en el entorno de la geometría de Riemannian -ver por ejemplo el uso de incrustaciones de Poincaré para aprender representaciones jerárquicas. Además, un intento de generalizar (estructurar) modelos neuronales profundos a dominios no euclidianos como gráficos y múltiples, conocidos como Aprendizaje Profundo Geométrico (GDL), está cobrando impulso, como lo demuestra el tutorial de este año del NIPS. Las aplicaciones de GDL van desde ConvNets en gráficas biológicas hasta la terminación de matrices para recomendaciones. Por lo tanto, el campo es relevante para cualquier empresa que se enfrente a datos relacionales, como nosotros mismos.

Todas estas contribuciones resaltan cómo las geometrías no euclidianas deben tenerse en cuenta e incorporarse en nuestros modelos cuando se trata de datos altamente complejos. Además, una mayor comprensión de la geometría de nuestros datos va de la mano con una intuición geométrica más profunda del trabajo de las redes neuronales. Como tal, predecimos que la geometría riemanniana jugará un papel importante en la comprensión y el desarrollo de las redes neuronales, que se han llegado a definir como “un montón de ideas juntas a un nivel de secundaria”! Para aquellos que quieran comenzar a perfeccionar algunas matemáticas que no sean de educación secundaria, recomendamos el texto introductorio Tu’s introductory text on manifolds. Es una lectura muy interesante, pero definitivamente no para la hora de dormir.


La semana próxima publicaremos una segunda entrega de las investigaciones más interesantes de 2017 en el campo de ML. Nos gustaría saber tu opinión. Envíanos recomendaciones o comentarios a hello@bbvadata.com.