Las Crónicas del NIPS: Lo que vimos allí

Leonardo Baldassini

d&a blog

Puede que se haya convertido en una tradición: diciembre es el momento en que se muestran los frutos maduros de 12 meses de investigación global en el aprendizaje automático y se definen y perfilan las tendencias futuras en lo que parece haberse convertido en la reunión más importante -o al menos la más exagerada- sobre el tema.

Tras el creciente éxito del que ha disfrutado en los últimos años, la 31ª Conferencia sobre NIPS que se celebró este mes en Long Beach fue, por un amplio margen, la edición de mayor venta -y venta rápida-, con más de 8.000 entradas vendidas poco después de que se abriera el registro y aceptando 679 papers de los 3240 que se presentaron este año.

Si bien estas cifras reflejan fuertemente que la frontera entre los simposios académicos, las convenciones industriales y los eventos de reclutamiento está más borrosa que nunca, también dan un claro testimonio del papel cada vez más central que Machine Learning, Inteligencia Artificial y las tecnologías y aplicaciones que giran en torno a ellos están destinadas a ocupar tanto en el mundo académico como en la industria. Por lo tanto, es fundamental que una organización centrada en los datos como la nuestra esté presente en tales eventos para poder seguir los desarrollos del estado de la técnica lo más cerca posible. En este post, por lo tanto, pretendemos esbozar las tendencias más relevantes que percibimos durante NIPS 2017.

Menos es más

Que el enorme número de parámetros que ofrecen las complejas y profundas arquitecturas de redes neuronales ayuda al poder expresivo de estos modelos no es un tema de discusión. El hecho de que esta bendición pueda convertirse en una maldición también ha sido evidente desde que el interés en el aprendizaje profundo comenzó a alcanzar su punto máximo hace algunos años. A lo largo de la semana del NIPS, quedamos gratamente impresionados por lo que nos parece un esfuerzo cada vez mayor para despojar a las arquitecturas profundas de complejidad innecesaria, explorando a través de experimentos y estudios teóricos cómo una red puede ser simplificada en gran medida conservando toda su potencia predictiva y, lo que es más, aumentando la generalización. Nos han gustado especialmente los siguientes trabajos:

  • Sobre la complejidad del aprendizaje en redes neuronales, mostrando que no todas las redes neuronales pueden dar buenos resultados (sin un entrenamiento increíblemente largo)
  • Net-trim, un método que, debido a su requisito de tener que entrenar dos veces una red, puede carecer de aplicabilidad práctica en muchos casos, pero muestra de manera efectiva cómo se puede reducir en gran medida la complejidad de una red.
  • Runtime neural pruning, en la que los autores proponen una sparsification de las capas de una red, esta vez basada en un proceso de decisión Markov entrenado a través del aprendizaje por refuerzo más que en la solución de un programa convexo utilizado por Net-trim.
  • SVCCA: Análisis de componentes canónicos vectoriales singulares para una dinámica de aprendizaje profundo e interpretabilidad, un buen bocado, pero también una obra muy rica que fusiona las técnicas SVD y CCA para analizar la similitud de las capas de una red neuronal profunda (aquí interpretada como espacios vectoriales abarcados por las neuronas, interpretadas como vectores) y mostrar cómo la convergencia de las redes, eso es lo que podemos considerar la formación de los conceptos de clases en un problema de clasificación, por ejemplo, es lo que podemos considerar la formación de las clases. Este estudio también proporciona una base para desarrollar condiciones de parada para la formación de redes profundas.

En el mismo espíritu de la simplificación de los modelos que conservan su potencia, recomendamos encarecidamente otros trabajos para una lectura amena e instructiva:

De la alquimia a la electricidad

Una de las charlas más sugerentes de toda la conferencia fue, sin duda, el discurso de Ali Rahimi como receptor del premio Test of Time Award, un premio que reconoce el impacto duradero del paper Características aleatorias para máquinas kernel a gran escala. Después de presentar brevemente el trabajo recogido en su publicación, Rahimi siguió abogando por un retorno al rigor en el escrutinio metodológico de la investigación del aprendizaje automático, argumentando que en lugar de considerar a la Inteligencia Artificial como la nueva electricidad, como sugirió Andrew Ng, en realidad podríamos estar tratando con una nueva alquimia: Una disciplina que lleva dentro de sí misma la semilla de una ciencia fundamental, pero que también promete convertir los metales en oro.

El debate sobre si estamos comercializando el rigor científico para el rendimiento de la investigación es animado y central, y apenas pasa un día sin que se publique una nueva investigación que demuestre que lo que pensamos que es verdad sobre el funcionamiento de algún modelo de Machine Learning podría ser en realidad el producto de una metodología débil. Es por eso que la poderosa intervención de Rahimi merece ser vista y meditada.

Lo suficientemente justo

Otra tendencia que acogimos con gran satisfacción durante esta edición de NIPS fue un mayor impulso a la investigación sobre la imparcialidad, que generalmente pretende ser la sensibilidad injustificada de los algoritmos a algunas características. Un ejemplo clásico de un algoritmo injusto, y que nos concierne muy de cerca, es el de un sistema automatizado de aprobación hipotecaria que le ofrecería un mejor tratamiento si, todo lo demás sin cambios, tuviera un sexo, raza o código postal diferente.

De las diversas contribuciones en esta área, consideramos que los siguientes documentos son de lectura altamente recomendable:

  • Agrupamiento justo a través de fairlets, un estudio que muestra cómo hacer cumplir la imparcialidad como una restricción dura en los problemas de agrupamiento a través de un paso de preprocesamiento que divide los datos en regiones donde la imparcialidad no puede ser fácilmente violada.
  • Sobre la imparcialidad y la calibración, mostrando una incompatibilidad inherente entre la exactitud de la tasa de error y la calibración. Esto quiere decir, por ejemplo, que un modelo predictivo que quiere alcanzar las mismas tasas de error falso-positivo y falso-negativo en dos subconjuntos de puntos no tendrá, en general, sus probabilidades de predicción que reflejen las probabilidades reales de que algo suceda.
  • En lugar de esto, se ofrece una visión un poco más brillante por De paridad a nociones basadas en preferencias de equidad en la clasificación, un trabajo interesante que muestra que la idea habitual de equidad basada en la paridad puede ser demasiado estricta para lograr una buena precisión de clasificación. Específicamente, el documento muestra que se puede lograr una precisión mucho mejor al requerir que ningún individuo prefiera estar en un grupo que no sea el actual, en lugar de exigir que todos los grupos reciban necesariamente el mismo tratamiento.

Estos documentos sólo muestran una fracción de los problemas que surgen cuando algunos conceptos de justicia necesitan ser incluidos en un algoritmo de aprendizaje automático, y una parte aún más pequeña de las técnicas que se pueden utilizar para abordarlos. Aunque relativamente nueva, esta línea de investigación es prometedora y sin duda muy necesaria, no sólo para los modelos mejorados que pueden salir de ella, sino también porque, como señaló Kate Crawford en su presentación, la cual debe ver, a través de la lente de modelos injustos podemos darnos cuenta de lo que está mal en nuestra sociedad, y tratar de arreglarlo.

Compraré esa Inteligencia Artificial

Si bien el espíritu de la conferencia sobre NIPS sigue siendo principalmente académico, es innegable la presencia cada vez más fuerte de la industria, tanto a través de los muchos patrocinios como de las contribuciones a la investigación. Pasamos algún tiempo hablando con algunos de los patrocinadores del evento y nos dimos cuenta de que tanto las empresas como los fondos de capital riesgo están dispuestos a apostar por una mercantilización de la IA. La creencia común es que sólo hay una cantidad limitada de talento relacionado con la IA, y la mayoría de las empresas preferirían ser consumidores de soluciones de IA ya hechas que luchar con los detalles sangrientos de los algoritmos y el procesamiento de datos. Es entonces verosímil que en los próximos años seremos testigos de una multiplicación de proveedores de productos de IA o, más probablemente, de servicios.

Por otra parte, para las empresas que desean crear soluciones de IA, ya sea para sí mismas o para otras, NIPS también está registrando una creciente presencia de proveedores de hardware que no se detienen con los sospechosos habituales Nvidia e Intel, sino que también incluyen ofertas como las máquinas preconfiguradas listas para usar de Lambda Lab, que funcionan a pleno rendimiento, así como nuevos e interesantes jugadores como Graphcore, una startup británica que promete una unidad de procesamiento de inteligencia de IPU, que es un procesador específicamente diseñado para aplicaciones masivamente paralelas de inteligencia artificial (esperando TPU, ¿alguien?).

Ya sea entre las universidades, los grandes internautas, las nuevas empresas visionarias, las plataformas de comercio algorítmico, las empresas automovilísticas o las empresas de consultoría, está más claro que nunca que la carrera para dar forma al futuro de lo que promete ser una enorme (r)evolución tecnológica está en pleno funcionamiento. Y sin embargo, como parece sugerir la investigación que discutimos aquí, es posible que sólo estemos empezando.