Lo que Vimos (y nos Gustó) en 2017 — Parte 2

BBVA Data & Analytics Team

d&a blog

El uso de Machine Learning para reforzar la confianza

Hoy en día, la creciente huella digital de nuestros clientes y nuestras capacidades analíticas nos proporcionan una comprensión mucho más profunda y una visión compleja de la dinámica de las grandes corporaciones, clientes y ciudadanos. Sin embargo, estas oportunidades tecnológicas también generan riesgos que pueden desembocar en desconfianza. Debemos darnos cuenta de que las innovaciones tecnológicas no son intrínsecamente buenas o malas. Cómo los humanos controlan y usan estos nuevos “superpoderes” plantea profundas cuestiones éticas.

Riesgos derivados de soluciones disfuncionales de Machine Learning

por Juan Murillo

Los fallos más notorios de 2017 en las aplicaciones de Machine Learning (ML) nos advierten sobre los problemas que requieren más cuidado y rigor en esta disciplina y nos obligan a mantener un ojo escéptico. Detrás de esos casos a menudo encontramos:

  1. problemas de calidad de los datos ( ejemplo aquí, aquí y aquí)
  2. sesgos en bases de datos no balanceadas
  3. errores metodológicos y malas prácticas en el lado humano

Minimizar estos tres efectos con procesos de refuerzo de la calidad y rendimiento de cuentas algorítmico es un factor clave para asegurarnos que las aplicaciones de los datos contribuye a reforzar la confianza en los proveedores de servicios, y no desemboca en una erosión de esa confianza. Además, tenemos que ser conscientes de las diferentes implicaciones de los fallos en ML (falsos positivos y falsos negativos) en diversos campos, debido a que las consecuencias y los niveles de responsabilidad son totalmente diferentes si estamos recomendando una canción, un producto financiero o diagnosticando una enfermedad.

La fiabilidad es la mayor barrera para la expansión de las soluciones basadas en Machine Learning, debido a que una vez la gente detecta que un sistema autónomo ha fallado, probablemente no va a usarlo una segunda vez.

Opiniones incrustadas en el código: sesgos e imparcialidad

por Pablo Fleurquin, Roberto Maestre, Elena Alfaro y Fabien Girardin

Uno de los debates más vibrantes dentro de la comunidad ML/AI se centra en la idea de que, sin una nueva voluntad explícita, el ML puede terminar siendo injusto en su toma de decisiones. Dos de las principales razones detrás de un problema tan generalizado son la disparidad en la representación de minorías y los sesgos humanos codificados en los datos. La primera es fácil de entender, los grupos minoritarios están subrepresentados por definición en muchas muestras de datos, lo que conduce a tasas de error más altas en estos grupos. La última, el sesgo humano, es parte integral de los datos y en la mayoría de los casos es indistinguible de ellos. Los sesgos se manifiestan en muchos tipos: sesgos demográficos, geográficos, de conducta o temporales.
Un tema tan importante no pasó desapercibido en 2017 NIPS con un exhaustivo tutorial de Moritz Hardt y Solon Barocas (Berkeley y la Universidad de Cornell) sobre la imparcialidad en Machine Learning y una inspiradora charla de la investigadora principal de NYU y cofundadora de Microsoft Research Kate Crawford en The Trouble with Bias. Se pueden encontrar recursos adicionales sobre el tema en la comunidad de rápido crecimiento en torno a la conferencia FAT / ML, en particular, la charla invitada de 2017 de la investigadora principal de Google Margaret Mitchell The Seen and Unseen Factors Influencing Knowledge in AI Systems. A principios de 2017, la revista científica publicó que Semantics derived automatically from language corpora contain human-like biases (A. Caliskan et al.) sobre prejuicios y estereotipos preexistentes en asociaciones de palabras derivadas semánticamente.

Además de detectar decisiones parciales y sesgadas, la comunidad está comenzando a abordar el problema utilizando diferentes enfoques. El grupo MPI-SWS de Max Planck ha establecido algunos enfoques interesantes para abordar este problema (ver Beyond Distributive Fairness in Algorithmic Decision Making: Feature Selection for Procedurally Fair Learning) y puede ser explorado en las ideas compartidas en la FAT / ML 2017 charla del investigador principal de Microsoft, Rich Caruana, Friends Don’t Let Friends Deploy Black Box Models: Preventing Bias via Transparent Machine Learning. Por lo tanto, no solo debemos detectar, sino abordar el aprendizaje desleal y sesgado, cambiar el rumbo para generar confianza y sacudir la conciencia de la comunidad sobre el asunto.

Transparencia como valor central del Machine Learning

por Pablo Fleurquin, Manuel Ventero, Alberto Rubio y Jordi Aranda

La transparencia también conocida como Machine Learning interpretability es una parte clave del conjunto de herramientas para abordar la desconfianza en nuestros procesos algorítmicos de toma de decisiones. Se puede utilizar para promover el aprendizaje equitativo y, además, impregna la cultura organizacional con responsabilidad ética. Como lo expresó el gran físico del siglo XX Richard Feynman: “si no puedes explicar algo en términos simples, no lo entiendes”. Esta máxima que es tan aceptada en las ciencias puras, no es tan común en Ciencia de Datos. Implica una asociación bidireccional entre la explicación y la comprensibilidad, que en última instancia se oponen a la transparencia contra el “blackbox-ness”. Sin embargo, debe tenerse en cuenta que los algoritmos “black-box” no son exclusivamente de naturaleza no lineal; los modelos lineales generalizados de gran dimensión y fuertemente afinados también pueden ser muy opacos. Afortunadamente, estos últimos años, se han realizado esfuerzos para desarrollar herramientas que arrojen luz sobre el proceso de decisión algorítmica. Comenzando con marcos agnósticos de modelos como LIME o explorando cómo las características de entrada están asociadas a las predicciones en Deep Learning, los métodos están apareciendo para despejar el camino y desmontar la máquina para explicar sus piezas. Es importante destacar que, como se muestra a fondo por Patrick Hall et al. en Ideas on Interpreting Machine Learning la transparencia del aprendizaje automático comienza en la fase de exploración y varios métodos estadísticos y de visualización pueden proporcionar interpretabilidad global y local, sin necesidad de un marco de interpretación. Para aquellos que buscan una visión en profundidad sobre el tema, el libro Transparent Data Mining for Big and Small Data es un buen referente.

¿Podría el Machine Learning ser un problema para la privacidad?

por Juan Murillo y Pablo Fleurquin

Al tiempo que nuestra huella digital aumenta, el debate sobre protección de la privacidad es frecuentemente relacionado con problemas de seguridad nacional. El equilibrio entre derechos fundamentales de los ciudadanos y el rol de los estados y las corporaciones está siendo definido con nuevos marcos legales en Europa y China, como principales exponentes. Ya se ha demostrado que el Deep Learning puede ser utilizado para reconstruir caras ocultas mediante métodos que tienen como objetivo proteger la privacidad, como la pixelización o el desenfoque gausiano.

Otra investigación del año pasado sobre inferencias mostró un modo de determinar si un registro de datos fue utilizado para entrenar a redes neuronales. Como apunta el autor: “saber que el historial clínico de cierto paciente fue utilizado para entrenar un modelo asociado con cierta enfermedad (como por ejemplo determinar la dosis apropiada de una medicina o descubrir su base genética) puede revelar que un paciente tiene esa enfermedad”.

Riesgos inherentes de la democratización del Machine Learning como un servicio en manos de no expertos

por Juan Murillo y Pablo Fleurquin

En los últimos años, la mayoría de las grandes compañías tecnológicas han comenzado a ofrecer lo que se conoce como Machine Learning como servicio: Google Prediction API, Amazon Machine Learning, Microsoft Azure Machine Learning, entre otros. Recientemente, hemos sido testigos del lanzamiento del Cloud AutoML de Google, que en palabras de Fei-Fei Li, Chief Data Scientist de Google Cloud AI, es un producto que permite a todos construir su propio modelo ML personalizado sin mucha experiencia en ML. Un gran paso hacia la democratización de la inteligencia artificial.

Junto con esta “democratización” de la inteligencia artificial, la comunidad de Machine Learning ha comenzado a ser consciente de las posibles dificultades de ML. Quedan desafíos por abordar, desde la privacidad hasta la equidad y la transparencia. Por lo tanto, es de suma importancia que la democratización de la IA se conjugue con la experiencia y la responsabilidad ética y técnica del lado del profesional. La democratización es bienvenida, pero eso no significa que todo valga. Como Cathy O’Neal lo expone en su Ted Talk 2017 The era of blind faith in Big Data must end: “muchas cosas pueden salir mal cuando ponemos la fe ciega en Big Data”. El problema es que para abordar todos estos desafíos necesitamos una especificidad y conocimiento de la disciplina. Sería muy pretencioso y ciertamente imposible encontrar un motor de ML automático que nos proteja contra todos los peligros mencionados.
Otra lección que la investigación Membership Inference Attacks Against Machine Learning Models (ver ¿Podría el Aprendizaje Automático ser un problema para la privacidad?) nos enseña que se debe poner especial atención en el desarrollo de algoritmos porque overfitting en modelos Machine Learning puede provocar que se filtre información sobre los datos utilizado para entrenar dicho modelo.

Después de todo, la competencia es uno de los pilares principales de la confianza; por lo tanto, uno debería preguntarse a sí mismo: como cliente de un banco, ¿confiaría en mi hipoteca, mi salud financiera en un proceso de toma de decisiones basado en algoritmos basado en baja experiencia?