Lo que vimos en la Conferencia Open Data Science Europe 2017

Rafael Hernández, Israel Herraiz y Amanda Garci

d&a blog

ODSC Londres 2017 nos mostró una asombrosa variedad de herramientas, librerías, notebooks y aplicaciones de ciencia de datos. Hubo 75 ponentes, más de 1.500 asistentes y literalmente no hubo espacio para más. No importa si prefieres Python, R o incluso Julia. Ya sea que estés interesado en visualización de datos, investigación académica o librerías Machine Learning de código abierto. Allí encontramos los temas calientes habituales, como el aprendizaje profundo (deep learning), y uno de los más difíciles de encontrar en una conferencia de código abierto: Finanzas Cuantitativas.

Hubo varios itinerarios, dependiendo del tipo de entrada que compraras: talleres, la llamada Accelerate AI Conference y las conferencias/charlas. Asistimos a los talleres y a la conferencia, y nos saltamos la conferencia de Accelerate AI.

Los talleres fueron sesiones prácticas de larga duración, principalmente a nivel introductorio, sobre diferentes temas de ciencia de datos. Nos las arreglamos para asistir al Taller de Python Quants sobre comercio algorítmico con Python, usando Pandas, y otro taller sobre la ejecución de Tensorflow en Google Cloud.

La conferencia se centró en seis temas: Ciencia de Datos Abierta, Machine Learning, Quant Finance, Visualización, Investigación en Ciencia de Datos y Kickstarter. La frontera entre algunos de ellos era un poco borrosa como puedes imaginarte En relación con Machine Learning, el bombo en el aprendizaje profundo hizo que varios oradores comenzaran sus presentaciones presentando su elemento básico: el perceptrón. Fue agradable para los asistentes a nivel de entrada, pero creemos que la organización debe fomentar cierta coordinación para evitar repeticiones.

El resto de la conferencia versó sobre temas más avanzados y temas de actualidad en el mundo de la ciencia de datos.

Notas clave

La ponencia de Neil Lawrence señaló la gran necesidad de lo que él llamó “profesionalismo de datos”. Su excelente reflexión nos reconfortó mostrando que estas cuestiones no han pasado desapercibidas para muchas empresas e instituciones. Pero sigue siendo un problema sin resolver.

¿Qué sucede si uno de los científicos de datos de su organización se va o, en sus propias palabras, es atropellado por un autobús en la calle? La respuesta es que asumir su trabajo requiere un gran esfuerzo en términos de adquisición de talento, formación, etc.

Incluso si se contrata a un nuevo gran científico de datos, el proceso de adaptación y las curvas de aprendizaje suponen un drenaje de recursos, debido a la falta de estandarización y prácticas comunes. Nosotros somos conscientes de este coste, y hemos puesto en marcha proyectos específicos que pretenden facilitar este camino lo antes posible.

Programación Probabilística con PyMC3

Nos alegramos de descubrir que estamos utilizando esta librería específica en uno de los proyectos que estamos desarrollando en BBVA Data & Analytics. Lo hemos utilizado en algunos análisis donde queremos inferir la distribución de probabilidad posterior completa a través de métodos de muestreo, como el MCMC.

Thomas Wiecki es uno de los principales colaboradores de Pymc3. En esta librería de Python solo tienes que especificar la formulación del modelo bayesiano y, bajo el capó, la librería construye un gráfico de cálculo en Theano antes de aplicar simulaciones MonteCarlo. Aquí hay algunos enlaces sobre esta charla:

Donde el Comercio Algorítmico se encuentra con el Código Abierto

Antes de conocer Quantopian, Python Quants GmbH o a algunos ponentes de ODSC, el comercio algorítmico nos parecía como magia negra. Hablar sobre los recursos de código abierto en este campo fue algo inesperado y muy bienvenido.

Por ejemplo, Quantopian es una plataforma basada en una comunidad comercial algorítmica donde la gente escribe código para estrategias de inversión. La plataforma comprueba el rendimiento de estas estrategias con una evaluación de backtesting. Además de eso, los mejores algoritmos en la comunidad son elegibles para recibir dinero de los fondos de cobertura. Como recompensa, el autor recibe una comisión por los beneficios generados por sus estrategias.

Esta conferencia fue un buen punto de partida para las personas que quieren aprender a aplicar Ciencia de Datos a Quant Finance.

Descubra más sobre esta charla y el comercio algorítmico en:

Cómo ganar competiciones Kaggle: Stacking Made Easy

El tema de esta charla fue un trabajo ordenado de uno de los grandes maestros de la comunidad de Kaggle. Básicamente, Stacking es un paso de meta-aprendizaje sobre varios modelos de aprendizaje automático para construir un conjunto de forma inteligente. En primer lugar, se utilizan clasificadores de base múltiple para predecir o clasificar en un problema supervisado. En segundo lugar, un nuevo modelo de aprendizaje combina sus predicciones utilizando el resultado de los modelos básicos como insumo para formar a un modelo de nivel superior creando un conjunto apilado.

StackNet es una estructura de meta-modelado que se puede utilizar fácilmente para aumentar la precisión de su algoritmo encontrando los pesos óptimos para cada modelo de aprendizaje de base. Soporta algunos de los marcos de aprendizaje de máquinas más populares: scikit-learning, xgboost, h20, Keras, etc.

Marios Michailidis explicó en detalle cómo funciona esta red de apilamiento generalizada:

“La mayoría de los algoritmos se basan en ciertos parámetros o suposiciones para rendir mejor, por lo tanto cada uno tiene ventajas y desventajas. El apilamiento es un mecanismo que intenta aprovechar los beneficios de cada algoritmo sin tener en cuenta (en cierta medida) o corrigiendo sus desventajas. En su forma más abstracta, el apilamiento puede verse como un mecanismo que corrige los errores de sus algoritmos .”

Stacking Made Easy: An Introduction to StackNet by Competitions Grandmaster Marios Michailidis (KazAnova)

En otra charla, Piotr Migdał nos dio algunos trucos y consejos sobre la reproducibilidad y una serie de buenas prácticas sobre la cooperación en equipo y el despliegue de modelos. Es importante tener en cuenta que incluso un solo ajuste de parámetros sin seguimiento puede llevar a la frustración e ineficiencias en todo el equipo. No puedo resistirme a mencionar su buen humor con el paralelismo entre la pintura del Ecce Homo de Borja y los temas de reproducibilidad de modelos.

BEHIND THE SCENES OF TRAINING, MANAGING AND DEPLOYING MODELS

Manténte al tanto del blog de ODSC para encontrar más:

Volvimos a Madrid con la mochila llena de ideas, nuevas herramientas para probar y esperando la próxima edición de esta conferencia en Europa. Mientras tanto, saciamos nuestro apetito por más con el blog de ODSC, siempre lleno de artículos interesantes:

https://opendatascience.com/blog/