Organizamos un Data Challenge de modelado financiero ¡Participa!

Jairo Mejía

Challenges, d&a blog

Como científicos de datos, nos encanta participar en algunas iniciativas fuera del alcance de nuestros trabajos diarios. Esto nos brinda la capacidad de aprender cosas nuevas que no están directamente relacionadas con nuestro ámbito de experiencia y tener una nueva perspectiva de problemas analíticos complejos. Al mismo tiempo, este tipo de experiencias nos permite colaborar con compañeros que normalmente trabajan en otros proyectos a la vez que se enriquece nuestra red de contactos. El año pasado participamos por primera vez en el challenge FEIII 2018. Fue una experiencia tan positiva que este año decidimos colaborar con la Universidad de Maryland en la organización del desafío.

¿Qué significa FEIII?

La Integración de Información e Identificación de Entidades de carácter Financiero (FEIII, acrónimo inglés para “Financial Entity Identification and Information Integration”) es un desafío organizado por el taller “Ciencia de datos para el macro-modelado con conjuntos de datos económicos y financieros” (DSMM, acrónimo inglés para “Data Science for Macro-Modeling with Financial and Economic Datasets”). Este taller se desarrolla en paralelo a la Conferencia SIGMOD. SIGMOD es una de las conferencias más conocidas en el campo de la gestión de bases de datos.

En los últimos años, ha aumentado su alcance en la aplicación del aprendizaje automático en problemas de administración y su integración en la gestión de bases de datos.

El objetivo del taller DSMM cumple dos propósitos: en primer lugar, extraer información útil de los datos financieros. Por un lado, hay múltiples fuentes de datos abiertas listas para ser utilizadas para este propósito. Por otro lado, hay varios actores clave dentro de la industria y de las instituciones públicas interesados en estas ideas, por lo que hay espacio para hacer importantes contribuciones a este campo.

En segundo lugar, el taller pretende dar con los métodos más apropiados para llevar a cabo esta tarea y tratar de construir un punto de referencia incluyendo diferentes enfoques, de modo que posteriormente se puedan extrapolar los mismos métodos a otros datos. Este propósito es muy útil para BBVA Data & Analytics, donde manejamos datos muy diferentes en términos de privacidad, lenguaje y características, pero nos enfrentamos a desafíos similares cuando se trata de limpiar e integrar fuentes de datos separadas o construir un gráfico de conocimiento financiero.

La forma en que DSMM trata de lograr su objetivo es reunir a una comunidad de personas pertenecientes al ámbito académico así como de la industria y hacer que colaboren. Aquí es donde entra en juego el Challenge FEIII, organizando un desafío a largo plazo (dura más de un mes) para que haya algo más que enfoques preliminares. Pero organizar un desafío no es sencillo.

¿Cuáles son las dificultades de la organización del Challenge FEIII?

Una de las principales dificultades que se presentan al tratar de poner a diferentes personas trabajando para el mismo objetivo son los datos. Debido a las políticas de privacidad, los datos no se pueden compartir fácilmente. Por lo tanto, el Challenge FEIII intenta centrarse en los datos públicos como punto de partida.

Este año tenemos la suerte de contar con Enigma para proporcionar un excelente conjunto de datos, lleno de señales económicas y desafíos analíticos. Como lo describió Forbes recientemente, Enigma es una compañía que proporciona información pública gratuita y de calidad. Su capacidad para entender rápidamente estos datos y vincularlos con datos privados ha atraído a algunas de las principales compañías del mundo, desde BlackRock a PayPal.

El conjunto de datos: ‘Sistema automatizado de manifiesto’ de Aduanas y protección de fronteras de EE.UU (AMS)

Este año, el desafío toma como base un conjunto de datos que contiene la información de cabecera de las facturas de los envíos gestionados a través del Sistema Automatizado de Manifiesto (AMS, acrónimo inglés para “Automated Manifest System”) de la Agencia de Aduanas y Protección de Fronteras de los EE. UU., para los envíos entrantes de EE. UU. En 2018.

Este conjunto de datos ofrece una magnífica visión de la actividad comercial de los Estados Unidos y, por lo tanto, una gran parte del comercio mundial. Proporciona información sobre los productos que llegan a los puertos de los Estados Unidos en envíos de contenedores realizados por todo el mundo. También es una prueba para sus habilidades de procesamiento de datos con más de 16 millones de registros obtenidos en la primera mitad de 2018.

Puedes echar un vistazo a algunas de las ideas que Ben Matheson ha reflejado en esta visualización.

¿Sabías que el mar Bering de Alaska constituye el principal paso marítimo entre las dos economías más grandes, China y los Estados Unidos?

El reto: Mapeo del comercio

El conjunto de datos del AMS es rico en señales macroeconómicas e información microeconómica sobre las empresas exportadoras. Con el fin de complacer a todos los científicos de datos en FEIII 2019, hemos diseñado dos tareas:

  • Una SCORED task se centrará en encontrar exportadores para un producto y país determinado. Estos conjuntos de datos de referencia tienen un valor comercial significativo, por ejemplo, los exportadores generalmente se dirigen a los clientes para una empresa de servicios financieros.
  • Una OPEN task que apunta a la creatividad de los participantes y puede responder preguntas interesantes de la siguiente manera:
  • Resumen de tendencias; visualización de flujos; valores atípicos
  • Dado un sector industrial, caracteriza los productos, fuentes y puertos más significativos.
  • Dado un producto, identifica posibles “cuellos de botella”, incluyendo fuentes y puertos de entrada.

El cronograma del reto

  • 10 de marzo: Envío de los Datasets.
  • 22 de abril: Envío de resúmenes a DSMM Workshop.
  • 1 de mayo: Fecha límite de inscripción anticipada para SIGMOD 2019 y DSMM.
  • 15 de mayo: Puntuación de las soluciones de los participantes.
  • 31 de mayo: Presentación del short paper al DSMM Workshop.
  • Domingo 30 de junio: DSMM Workshop.

¿Todavía no estás seguro de participar?

¡Echa un vistazo a los datos! Trata de encontrar tu comida o vino favorito en el navegador de datos proporcionado por Enigma.

Descubrirás cómo los conjuntos de datos reales desafían a los científicos de datos reales. ¿Estás interesado en la limpieza de datos sin supervisión, análisis de gráficos, vinculación de registros o clasificación colectiva de texto? ¿Cómo escalan a millones de registros?

¡Esperamos tu propuesta y bienvenido a SIGMOD en Amsterdam!