Limpieza y análisis exploratorio de datos con Apache Spark y Optimus

Favio Andre Vazquez Prieto

d&a blog

Los datos obsoletos, inexactos o duplicados no impulsarán soluciones optimizadas de datos. Cuando los datos son inexactos, las necesidades son más difíciles de rastrear y nutrir, y las ideas pueden ser defectuosas. Los datos en los que basamos una estrategia Big Data deben ser precisos, actualizados, lo más completos posible y no deben contener entradas duplicadas. Los datos limpios resultan en mejores decisiones.

Limpiar datos es la tarea de ciencia de datos más lenta y menos divertida (hasta Optimus), pero una de las más importantes. Nadie puede iniciar un proyecto de ciencia de datos, un aprendizaje automático o una solución basada en datos sin estar seguro de que los datos que van a consumir están en su estado óptimo. Aunque existen varias soluciones de limpieza de datos, ninguna de ellas puede mantenerse al día con la aparición del Big Data, o son realmente difíciles de usar.

1

En este momento, más y más empresas están entrando (o al menos tratando de entrar) en la Gran Revolución de Datos y Aprendizaje Automático. Todos los enfoques basados en datos deben limpiar, resolver, normalizar y corregir los datos que se introducirán en los modelos que se quieren crear, y con Optimus estamos lanzando una aplicación fácil de usar, fácil de implementar en producción y de código abierto para limpiar y analizar los datos de forma paralela utilizando tecnologías de vanguardia, que pueden ser utilizados por pequeñas, medianas, grandes industrias o incluso las empresas que quieren crear soluciones de ciencia de datos y no tienen el dinero para pagar un montón de científicos de datos y crear su propio grupo para limpiar los datos que van a utilizar.

2

Optimus es un framework  para la limpieza (y mucho más), el pre-procesamiento y el análisis exploratorio de datos de forma distribuida. Utiliza todo el poder de Apache Spark para hacerlo. Implementa varias herramientas útiles para el manejo, corrección y análisis de datos que harán tu vida mucho más fácil. La primera ventaja obvia sobre cualquier otra biblioteca pública de limpieza de datos es que funcionará en tu computadora portátil o en un gran cluster, y segundo, es asombrosamente fácil de instalar, usar y entender.

El grupo de BBVA Data & Analytics en México ha estado utilizando Optimus durante los últimos meses y hemos impulsado nuestro desempeño para la limpieza, exploración y análisis de nuestros datos por factor 10x.

Requerimientos

  • Apache Spark 2.2.0
  • Python 3.5

Instalación (Windows, Mac & Linux)

En tu terminal solo escribe:
 

pip install optimuspyspark

 

Para obtener una documentación completa sobre cómo usarla, visite nuestro repositorio GitHub:

https://github.com/ironmussa/Optimus

Si desea una demostración de lo que puede hacer Optimus para usted echa un vistazo a esta notebook de ejemplo:

https://nbviewer.jupyter.org/github/ironmussa/Optimus/blob/master/examples/Optimus_Example.ipynb

Contribuidores

Licencia

Apache 2.0 © Iron.
4