Photo by Werner Du plessis

Client2vec, una manera más eficiente de conocer las preferencias de un cliente

Jairo Mejía y Leonardo Baldassini

d&a blog

La lingüística computacional ha avanzado a pasos agigantados en los últimos años. Ha permitido, por ejemplo, extraer el significado de una palabra simplemente analizando su contexto, sin un diccionario, y usando redes neuronales relativamente sencillas. Tomas Mikolov, científico de Facebook Research, fue pionero en un proceso más eficiente con su trabajo word2vec, ahora una metodología patentada de Google. Su trabajo ayudó a las máquinas a entender las relaciones entre palabras que tienen una estrecha relación semántica. La incorporación del enfoque de word2vec a la traducción de idiomas mejoró la confiabilidad y la agilidad de estos servicios. Posteriormente, muchos métodos para vectorizar palabras han aparecido, aumentando el toolset. Inspirados por este conjunto de iniciativas, en BBVA Data & Analytics hemos experimentado con Client2vec, un trabajo similar para entender el compartamiento de clientes.

Este enfoque, dirigido a hacer más eficiente y productivo el trabajo en ciencia de datos y descubrimiento de patrones,  permitió al matemático y científico de datos BBVA Data & Analytics Leonardo Baldassini explorar formas en que la banca puede abordar casoscomo la segmentación de clientes.

Client2vec es una biblioteca interna que utiliza autoencoders de eliminación de ruido apilados marginalizados en datos de transacciones de cuenta corriente para crear vectores que representan los comportamientos de los clientes. Estas representaciones se pueden utilizar y optimizar en una variedad de tareas, como la segmentación del cliente, el perfilado y las recomendaciones.

¿Qué pasaría si pudiéramos leer las necesidades del cliente de la misma manera que entendemos el significado de las palabras en una oración, no confiando solamente en datos sociodemográficos o el valor de una transacción, y optimizando la agrupación de clientes considerando su comportamiento como consumidores y no solo sus ingresos o código postal?

Baldassini descubrió en el curso de su investigación, realizada en colaboración con el científico senior de datos de BBVA D & A José Antonio Rodríguez Serrano que agrupar las preferencias de los viajeros según los criterios sociodemográficos era casi tan inexacto como hacerlo ejecutando una agrupación aleatoria. En cambio, al aplicar el enfoque Client2vec, pudo reagrupar a los viajeros mediante patrones de gasto. Para probar su hipótesis, eliminó los datos de la categoría de gasto del hotel y verificó que podía predecir si el alojamiento del hotel iba a estar presente cuando existía un patrón de compra común que identificaba el comportamiento del viajero típico (ver imagen a continuación).

El desarrollo de esta nueva metodología podría ayudar a inferir con precisión el interés de un cliente en un determinado producto financiero al analizar su comportamiento en otras categorías, de forma muy similar a situar a cada cliente en un entorno espacial georeferenciado relacionado con su comportamiento. Esto podría incluso permitir comprender el perfil de nuevos clientes y agruparlos sin tener que depender únicamente de variables como el código postal, el ingreso o la edad, que pueden ser engañosas.

Baldassini, quien es coautor de un documento sobre el tema con Rodríguez, cree que su investigación puede traducirse a diferentes casos de uso para la agrupación y la predicción del gasto.

El trabajo de client2vec se basa en un modelo bien conocido, el autoencoder marginalizado, para transformar datos transaccionales en una matriz más simple que mantiene la estructura relacional de diferentes comportamientos de compras, lo que permite representar a un cliente como un punto en un espacio multidimensional. Luego, aplicando algoritmos de vecindad a estos puntos, es posible encontrar similitudes entre los clientes en una amplia gama de categorías objetivo.

Hasta ahora, estas técnicas se han aplicado para probar los datos de las preferencias de viaje, pero se pueden escalar con los datos de compra de los clientes de los puntos de venta (TPV) u otras fuentes de datos en tiempo real. Una de las posibles aplicaciones en el futuro es adaptar las recomendaciones de productos a nuestros clientes de una manera más precisa, simplemente buscando respuestas y preferencias en grupos de comportamiento similar. De esta manera, podríamos evitar molestar al cliente con ofertas o recomendaciones que no son relevantes para sus necesidades en un momento dado.

Lea la investigación de Baldassini y Rodríguez aquí.