En este último artículo del caso se resumirá el problema de “Churn Rate” usando Machine Learning (ML). Este es un problema de principio a fin de Data Science.
En el primer artículo, se introdujo el problema. Se analizaron las variables y se hizo lo necesario para que las variables pudieran ser usadas en el modelo (variables categóricas se pasaron a variables dummies para hacer árbol de decisión y random forest). Además se creo un modelo de ML que predice que clientes se irán con un 86%.
En el segundo artículo, se utilizó, otra herramienta de ML llamada clustering con el objetivo de segmentar a los clientes del banco. Con esta segmentación se puede entender que tipo de clientes se van y cuales se quedan. Esta última parte es lo que se profundizará en este artículo. Ya que con esta información se pueden crear campañas de marketing que fomenten que los segmentos más propensos a irse se queden. O incluso formular nuevos productos para ellos. Todo lo anterior con el fin de mejorar el Churn rate del banco.
Dicho de otra forma el banco por una parte tiene un modelo que predice que clientes potencialmente se irán del banco. A ellos, el banco los puede llamar directamente para ofrecerle nuevos productos. Y por otra parte tiene un modelo de clustering que dice que características generales tienen los clientes que se van y se quedan.
Ambos modelos en conjunto pueden usarse para mejorar la retención de clientes por parte del banco.
Clusters: Segmentación de Clientes y Retención de Ellos
Recordando que existían 5 clusters, con estas características:
Esté gráfico, responde varias preguntas, pero de él se desprenden otras preguntas. Por ejemplo:
- ¿Qué clusters o segmentos son más propensos a irse del banco?
- Los segmentos ¿Cómo distribuyen por sexo y país?
Graficando lo anterior:
Los del clúster 4 son los que más se quedan y los del clúster 0 son los que más se van (en proporción). Clusters 1,2,3 se comportan de forma muy similar.
Recordando que:
- clúster 0= Estos son los clientes de más edad (en general sobre 50) y tienen pocos productos.
- clúster 4= Son los más jóvenes con el peor balance y más de un producto (Principalmente 2 productos y unos pocos con 3 y 4).
Es decir, una campaña para retener a los segmentos más jóvenes con peor balance y más productos (probablemente) no sería muy útil. Esto porque ellos “naturalmente” se quedan en el banco. Sin embargo, una campaña para las personas mayores con pocos productos si sería beneficiosa (ya que estos se van). Acá falta tener un análisis de costo-beneficio por tipo de cliente. La idea es que la campaña no salga más costosa que el beneficio te mantener a estos clientes.
El segmento que más se queda en el banco es el 4 y el que más se retira (en proporción) es el 0.
Respecto a como distribuyen estos segmentos:
Por sexo:
Clusters distribuidos de manera uniforme por sexo.
Por país:
Clúster 4 está principalmente en Francia y España. A Diferencia del clúster 1 que está en Alemania. El Clusters 2 y 3 está distribuido de forma uniforme entre países.
Propuesta Para el Banco
Dado los Clustering
Conviene tratar de retener mejor a los clientes del clusters 0. Estos son tantos hombres como mujeres de mayor edad y con pocos productos, distribuidos proporcionalmente entre los 3 países del banco. Por lo tanto las campañas deben tener esto en consideración (Suponiendo estos sean a los clientes que el banco apunta o solo quiera aumentar la taza de retención). Por otro lado, los clientes del clusters 4 son los que más se quedan. Estos son de Francia y España. Para ellos como los del clusters 0 conviene preguntarles los motivos por lo que se quedan o se van del banco para generar insight.
Dado el árbol de decisión
Adicionalmente el Banco puede usar el árbol de decisión elaborado en el primer artículo para tratar a los clientes que probablemente se retirarán. Recordando:
Notemos que los clientes que más se van son los que:
Mayores de 42 que no son miembros activos o son miembros pero tienen 3 o más productos.
Incluso los jóvenes menores a 42 con 3 o más productos se van (menor proporción que los mayores de 42). Es decir, en general tener más de 2 productos se correlaciona mucho con la salida de un cliente.
Dado esto se le recomienda al banco analizar sus productos. Debe preguntarse:
¿Por qué se correlaciona el número de productos que tiene un cliente con su salida del banco? ¿Son productos específicos los que producen que un cliente se retire?
Todos los análisis anteriores deben conversarse con un experto en el negocio, para ver si los distintos segmentos le hacen sentido dada su experiencia. Recibir feedback o consejos es fundamental para enriquecer el análisis.
Dado el Random Forest
Los otros dos modelos de ML le permiten al banco entender que clientes se van. Pero el Random Forest es el que mejor predice dado varias características que clientes potencialmente se irán. Este modelo es el que el banco debe alimentar (con más datos) para que mejore su poder predictivo. Y con esto atender directamente a los clientes que potencialmente se irán.