Data mining es simplemente encontrar patrones útiles en los datos. Pero,
¿Qué es un patrón? y ¿Qué significa que sea útil?
Un ejemplo de patrón fue el visto en el problema de Churn Rate del banco:
Clientes riesgosos a irse:” Mayores de 42 que no son miembros activos o son miembros pero tienen 3 o más productos. “
Es decir, es una tendencia general. Esto es muy a grandes rasgos lo que es un patrón. Considere que hay patrones mucho más complejos. Por ejemplo, los típicos algoritmos de Netflix o Youtube que son de recomendación, usan data mining encontrando patrones mucho más complejos que los visto hasta ahora aquí. También hay patrones que son probabilísticos, usados para detectar, por ejemplo, si un comentario es positivo, negativo o incluso neutro (Sentiment Analysis). Estos últimos pueden detectar el tipo de comentario basándonos en sus palabras, por ejemplo, si un texto incluye la palabra “buenísimo” probablemente será positivo (puede buscar más de esto por: Naive Bayes Classifier).
Ahora, ¿qué significa que un patrón sea útil?
Un patrón es útil solo si resuelve o ayuda a resolver un problema. Para esto último, hay que definir primero que todo el problema.
En el caso del problema del banco, se quería predecir que clientes son potenciales a irse. Teniendo está información se le puede hacer seguimiento a estos clientes riesgosos a retirarse. Más aún, se les puede atender a sus demandas más diligentemente (o activamente) para mejorar su experiencia de cliente y así evitar que se vayan del banco.
Por otra parte, al opuesto de este grupo, son los clientes fieles. Probablemente sea bueno captar más de ellos (suponiendo que además generen un buen retorno) para así mejorar la cartera de cliente del banco. Con esto último se mejora la rentabilidad. Dado que ya se conocen cómo son estos clientes “rentables” se pueden hacer campañas orientadas para atraer más de ellos.
Los patrones son solo útiles en la medida que el problema resuelto cree valor.
Data Mining es un subconjunto de Data science. Donde data Science, por su parte, cuenta con tres pilares fundamentales que son:
- Big data (manipular grandes cantidades de datos)
- Insight (descubrir patrones interesantes en ellos, data mining)
- Acción (usar el insight encontrado para crear algo valioso, es decir, resolver un problema)
Para lograr lo anterior se debe adquirir los datos, prepararlos, analizarlos, reportar los resultado y actuar basándonos en ellos.
¿Tiene alguna duda al respecto? ¡Siéntase libre de preguntar en la sección de comentarios!
Fuentes Bibliográficas
Data Mining Theories, Algorithms, and Examples, NONG YE