Skip to content
Inicio » Data Science » Entendiendo el Mercado de Aplicaciones Móviles [Google Play Store]

Entendiendo el Mercado de Aplicaciones Móviles [Google Play Store]

Desafío en la Resolución de este Caso

Dentro del proceso de Data Science, o más general en el de análisis de datos, existe una etapa llamada “Data Engineering“. En ella se trabaja los datos que ya fueron adquiridos. La idea es que los datos estén lo más “limpio” posible para realizar análisis y así extraer toda su utilidad.. Por ejemplo, en esta etapa se pueden juntar dos variables para crear una nueva, que sea más relevante al problema. Abajo un resumen de lo que se hizo en Pyhon para resolver este caso.

Data Engineering

La base de datos se tuvo que limpiar ya que los datos estaban:

  • Duplicados en torno a la columna App.
  • Como objetos pese a ser numéricos.

Además de existir datos vacíos o nulos.

Adicionalmente se crearon varias variables de utilidad en está fase para entender las distintas categorías de aplicaciones. Se tuvo como supuesto implícito que cada categoría es un tipo de mercado. Por lo tanto se debe conocer en que categoría se está para saber que reglas jugar. Pese a que el tipo de mercado es importante, el como sea la aplicación y su modelo de negocio es más importante para determinar por ejemplo, su rentabilidad.

Nuevas tablas y datos (por categoría):

  • Relación entre Apps pagadas y gratis.
  • Rating promedio.
  • Apps más evaluadas (reviews).
  • Apps con mejor Ratings.

Cada una de estás variables es importante para conocer mejor una categoría

Estás tablas se encuentran completas en este Github.

Análisis Exploratorio

Análisis básico de los datos

Primero existen Apps pagadas y gratuitas con la siguiente proporción entre ellas:

En este gráfico se consideran solo las Apps con más de 100 reviews de la base de datos

Se deduce que la gran mayoría de las Apps son gratuitas.

Donde cada App tiene una categoría (hay 33 en total) y su contenido puede ser aptos para todos (“Everyone”) o para algunos. La distribución de los contenidos es la siguiente:

En este gráfico se consideran solo las Apps con más de 100 reviews de la base de datos además no se considero el contenido para mayores de 18 años ya que existía un solo registro (App).

Las App en general apuntan a todas las personas independientes de su edad. En caso de hacer una aplicación con un grado de violencia, generalmente se saltan la categoría “everyone 10+” y crean para teen. Sin embargo, no sé exceden en la violencia para ser categorizadas para mayores de 17+.

Las categorías con más Apps son: Familia (21,3%), juegos (14,5%) y herramientas (8,3%). Revisar carpeta de Github para ver los % de las otras categorías.

Análisis entre Precio y Categoría

Existe una gran variación entre la proporción de aplicaciones pagadas y gratis por categoría. Aquí se presentan solo las tres categorías con mayor proporción de aplicaciones pagadas.

Categoría# Apps pagadas#Apps gratis
PERSONALIZATION21361.00.286385
MEDICAL21254.00.254717
WEATHER446.00.136364

La tabla completa está en la carpeta de Github.

Note que la categoría de personalización y de medicina tienen un alto porcentaje (más de un 25%) de Apps pagadas.

Por otro lado, las aplicaciones pagadas en general no superan los 10 dólares (salvo ciertas excepciones). La siguiente tabla muestra el precio por categoría:

Tabla que se le acorto aplicaciones con montos superiores a 100 dólares (ya que eran muy pocas).

Análisis entre Rating y Categoría

Aparte de entender como distribuye el precio, es importante saber cual es la calificación (noción de calidad que tiene la App según sus usuarios). Las mejores Apps por categoría:

App

Category Rating
Six Pack in 30 Days – Abs Workout HEALTH_AND_FITNESS 4.9
SeatGeek – Tickets to Sports, Concerts, Broadway EVENTS 4.4

Acá se muestran las categorías con sus mejores Apps (o mejor rating validadas con más de 10.000 “reviews“). La tabla completa en el Github.

Otro aspecto interesante al evaluar es: ¿Cuáles son las categorías con mayor (y menor) rating promedio? En particular las categorías con menor rating promedio pueden ser prometedoras, ya que existe un cierto descontento con las soluciones o Apps disponibles.

Category Rating_promedio
ART_AND_DESIGN4.4
DATING3.9

Se validará más adelante, si estas diferencias son estadísticamente diferentes con un test de Anova.

Conclusión y Siguientes pasos

Una conclusión interesante al respecto de estas dos últimas tablas es que en las categorías de “Dating” y Eventos pueden ser interesantes incursionar. Esto porque tienen una baja calificación en promedio o en su mejor aplicación.

Porpuesto: El mismo análisis que se hizo para el rating se recomienda realizarlo para el número de instalaciones. ¿Qué categorías tienen más instalaciones totales? y ¿Cuántas instalaciones alcanzan las Apps más populares por categoría?

Note que este análisis se puede afinar. Si por ejemplo usted quiere crear un juego con contenido Teen. Puede analizar su mercado en torno a cuantas Apps pagadas hay en relación a las gratis para este tipo de Apps. Cuanto es el rating promedio y el más alto e incluso, de las Apps pagadas, cuanto oscilan sus precios.

Suponga que la categoría y el contenido de su App indican el mercado donde usted compite (también se debería considerar su género o “Genres“). ¿Por qué cree es importante conocerlos? Considere en su respuesta la rentabilidad y estrategia de su producto.

Relación entre variables

¿Cómo el precio se relaciona con todo el resto de variables?

El gráfico que se muestra a continuación señala la relación entre dos variables (todos los elementos excepto la diagonal). Además en su diagonal muestra la distribución de cada variable individualmente.

Adicionalmente hay una 3era (o 2da en el caso de la diagonal) variable mostrándose en cada gráfico. Está variable indica si la aplicación es pagada o gratuita (azul gratis y naranja pagada).

De este gráfico se deduce que:

Viendo solo la diagonal de este gráfico se observa que:

Las aplicaciones pagadas tienen mucho menos instalaciones y reviews (A ambos atributos se le aplico logaritmo). Pero mejor Rating.

Al mirar a los gráficos no presentes en las diagonales (relación entre variables).

Las aplicaciones pagadas tienen un review bastante alto dada sus instalaciones.

En general las aplicaciones con mejor nota tienen más descarga.

En la distribución de tamaño en MB las App pagadas y gratis distribuyen relativamente igual.

¿Cómo el contenido se relaciona con todo el resto de variables?

Al realizar lo mismo, pero usando como 3era variable el contenido se obtiene lo siguiente:

De este gráfico se deduce que:

De la diagonal del gráfico se observa que: las APP “para todos los sobre 10” (o everyone 10+) años son las que distribuyen de forma más diferente al resto. Tienen más rating y más review para una misma cantidad de install que las App de otros contenidos. Por otra parte categorías para everyone son las que tienen menos review para la misma cantidad de install y son las App más livianas.

Adicionalmente, al analizar la categoría everyone 10+ se observa que está altamente cargada a los juegos, lo que se podría justificar los altos reviews o calificaciones. De hecho la App más calificada con 44.891.723 reviews es Clash of Clans que es justamente para everyone 10+ .

Para el siguiente artículo se verá la posibilidad de realizar un modelo de Machine Learning para entender mejor estos datos. Además de realizar un test de Anova para ver si las diferencias de rating son significativas entre categorías.

Deja un comentario