CUSTOMER
DROPOUT PREDICTION MODELS FOR AN ECUADORIAN FUND MANAGER
María
Bohórquez[1], Joyce
Torys[2],
Milton Paredes Aguirre[3]
Palabras
clave: Clientes
desertores, Minería de Datos, Retención de clientes. |
Resumen La existencia de una empresa está
justificada por sus clientes, quienes son considerados como los activos más
importantes. Ante mercados más competitivos y donde las necesidades de los
clientes son cada vez más exigentes, las empresas buscan eficiencia en el uso
y el análisis de datos. Perder clientes es más costoso que atraer nuevos
clientes. El estudio sobre el comportamiento del cliente, particularmente su
deserción, se ha convertido en una necesidad imperante dentro del ámbito
empresarial. En la presente investigación se emplean técnicas de minería de
datos para construir modelos de predicción de deserción de clientes, los
cuales pueden ser aplicados dentro del mercado de desintermediación
financiera. Los modelos estadísticos usados son: Árboles de decisión, bosques
aleatorios y regresión logística, estos son evaluados en términos de
precisión mediante área debajo de la curva de características de operación
del receptor (AUC). La evaluación de los resultados, muestran que el bosque
aleatorio tiene un mejor rendimiento que los otros modelos aplicados en el
estudio. Códigos JEL: M31, Y10 |
Keywords: Customer Churn, Data Mining, Customer Retention. |
Abstract
The existence
of a company is justified by its customers, who are active as the most
important assets. Faced with more competitive markets and where the needs of
customers are increasingly demanding, companies seek efficiency in the use
and analysis of data. Losing customers is more expensive than attracting new
customers. The study on customer behavior, specifically attrition, has become
a prevailing need within the business environment. In the presentation of
research, data mining techniques are used to build models of customer
attrition prediction, which can be applied within the financial
disintermediation market. The statistical models used are: Decision Trees,
Random Forests and Logistic Regression, these are evaluated in terms of
accuracy by the area below the receiver operating characteristics curve
(ROC). The evaluation of the results, the evaluation that the random forest
has a better performance than the other models applied in the study. JEL Codes: M31, Y10 |
Conocer el comportamiento futuro de los clientes permite gestionar las
relaciones con ellos (CRM) de manera correcta y poder responder a la reducción
de costos de la empresa y a la presión competitiva del mercado. Aquellos
clientes que dejen de usar los productos de una empresa son denominados
desertores, identificarlos permite aplicar estrategias para retenerlos
La deserción de clientes es un problema de alta relevancia que se anida
en empresas de diferentes sectores, de hecho, se han levantado estudios dentro
áreas como la telefonía móvil
Una
de las principales causas que conlleva al problema planteado es la ineficiencia
en el análisis de información que se recaudan de los clientes. De ahí radica la
importancia de la minería de datos, técnica estadística considerada como una
herramienta estratégica importante para las empresas, debido a que, este método
permite analizar grandes volúmenes de información desde diferentes perspectivas
y sintetizarlos en información valiosa que permite la temprana y efectiva toma
de decisiones de las organizaciones empresariales, sirviendo de gran utilidad
para crear un perfil de cliente preciso basado en el comportamiento del cliente
Por
los motivos expuestos, en este estudio se propone un modelo de predicción de
deserción de clientes mediante técnica de minería de datos, con el fin de
clasificar a los clientes más propensos a desvincularse de la empresa. Los
modelos propuestos son árbol de decisión (CART), arboles aleatorios y regresión
logística; estas son las técnicas más usadas por diferentes autores para la
predicción de deserción de clientes, los rendimientos de los modelos
predictivos se evalúan mediante la Curva Característica de Funcionamiento (AUC)
para sugerir un modelo estadístico adecuado.
MARCO
TEÓRICO
Dentro
de la academia y el sector empresarial se ha investigado sobre las razones por
las cuales un cliente permanece en una empresa; según investigaciones de
marketing la empresa debe crear una relación a largo plazo donde se basa en la
satisfacción, confianza, calidad o el valor percibido por el cliente
La
retención de clientes consiste en mantener la relación comercial construida
entre un proveedor y un cliente (Gerpott, Rams, & Schi, 2001). La
retención de clientes es relevante para una empresa por la aplicación de CRM ya
que fortalece la lealtad de los clientes evitando incurrir en costos algo para
la captación de nuevos clientes.
La
definición de clientes desertores varía según el campo de aplicación al que se
realiza el estudio. En la industria de telecomunicaciones, un cliente desertor
puede ser un término usado para determinar la rotación de clientes de una
empresa a otra empresa competidora (Junxiang, 2002).
En el caso de compañías de internet, también puede ser definido como la
propensión de los clientes a dejar de hacer negocios con la empresa en un
determinado periodo de tiempo (Guangli, Lingling, Xingsen,
& Yong, 2011). Dentro del sector bancario, un cliente desertor es
aquel que cierra todas sus cuentas bancarias y cesa los negocios con el banco
en estudio (Chitra & Subashini,
2011).
Modelos de predicción de clientes
desertores aplicando minería de datos
En
un mundo globalizado y competitivo la aplicación de minería de datos para el
manejo de grandes volúmenes de información se ha convertido en una herramienta
importante para mejorar la toma de decisiones. La minería de datos mantiene
procesos y algoritmos que permiten a las empresas extraer conocimiento
relevante que está oculto dentro de los datos corporativos, con el fin de
extender y mejorar la comprensión del negocio, mediante la utilización de
sofisticados algoritmos de búsqueda de datos estadísticos (Oyeniyi
& Adeyemo, 2015).
Se
han realizado varios estudios sobre modelos la deserción futura de los clientes
mediante el uso de minería de datos, la finalidad de estos es identificar las
señales de abandono temprano y reconocer a los usuarios que tienen una alta
propensión de irse voluntariamente. Las técnicas de minería de datos que han
sido aplicadas en este tipo de modelos son: Árboles de decisión, redes
neuronales, reglas de asociación, regresión logística, árboles aleatorios y
máquinas de vectores de soporte (SVM). Tales investigaciones se han realizado
en diferentes sectores como: Telecomunicación, comercial minorista, bancario,
entre otros. A continuación, se presenta una breve revisión literaria de
estudios realizados dentro del sector financiero.
TABLA 1
Revisión de
Literatura
Autor |
Industria |
Metodología |
Datos |
Wouter Buckinx & DirkVan den Poel (2005) |
Bienes de consumo minorista |
Regresión logística, Redes neuronales y bosques
aleatorios |
Se usó registro de 158884 clientes que presentan
movimientos de compras desde abril del 2000 a enero del 2001. |
Teemu Mutanen (2006) |
Banca |
Regresión Logística |
Datos de clientes de un banco finlandés. Los datos
disponibles se recopilaron desde el período de diciembre de 2001 hasta
septiembre de 2005 (115000 datos) |
Dudyala Anil Kumar and V. Ravi (2008) |
Banca |
Modelos de MLP, LR, árbol de decisión, RF, |
14814 datos de un banco latinoamericano, 13812 no
desertores y 1002 desertores. |
Yaya Xie et al.
(2009) |
Banca |
Bosques aleatorios |
Datos de registros transaccionales de más de 20000
clientes, tiempo de recolección no especificado. |
Guangli Nie et al. (2011) |
Tarjeta de créditos/Banca |
Regresión logística y árbol de decisión |
4997 cuentas de banco comercial de china en el año
2006. |
K. Chitra
& B.Subashini (2011) |
Banca |
CART |
Consideraron el comportamiento de los últimos 3
meses de transacción de los clientes activos del banco en estudio,
teniendo en cuenta 1000 registros. |
U. Devi Prasad & S. Madhavi (2012) |
Banca |
Árbol de decisión CART y C-5 |
1484 el número de clientes de Banco Nacional de India
en un periodo de 3 meses; 1163 cuentas activas y 311 inactivas |
Soeini & Rodpysh (2012) |
Seguros |
Árbol de decisión CART, método K-means |
Recolección de información mediante cuestionario y
para ese propósito se utilizó variables de modelado de abandono de acuerdo
con entrevistas primarias de reporteros de la industria de seguros. |
Md.
Rafiqul islam and Md. Ahsan Habib (2015) |
Banca comercial minorista |
Árbol de decisión podado |
Datos de registros transaccionales de clientes,
durante un periodo de obtuvieron 18 meses. |
Davoud Gholamiangonaba et
al. (2019) |
Banca |
Regresión General Red Neuronal, Naive Bayes, MLP, SVM, RBF NN) |
Los datos utilizados en la investigación son de un
banco iraní, 860 datos entre febrero de 2013 y junio de 2013. |
En esta sección se detalla el proceso a
seguir para cumplir cada uno de los objetivos del estudio. Para la
identificación de clientes desertores se usaron dos tipos de investigación
cualitativa y cuantitativa. Dentro de la investigación cualitativa se aplicaron
entrevistas a profundidad, la ventaja de esta técnica radica en los beneficios
de crear un ambiente libre donde el dialoga fluye y se aborda varios temas (Rodrigues, Hoffmann, Mackedanz, & Hoffmann, 2011). Se entrevistaron a los
responsables de las áreas de administradora de cuentas, marketing y de
innovación, con el fin de comprender mejor el negocio.
La parte cuantitativa de este estudio
parte de la preparación de la data, luego se ejecutan los modelos de predicción
usando técnicas de minería de datos y finalmente se evalúa el rendimiento de
los modelos. Para la identificación de posibles clientes desertores se eligió
el modelo que tenga el mejor rendimiento con respecto a la predicción de los
datos, se evaluó por medio de la Curva Característica de Funcionamiento (AUC).
Así mismo, el programa estadístico en el cual se usó para el proceso de
análisis cuantitativo fue R Studio.
A continuación, se ilustra en un diagrama
la metodología usada en el proyecto.
FIGURA
1
Diseño de la metodología
Minería de datos
La técnica de minería de datos consiste en
la selección, limpieza, transformación y reducción de la data, además de la
interpretación, evaluación y desarrollo de modelos para el apoyo de decisiones,
teniendo como objetivo extraer información útil de los datos (Kantardzie, 2003). Por tal motivo, las técnicas de minería
de datos contienen un potencial de poder predictivo elevado, debido a su
capacidad de analizar grandes volúmenes de información y su hábil búsqueda de
patrones y relaciones sistemáticas a través de métodos de aprendizaje,
inteligencia artificial y estadística.
La base de datos usada en este estudio
contiene 105353 registros de clientes pertenecientes a la AFE, donde se
detallan atributos sociodemográficos del cotizante y del asesor, también
contiene variables de comportamiento del cliente, y variables que describen la
empresa donde trabaja el cotizante, dando un total de 90 atributos. Sin
embargo, se eliminaron atributos como el nombre del cliente, del asesor, del
oficial de cuentas, fecha de nacimiento, fecha de ingreso, código del asesor,
entre otras variables que no afectan a la predicción de deserción del cliente,
quedando con un total de 20 atributos. La literatura sugiere usar variables
sociodemográficas y de comportamiento del cliente para la ejecución del modelo
de predicción. Para comprobar la utilidad de estas variables se usaron
estadísticas descriptivas y además la experiencia de expertos.
Finalmente se agruparon los siguientes
grupos de variables:
Variables sociodemográficas del cliente:
Estos atributos caracterizan al cliente según su edad, género, provincia e
ingreso percibido.
Variables de comportamiento del cliente:
Estos atributos capturan el comportamiento transaccional del cliente según el
monto de depósito, el tipo de depósito, el saldo actual del fondo, el sistema
de aporte, las transacciones de los últimos 12 meses.
Siguiendo artículos referenciales como (Oyeniyi et al., 2015; Chih-Fong
et al., 2010; Kaur et al., 2013), el tratamiento de
la data se basó en la eliminación de valores faltantes, transformación y
estandarización de las variables y el balanceo del número de observaciones y la
definición del periodo de estudio
Esta parte del tratamiento consiste
identificar aquellas variables con muchos valores ausentes, luego según sea
conveniente se procede a eliminarlas o a llenar esos casilleros vacíos con
promedios o modas.
Transformación de las variables
En la base de datas hay variables
categóricas como tipo de monto, parroquia, entre otras, por tal motivo, tales
variables se las transforman a números.
Estandarización de las variables
Con el fin de mejorar el funcionamiento de
los algoritmos usados en este estudio, se empleó la técnica de estandarización
por el método de MinMax el cual fue recomendado por
expertos en el análisis de los datos de AFE dado que facilita la comparación de
variables con distintas unidades de medida.
Dentro de la data, el porcentaje de
clientes inactivos asciende al 16% y el 84% son clientes activos, claramente
existe un problema de datos desbalanceados. Pocos estudios sobre deserción de
cliente le dan importancia a la identificación de data desbalanceada, según la
literatura revisada, la técnica de balanceo de datos más usada es SMOTE, esta
consiste en un sobre muestreo sin remplazo a la clase minorista (clientes
inactivos), creando muestras sintéticas, de tal manera que se logre ampliar la
región de datos que corresponde a muestras minoristas (Chawla
et al, 2004).
Periodo de estudio seleccionado
La base de datos captura movimiento
transaccional desde octubre del 2018 hasta octubre del 2019, para este tipo de
estudios generalmente se analiza el comportamiento del cliente dentro de 12, 6
o 3 meses. El periodo de estudio que se seleccionó fue de tres meses, debido a
que, hay clientes que desertaron desde octubre, entonces trabajando bajo el
supuesto de que el 50% de la data hayan abandonado la empresa desde octubre,
entonces el modelo no podrá captar el comportamiento del cliente antes de la
rotación de manera adecuada, esta
situación de la data se asemeja a
(Prasad & Madhavi,
2012), tomando la solución que ellos
optaron, se procedió a elegir los últimos tres meses de actividad antes de que
el cliente se retire, es decir, que el periodo de tiempo difiere por cotizante.
Datos de entrenamiento y datos de prueba
Tomando en cuenta estudios de (Kaur, Singh, & Sharma, 2013; Oyeniyi & Adeyemo, 2015; Olle & Cai, 2014) la data de
entrenamiento corresponde a un 70% y el 30% a la data de prueba.
La técnica de árbol de decisión es un
método no paramétrico, lo cual permite saltarse supuestos distribucionales,
además es capaz de detectar interacciones y modelar relaciones no lineales.
Esta técnica consiste en otorgar resultados de distintas combinaciones de
decisiones y eventos mediante particiones recursivas que usan reglas de
clasificación. El algoritmo, Árbol de Clasificación y Regresión (CART), genera un árbol de decisión binario
según una función de atributo único, utilizando el índice de Gini para
determinar las mejor división, este método es
muy recomendado por (Chitra et al., 2011;
Prasad & Madhavi et
al., 2012; Guangli et al., 2006; Kaur
et al., 2013), debido a que, CART no usa regla de detención, es decir el árbol
crece y luego se poda, garantizando que no se pasen por alto patrones
importantes al detenerse demasiado pronto.
Es un método ensamblador cuyo fin es
buscar el modelo de predicción óptimo de un conjunto de grupo de clasificadores
(árboles de decisión), un modelo que mantenga un balance entre su error de
predicción y su varianza. La ventaja de este método es la creación de árboles
de forma aleatorios usando los conjuntos de entrenamiento, como también las
valoraciones que da los árboles a cada una de las variables (Buckinx & Van den Poel,
2005). Como clasificar base el modelo realiza en cada nodo se selecciona un
subconjunto aleatorio dando así la mejor selección de división para ese nodo (Burez & Van den Poel, 2009).
Es un tipo de algoritmo estadístico, cuyo
objetivo es modelar la probabilidad de un suceso de una variable dependiente en
función de otras variables explicativas o predictores, cabe recalcar que para
la construcción de este modelo tampoco se realizan supuestos sobre la
distribución de probabilidad de las variables. La regresión logística es
considerada por (Shyug Lee et al., 2004) como un
poderoso algoritmo, debido a que, se puede identificar la significancia de las
variables explicativas, por tal motivo autores como (Guangli
et al., 2006; Van den Poel et al., 2004), han optado
por usar es técnica de minería de datos para sus estudios sobre deserción del
cliente.
En esta sección se procede a identificar
el modelo con mejor acierto en la predicción de deserción de cliente. Debido a
las referencias de (Kumar et al., 2008; Islam et al., 2015), para evaluar los
modelos propuestos se usa el método de área bajo la curva característica de
funcionamiento del receptor (AUC-ROC). (AUC-ROC) es un gráfico donde en el eje
“y” se sitúan los puntos de verdaderos positivos (sensibilidad) y en el eje “x”
los falsos positivos (1- especificidad), con esto mencionado, cuanto más se aproxime
una curva ROC hacia arriba y hacia la izquierda del plano, entonces más alta es
la exactitud del modelo.
Luego de la reducción de aquellas
variables predictoras que estén altamente correlacionadas y cuyas varianzas
sean cercanas “0”, se terminó escogiendo a 10 predictores, los cuales son
detallados en la tabla 2.
Variable |
Tipo de dato |
Descripción |
“Edad”
|
Numérico |
Edad del cliente durante el periodo
de estudio. |
“Ingreso” |
Numérico |
Ingreso monetario del cliente
durante el periodo de estudio. |
“Prommonto” |
Numérico |
Promedio mensual de los últimos tres meses (varía
según cotizante). |
“Prima” |
Numérico |
Prima del cliente durante el
periodo de estudio. |
“Saldoactual” |
Numérico |
Saldo del fondo horizonte del cliente durante el
periodo de estudio. |
“Empresa” |
Independiente,
Relación de dependencia (Nominal) |
Si el cliente trabaja en relación
de dependencia o no. |
“Categoriaempresa” |
EE,
NOEE (Nominal) |
Si la empresa es estratégica o no. |
“Provinciacliente” |
Nominal |
Provincia en la que el cliente
reside. |
“Genero” |
Femenino,
Masculino (Nominal) |
Género del cliente. |
“Sistemadeaporte” |
TCredito, Rol,
Individual, Cuentacorriente, Cuentaahorro
(Nominal) |
Forma de pago del cliente, ya sea, mediante débito
de Cuenta de ahorro, corriente, rol, tarjeta de crédito o depósito de manera
individual. |
Predicción
de clientes desertores ejecutando un árbol de decisión (algoritmo CART)
De acuerdo con las reglas de la tabla 2 se
puede observar que las variables más importantes para entender el
comportamiento de clientes desertores son el saldo del fondo que mantienen, el
sistema de aporte, empresa y categoría de la empresa.
Si el saldo del fondo horizonte del
cliente es menor a $65.49, entonces es probable que deserten. Por otro lado, si
tiene clientes que mantienen un saldo mayor o igual a $65.49 y menor a $870.66
y la forma de pago la hacen de manera individual, o descuento mediante rol o de
la tarjeta de crédito, entonces es probable que sus clientes se vayan de la
empresa. Si existen clientes que mantienen un saldo mayor o igual a $65.49 y
menor a $143.83, la forma de pago la hace mediante débito de su cuenta
corriente o de ahorro, y no trabajan en relación de dependencia, entonces es
probable que deserten. Finalmente, si hay clientes que mantienen un saldo mayor
o igual a $65.49 o a $143.83, la forma de pago la hace mediante débito de su
cuenta corriente o de ahorro, no trabajan en relación de dependencia, y la
categoría de la empresa es estratégica, entonces es probable que deserten
TABLA
3
Resultado de CART
Regla de decisión |
Clase predicha |
Número de casos |
Saldoactual< $65.49 |
Desertores |
10176 |
Saldoactual >=$65.49, sistemadeaporte= Individual, Tcredito
y Rol, y saldoactual<$870.66 |
Desertores |
2095 |
Saldoactual >=$65.49, sistemadeaporte= Cuentacorriente
y Cuentaahorro, saldoactual<$143.83,
y empresa=Independientes |
Desertores |
599 |
Saldoactual >=$65.49, sistemadeaporte= Cuentacorriente
y Cuentadeahorro, saldoactual>=$143.83,
empresa=Independientes, y categoriaempresa= Empresa
estratégica |
Desertores |
299 |
Predicción de clientes desertores ejecutando
un bosque aleatorio (Random Forest)
De acuerdo con los resultados del modelo
estadístico, los atributos más importantes para la predicción de clientes
desertores son el saldo del fondo, el tipo de sistema de aporte, y si el
cliente trabaja en relación de dependencia o no. A continuación, se detallan
los resultados en la tabla 4.
TABLA 4
Resultados de Bosque Aleatorio
Nombre de las variables |
Rango |
Clase predicha |
Saldoactual |
Menor
a $80 |
Desertor |
Sistemadeaporte |
Individual,
Rol, Tarjeta de crédito |
Desertor |
Empresa |
Independientes |
Desertor |
Se aplicó el efecto marginal de los
predictores sobre la variable de resultado para identificar los rangos de
clasificación de cada variable. Los resultados muestran que, si el cliente
mantiene un saldo del fondo menor a $80 tiene un mayor a efecto en la respuesta
desertora del cliente. Si el cliente mantiene una forma de pago de manera
individual, descuento por Rol, o por tarjeta de crédito, es más probable que
deserten. Si trabaja de manera independiente entonces es más probable que
deserte. La tabla 5 resume lo expuesto.
TABLA 5
Efecto marginal de los predictores sobre variable de resultado
Orden |
Nombre de las variables |
Disminución media de Gini |
1 |
“Saldoactual” |
6851.27 |
2 |
“Sistemadeaporte” |
1250.04 |
3 |
“Empresa” |
1015.62 |
Predicción
de clientes desertores ejecutando una regresión logística
La tabla 6 muestra los resultados de la
regresión logística.
Estimado Std. Error z Valor Pr(>|z|) |
Intercepto
4.44 0.11
40.23 < 2e-16 *** |
Edad
-1.03 0.14 -7.36
1.84e-13 *** |
Prom.monto 32.57 2.15
05.15 0.0001 |
Ingreso
-1.8 0.22 -8.11
5.05e-16 *** |
Saldoactual -837.97 12.88
-65.07 < 2e-16 *** |
Empresa -1.22 0.05
-26.12 < 2e-16 *** |
Cat.empresa -0.64 0.04
-15.58 < 2e-16 *** |
Cta de ahorro
-1.74 0.08 -22.93
< 2e-16 *** |
Cta. corriente -0.24 0.10
-2.51 0.0121 * |
Apor. Ind. 2.60 0.22
11.89 < 2e-16 *** |
Tarj. crédito 0.25 0.11
2.20 0.0276 * |
Género
-0.26 0.03 -7.77
7.68e-15 *** |
Los resultados de la regresión logística
muestran que, mientras mayor sea el ingreso, la edad, y el saldo del fondo pues
menor será la probabilidad que el cliente deserte. Si el cliente maneja un tipo
de pago mediante tarjeta de crédito y de manera individual, entonces es más
probable que deserte. Si sus clientes son mujeres entonces es más probable que
deserten. Si trabajan en relación de dependencia entonces es más probable que
no deserten. El promedio de monto de los últimos 3 meses no es significativo.
Evaluación
de los modelos
Los tres modelos fueron evaluados mediante
la Curva Característica de Funcionamiento, los resultados se muestran en la
tabla 7.
TABLA 7
Resultados Curva ROC-AUC
Modelos |
AUC |
Árbol de
decisión CART |
88% |
Bosque
aleatoria |
93% |
Regresión
logística |
91% |
Según los resultados del área bajo la
Curva ROC, el bosque aleatorio obtiene un 93% de predicción correctas,
superando a los modelos de regresión logística y al árbol de decisión, por lo
tanto, el mejor modelo de predicción de deserción de clientes para este estudio
es el de bosques aleatorios.
Clientes activos en riesgo de abandono
El bosque aleatorio para perfilar al
cliente desertor arroja como variables importantes el saldo actual,
empresa y sistema de aporte. Al analizar la data bruta del estudio (150000
cotizantes activos o no) se identifica que, del total de
clientes activos, el 10.16% poseen un saldo menor a $80, el 7.04% mantiene una
forma de pago mediante descuento por rol, tarjeta de crédito o aporte
individual, y el 6.32 % no trabajan en relación de dependencia. En
la tabla 8 se detalla lo comentado.
TABLA 8
Predicción de Posibles Desertores
Casos |
Número de
casos |
Porcentaje |
1 |
13202 |
10,16% |
2 |
9157 |
7,04% |
3 |
8218 |
6,32% |
Total |
30577 |
23,52% |
FIGURA 2
Distribución de estado y saldo actual
El 23.52% de los cotizantes activos poseen
un perfil desertor, donde mayor peso tienen aquellos que mantienen un saldo
menor a $80, le sigue el sistema de aporte y luego su tipo laboral.
El estudio del comportamiento del cliente
es un insumo indispensable para las empresas, especialmente su deserción, el
alto volumen de información generado en el mercado y el uso de estadísticas
débiles impide a muchas empresas capturar de manera precisa las señales de
deserción, por lo tanto, se optó por la minería de datos como solución, siendo
esta una herramienta que permite optimizar la gestión y análisis de datos.
Dentro de la academia, el estudio de
modelos de predicción de clientes desertores usando minería de datos se ha realizado
principalmente en bancos, sin embargo, no se lo ha hecho en una administradora
de fondos. Este estudio presenta una solución a un problema específico de una
empresa en particular, en este caso la AFE. Sin embargo, la perfilación de
clientes desertores mediante las técnicas de minería de datos usadas en la
presente investigación es útil para cualquier empresa perteneciente al mercado
de desintermediación financiera que quiera clasificar a sus clientes desertores
y direccionar de mejora manera sus estrategias de retención y fidelización.
Los modelos estadísticos aplicados
permiten identificar quienes son los clientes que pueden irse de la empresa,
siendo el modelo de bosques aleatorios el óptimo. Las variables más relevantes
son el saldo de la cuenta, tipo de sistema de aportación y si trabaja de forma
independiente. Según la perfilación
hecha en el estudio de los clientes activos que tiene la empresa, se determinó
que 30577 afiliados tienen características de abandono.
Abbasimeh, H., Setak, M., & Soroor, J.
(2013). A framework for identification of high-value customers by including
social network based variables for churn prediction using neuro-fuzzy
techniques. International Journal of Production Research, 51(4), 1279-1294.
Ahna, J.-H., Hana, S.-P., &
Lee, Y.-S. (2006). Customer churn analysis: Churn determinants and mediation
effects of partial defection in the Korean mobile telecommunications service
industry. Telecommunications Policy, 30(10), 552-568.
Bolton, R., Kannan, P., & Bramlett, M. (2000). Implications of
Loyalty Program Membership and Service Experiences for Customer Retention and
Value. Journal of the Academy of Marketing Science, 95-108.
Bong-Horng, C., Ming-Shian,
T., & Cheng, S. (2007). Toward a hybrid data mining model for customer
retention. Knowledge-Based Systems, 703-718.
Bose, I., & Chen, X. (2009). Hybrid Models Using Unsupervised
Clustering for Prediction of Customer Churn. Journal of Organizational Computing
& Electronic Commerce, 19(2), 133-151.
Buckinx, W., &
Van den Poel, D. (2005). Customer base analysis: partial defection of behaviourally loyal clients in a non-contractual FMCG
retail setting. European Journal of Operational Research, 252-268.
Burez, J., & Van den Poel, D.
(2009). Handling class imbalance in customer churn prediction. Expert
Systems with Applications, 4626-4636.
Chawla, N., Bowyer, K., L.O., H., & Kegelme,
W. (2004). SMOTE: synthetic minority over-sampling technique. Journal of
Artificial Intelligence Research, 324-357.
Chih-Fong, T., & Mao-Yuan, C.
(2010). Variable selection by association rules for customer churn prediction
of multimedia on demand. Expert Systems with Applications, 2006-2015.
Chitra, K., & Subashini, B. (2011). Customer
Retention in Banking Sector using Predictive Data Mining Technique. The 5th
International Conference on Information Technology.
Dudyala, A. K.,
& Ravi, V. (2008). Predicting credit card customer churn in banks using
data mining. Institute for Development and Research in Banking Technology, 1(1),
4-28.
Feinberg, R. A., & Trotter, M. (2001). Immaculate deception: the
unintended negative effects of the CRM revolution: maybe we would be better off
without customer relations management. Defying the
limits , 26-31.
Gonçalves, D.
(2018). El Reto de la Fidelización en las Empresas Españolas. Madrid.
Guangli, N., Lingling, Z., Xingsen, L., &
Yong, S. (2011). The Analysis on the Customers Churn of Charge Email Based on
Data Mining Take One Internet Company for Example. Institute of Electrical
and Electronics Engineers, 843-847.
Islam, R., & Habib, A. (2015). A Data Mining Approach to Predict
Prospective Business Sectors for Lending in Retail Banking Using Decision Tree.
International Journal of Data Mining & Knowledge Management Process,
13-23.
Kantardzie, M.
(2003). Data Mining: Concepts, Models, Methods, and Algorithms. New
York: Wiley-IEEE Press.
Kaur, M., Singh, K., & Sharma, N. (2013). Data Mining as a tool to
Predict the Churn Behaviour among Indian bank customers.
International Journal on Recent and Innovation Trends in Computing and
Communication, 720-725.
Khan, A., Jamwal, S., & Sepehri, M. (2010). Applying Data Mining to Customer Churn
Prediction in an Internet Service Provider. Applying Data Mining to Customer
Churn Prediction in an Internet Service Provider, 9(7), 8-14.
Kim, S.-Y., Jung, T.-S., Suh, E.-H., & Hwang, H.-S. (2006). Customer
segmentation and strategy development based on customer lifetime value: A case
study. Expert Systems with Applications. Expert Systems with Applications,
101-107.
Klimontowicz, M.
(2014). Customer-Centricity Evolution as a Foundation of Bank's Competitive
Strategy. Journal of Economics and Management, 16.
Kumar, D., & Ravi, V. (2008). Predicting credit card customer churn
in banks using data mining. Int. J. Data Analysis Techniques and Strategies,
4-29.
Junxiang, L.
(2002). Predicting Customer Churn in the Telecommunications Industry An Application of Survival Analysis Modeling Using SAS. Sprint
Communications Company.
Olle, G. D., & Cai, S. (2014).
A Hybrid Churn Prediction Model in Mobile. International Journal of
e-Education, e-Business, e-Management and e-Learning, 55-62.
Oyeniyi, A., &
Adeyemo, A. (2015). Customer Churn Analysis in Banking Sector Using Data Mining
Techniques. African Journal of Computing & ICT, 165-174.
Polo Redondo, Y., & Sesé Olivan, F. J. (2009). La retención de los clientes un
estudio empírico de sus determinantes. Revista
Española de Investigación de Marketing,
117-137
[1] Escuela Superior Politécnica del Litoral,
ESPOL, Facultad de Ciencias Sociales y Humanísticas, Campus Gustavo Galindo Km.
30.5 Vía Perimetral, P.O. Box 09-01-5863, Guayaquil, Ecuador
E-mail: maleboho@espol.edu.ec
[2] Escuela Superior Politécnica del Litoral,
ESPOL, Facultad de Ciencias Sociales y Humanísticas, Campus Gustavo Galindo Km.
30.5 Vía Perimetral, P.O. Box 09-01-5863, Guayaquil, Ecuador
E-mail: jtorys@espol.edu.ec
[3] Escuela Superior Politécnica del Litoral, ESPOL, Facultad de Ciencias Sociales y Humanísticas, Campus Gustavo Galindo Km. 30.5 Vía Perimetral, P.O. Box 09-01-5863, Guayaquil, Ecuador
E-mail: isparede@espol.edu.ec