基于分类算法的流失用户分析方法及系统技术方案

技术编号:36540759 阅读:23 留言:0更新日期:2023-02-01 16:38
本发明专利技术公开了基于分类算法的流失用户分析方法及系统,属于数据处理技术领域,要解决的技术问题为如何对电信运营商的用户进行分析以预测流失用户。包括:所述预处理后的历史数据为目标数据,基于目标数据对用户流失的影响程度,对所述目标数据进行数据筛选;对所述目标数据进行降维处理、并进行重要性排序;构建用于进行用户流失预测的逻辑回归模型以及随机森林模型,基于所述样本数据以及对应的标签,分别对所述逻辑回归模型以及随机森林模型进行模型训练,得到训练后逻辑回归模型以及随机森林模型;分别通过训练后的逻辑回归模型以及随机森林模型对所述输入数据进行用户流失预测。预测。预测。

【技术实现步骤摘要】
基于分类算法的流失用户分析方法及系统


[0001]本专利技术涉及数据处理
,具体地说是基于分类算法的流失用户分析方法及系统。

技术介绍

[0002]电信运营商的用户体量庞大,如何维持用户,减少用户流失,对可能的流失用户进行预警、分析,及时采取措施进行用户挽留,最大可能的减少企业的损失,是需要解决的技术问题。

技术实现思路

[0003]本专利技术的技术任务是针对以上不足,提供基于分类算法的流失用户分析方法及系统,来解决如何对电信运营商的用户进行分析以预测流失用户的技术问题。
[0004]第一方面,本专利技术一种基于分类算法的流失用户分析方法,包括如下步骤:
[0005]获取电信运营商的历史用户数据,并为历史用户数据标注标签,所述历史用户数据包括用户基本信息、用户合同信息、用户用量信息以及用户变化信息,所述标签用于表示是否为流失的用户;
[0006]以所述历史用户数据为目标数据,对所述目标数据进行数据预处理,通过数据预处理删除异常值并对定性数据进行编码转换,得到预处理后的历史用户数据;
[0007]以所述预处理后的历史数据为目标数据,基于目标数据对用户流失的影响程度,对所述目标数据进行数据筛选,得到筛选后的历史用户数据;
[0008]以所述筛选后的历史用户数据为目标数据,对所述目标数据进行降维处理、并进行重要性排序,将排序后的历史用户数据作为样本数据;
[0009]构建用于进行用户流失预测的逻辑回归模型以及随机森林模型,基于所述样本数据以及对应的标签,分别对所述逻辑回归模型以及随机森林模型进行模型训练,得到训练后逻辑回归模型以及随机森林模型;
[0010]获取电信运营商的实时用户数据,所述实时用户数据包括用户基本信息、用户合同信息、用户用量信息以及用户变化信息;
[0011]以所述实时用户数据为目标数据,对所述目标数据进行数据预处理,通过数据预处理删除异常值并对定性数据进行编码转换,得到预处理后的实时用户数据,以所述预处理后的实时用户数据为输入数据;
[0012]分别通过训练后的逻辑回归模型以及随机森林模型对所述输入数据进行用户流失预测。
[0013]作为优选,通过数据预处理删除异常值,包括删除月内有语音、数据以及短信用量,但消费数为零的用户数据;
[0014]通过布尔值的形式对定性数据进行编码转换,通过将不可量化的数据转换为量化数据。
[0015]作为优选,基于目标数据对用户流失的影响程度,对所述目标数据进行数据筛选,包括如下步骤:
[0016]通过可视化分析的方式对所述预处理后用户数据进行数据分析,筛选出对用户流失影响小于阈值的数据,得到分析后用户数据;
[0017]基于用户数据对应的标签,对所述分析后用户数据进行相关性分析,筛除与用户流失相关性小于阈值的数据,得到筛选后用户数据。
[0018]作为优选,通过主成分分析方法对所述目标数据进行降维处理,并基于目标数据对用户流失影响程度、通过训练后的GBDT模型对降维处理后的目标数据进行重要性排序。
[0019]作为优选,通过训练后的逻辑回归模型以及随机森林模型对输入数据进行用户流失预测后,基于用户流失的实际情况选取预测准确度高的逻辑回归模型以及随机森林模型作为目标模型,基于所述实时用户数据以及对应的用户流失的实际情况,对所述目标数据进行模型训练。
[0020]第二方面,本专利技术一种基于分类算法的流失用户分析系统,用于通过如第一方面任一项所述的基于分类算法的流失用户分析对电信运营商进行流失用户分析,所述系统包括:
[0021]数据采集模块,所述数据采集模块用于获取电信运营商的历史用户数据,并为历史用户数据标注标签,所述历史用户数据包括用户基本信息、用户合同信息、用户用量信息以及用户变化信息,所述标签用于表示是否为流失的用户;并用于获取电信运营商的实时用户数据,所述实时用户数据包括用户基本信息、用户合同信息、用户用量信息以及用户变化信息;
[0022]数据预处理模块,所述数据预处理模块用于以所述历史用户数据为目标数据,对所述目标数据进行数据预处理,通过数据预处理删除异常值并对定性数据进行编码转换,得到预处理后的历史用户数据;并用于以所述实时用户数据为目标数据,对所述目标数据进行数据预处理,通过数据预处理删除异常值并对定性数据进行编码转换,得到预处理后的实时用户数据,以所述预处理后的实时用户数据为输入数据;
[0023]数据筛选模块,所述数据筛选模块用于以所述预处理后的历史数据为目标数据,基于目标数据对用户流失的影响程度,对所述目标数据进行数据筛选,得到筛选后的历史用户数据;
[0024]数据降维排序模块,所述数据降维排序模块用于以所述筛选后的历史用户数据为目标数据,对所述目标数据进行降维处理、并进行重要性排序,将排序后的历史用户数据作为样本数据;
[0025]模型训练模块,所述模型训练模块用于构建用于进行用户流失预测的逻辑回归模型以及随机森林模型,基于所述样本数据以及对应的标签,分别对所述逻辑回归模型以及随机森林模型进行模型训练,得到训练后逻辑回归模型以及随机森林模型;
[0026]预测分析模块,所述预测分析模块用于分别通过训练后的逻辑回归模型以及随机森林模型对所述输入数据进行用户流失预测。
[0027]作为优选,所述数据预处理模块用于通过数据预处理删除异常值,包括删除月内有语音、数据以及短信用量,但消费数为零的用户数据;
[0028]所述数据预处理模块用于通过布尔值的形式对定性数据进行编码转换,通过将不
可量化的数据转换为量化数据。
[0029]作为优选,所述数据筛选模块用于执行如下:
[0030]通过可视化分析的方式对所述预处理后用户数据进行数据分析,筛选出对用户流失影响小于阈值的数据,得到分析后用户数据;
[0031]基于用户数据对应的标签,对所述分析后用户数据进行相关性分析,筛除与用户流失相关性小于阈值的数据,得到筛选后用户数据。
[0032]作为优选,所述数据降维排序模块用于通过主成分分析方法对所述目标数据进行降维处理,并用于基于目标数据对用户流失影响程度、通过训练后的GBDT模型对降维处理后的目标数据进行重要性排序。
[0033]作为优选,还包括模型迭代训练模块,通过训练后的逻辑回归模型以及随机森林模型对输入数据进行用户流失预测后,所述模型迭代训练模块用于基于用户流失的实际情况选取预测准确度高的逻辑回归模型以及随机森林模型作为目标模型,基于所述实时用户数据以及对应的用户流失的实际情况,对所述目标数据进行模型训练。
[0034]本专利技术的基于分类算法的流失用户分析方法及系统具有以下优点:
[0035]1、分析影响用户流失的关键因素,基于影响用户流失的用户数据作为训练数据,训练随机森林模型以及回归逻辑模型,通过训练后的随机森林模型以及回归逻辑模型分别对筛选后的实时用户数据进行预测,可提高了用户流失分析的精确度;
[0036]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分类算法的流失用户分析方法,其特征在于,包括如下步骤:获取电信运营商的历史用户数据,并为历史用户数据标注标签,所述历史用户数据包括用户基本信息、用户合同信息、用户用量信息以及用户变化信息,所述标签用于表示是否为流失的用户;以所述历史用户数据为目标数据,对所述目标数据进行数据预处理,通过数据预处理删除异常值并对定性数据进行编码转换,得到预处理后的历史用户数据;以所述预处理后的历史数据为目标数据,基于目标数据对用户流失的影响程度,对所述目标数据进行数据筛选,得到筛选后的历史用户数据;以所述筛选后的历史用户数据为目标数据,对所述目标数据进行降维处理、并进行重要性排序,将排序后的历史用户数据作为样本数据;构建用于进行用户流失预测的逻辑回归模型以及随机森林模型,基于所述样本数据以及对应的标签,分别对所述逻辑回归模型以及随机森林模型进行模型训练,得到训练后逻辑回归模型以及随机森林模型;获取电信运营商的实时用户数据,所述实时用户数据包括用户基本信息、用户合同信息、用户用量信息以及用户变化信息;以所述实时用户数据为目标数据,对所述目标数据进行数据预处理,通过数据预处理删除异常值并对定性数据进行编码转换,得到预处理后的实时用户数据;以所述预处理后的实时用户数据为目标数据,基于筛选后的历史用户数据、对所述目标数据进行数据筛选,将影响用户流失的实时用户数据作为筛选后的实时用户数数据;以所述筛选后的历史用户数据为目标数据,对所述目标数据进行降维处理、并进行重要性排序,将排序后的实时用户数据作为输入数据;分别通过训练后的逻辑回归模型以及随机森林模型对所述输入数据进行用户流失预测。2.根据权利要求1所述的基于分类算法的流失用户分析方法,其特征在于,通过数据预处理删除异常值,包括删除月内有语音、数据以及短信用量,但消费数为零的用户数据;通过布尔值的形式对定性数据进行编码转换,通过将不可量化的数据转换为量化数据。3.根据权利要求1所述的基于分类算法的流失用户分析方法,其特征在于,基于目标数据对用户流失的影响程度,对所述目标数据进行数据筛选,包括如下步骤:通过可视化分析的方式对所述预处理后用户数据进行数据分析,筛选出对用户流失影响小于阈值的数据,得到分析后用户数据;基于用户数据对应的标签,对所述分析后用户数据进行相关性分析,筛除与用户流失相关性小于阈值的数据,得到筛选后用户数据。4.根据权利要求1所述的基于分类算法的流失用户分析方法,其特征在于,通过主成分分析方法对所述目标数据进行降维处理,并基于目标数据对用户流失影响程度、通过训练后的GBDT模型对降维处理后的目标数据进行重要性排序。5.根据权利要求1

4任一项所述的基于分类算法的流失用户分析方法,其特征在于,通过训练后的逻辑回归模型以及随机森林模型对输入数据进行用户流失预测后,基于用户流失的实际情况选取预测准确度高的逻辑回归模型以及随机森林模型作为目标模型,基于所
述实时用户数据以及对应的用户流失的实际情况,对所述目标数据进行模型训练。6.一种基于分类算法的流失用户分析系统,其特征在于,用于通过如权利要求1

5...

【专利技术属性】
技术研发人员:冯瑞雪
申请(专利权)人:浪潮通信信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1