一种基于机器学习算法的携号转网潜客识别系统及方法技术方案

技术编号:27510344 阅读:32 留言:0更新日期:2021-03-02 18:39
本发明专利技术涉及通信业务技术领域,具体涉及一种基于机器学习算法的携号转网潜客识别系统及方法,包括:数据获取模块、数据处理模块、训练模块和用户携转概率风险等级分类模块,数据获取模块用于获取用户数据;数据处理模块用于对数据进行预处理和特征选取;所述训练模块用于构建并训练携号转网潜客识别模型,携号转网潜客识别模型的输出结果为用户的携号转网风险概率或者等级;所述用户携转概率风险等级分类模块用于计算用户的携转风险概率或风险等级,并根据用户协转风险概率不同阈值对计算结果进行风险等级分类。本发明专利技术运用了机器学习算法模型对用户的特征数据进行训练、学习,形成携号转网潜客识别风险概率模型,以预测用户的携转概率。携转概率。携转概率。

【技术实现步骤摘要】
一种基于机器学习算法的携号转网潜客识别系统及方法


[0001]本专利技术涉及通信业务
,具体涉及一种基于机器学习算法的携号转网潜客识别系统及方法。

技术介绍

[0002]携号转网是今年工信部下发的文件,要求各大运营商之间能够号码不变,运营商互相转换,导致各大运营商之间的竞争愈演愈烈,为了使得移动运营商的生存和竞争更加良好,竞争力更强。使用大数据分析挖掘技术与机器学习算法来预测高概率转网客户,运营商根据预测结果对这部分有很大倾向流失的用户进行及时的拦截或者营销,保证移动运营商的客户保有与稳定业绩营收,如不进行精准客户识别营销,不同的因素会使得网客户不断流失,导致移动运营商的巨大亏损。因此,一种可以预测高概率转网客户的系统及方法。

技术实现思路

[0003]为了解决上述问题,本专利技术提供一种基于机器学习算法的携号转网潜客识别系统及方法。
[0004]一种基于机器学习算法的携号转网潜客识别系统,包括:数据获取模块、数据处理模块、训练模块和用户携转概率风险等级分类模块,所述数据获取模块用于获取用户的周期性静态数据和动态数据;所述数据处理模块用于对获取数据进行加工,包括数据预处理模块和特征工程模块,所述数据预处理模块用于对原始数据进行数据预处理,所述特征工程模块用于对数据进行特征选取;所述训练模块用于构建并训练携号转网潜客识别模型,携号转网潜客识别模型的输出结果为用户的携号转网风险概率或者等级;所述用户携转概率风险等级分类模块用于计算用户的携转风险概率或风险等级,并根据用户协转风险概率不同阈值对计算结果进行风险等级分类。
[0005]进一步的,所述静态数据包括用户基础特征数据,所述动态数据包括用户消费行为数据和经营分析数据。
[0006]进一步的,所述预处理包括:数据清洗、缺失值填充、离群点处理、数据集成、数据变换和数据规约。
[0007]进一步的,所述特征工程模块包括多表聚合、特征加工、数据归一化、数据编码、特征选择、特征降维和样本打标口径选取。
[0008]进一步的,所述训练模块采用机器学习分类模型或者聚类模型,通过对数据的训练和学习,得到训练好的携号转网潜客识别模型;机器学习分类模型包括逻辑回归、决策树、支持向量机、XGBOOST、随机森林、GBDT、EXTRA TREE以及神经网络模型中的任意一种或多种的组合;所述聚类模型包括K-means算法、密度聚类、层次聚类、系统聚类中的任意一种或多种的组合。
[0009]一种基于机器学习算法的携号转网潜客识别方法,包括以下步骤:采集用户数据,对用户数据进行预处理;将预处理后的用户数据输入训练好的携号转网潜客识别模型中,
获得用户携转概率风险等级分类,根据用户风险等级分类判断用户的判断该用户是否为携号转网潜客,其中携号转网潜客识别模型先训练后使用,训练过程包括:
[0010]S1、获取若干用户的原始数据,通过数据处理模块进行处理,得到用于训练模型的特征数据;
[0011]S2、将特征数据输入携号转网潜客识别模型中进行训练,训练过程包括:首先根据特征数据训练W个基模型,再采用基于stacking的模型融合策略对每个基模型进行融合,将W个基模型分别在全量数据集中使用5折交叉验证,得到W列验证集标签数据与W列预测集合标签数据,将验证集进行列合并,得到M行W列的数据作为下层训练模型的训练集,验证集标签为验证集的真实标签;将得到的W列预测集合标签按列拼接作为新的预测集的预测特征;使用次级模型再次对携号转网潜客识别模型进行训练以及预测,参数调整,直到满足迭代次数,最终得到训练好的携号转网潜客识别模型。
[0012]进一步的,进行在数据处理模块中处理时,首先通过数据预处理模块对原始数据进行数据预处理,得到预处理后的数据,所述预处理操作包括数据清洗、缺失值填充、离群点处理、数据集成、数据变换和数据规约;然后将预处理后的数据通过特征工程模块进行特征提取,得到用于训练模型的特征数据,特征提取操作包括:多表聚合、特征加工、数据归一化、数据编码、特征选择、特征降维、样本打标口径选取。
[0013]与现有技术相比,本专利技术的有益效果如下:
[0014]1.本专利技术使用的Stacking模型融合策略,减少了强基学习器模型的方差,通过多个样本采样训练,降低了总体模型的方差,解决单模型精度与泛化能力不足的缺陷。
[0015]2.本专利技术通过采用多个树模型的融合解决了单个模型无法同时使用连续型特征数据与类别型特征数据的缺陷,同时自动无需将缺失值进行单独处理。
[0016]3.本专利技术通过特征采样的方法减少了特征共线性的可能,增加了模型的鲁棒性与可解释性。
附图说明
[0017]下面结合附图和具体实施方式对本专利技术做进一步详细的说明。
[0018]图1为本专利技术的结构框图;
[0019]图2为本专利技术模型融合策略框架图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]如图1所示,一种基于机器学习算法的携号转网潜客识别系统,包括:数据获取模块、数据处理模块、训练模块和用户携转概率风险等级分类模块。
[0022]所述数据获取模块用于获取周期性静态数据和动态数据。所述静态数据包括用户基础特征数据,例如用户姓名、用户性别、用户号码、用户地址等;所述动态数据包括用户消费行为数据和经营分析数据,例如用户消费记录数据、用户套餐办理记录等。
[0023]所述数据处理模块用于对数据进行加工,包括数据预处理模块和特征工程模块。所述数据预处理模块用于对原始数据进行数据预处理,预处理包括:对原始数据进行数据预处理,包括数据清洗、缺失值填充、离群点处理、数据集成、数据变换和数据规约。所述特征工程模块用于对数据进行特征选取,特征选取操包括:多表聚合、特征加工、数据归一化、数据编码、特征选择、特征降维、样本打标口径选取。
[0024]多表聚合:对经预处理的数据,进行多表聚合,形成一个用户账号对应多个特征维度的数据表。
[0025]特征加工:特征包括静态特征、消费行为特征、用户周期使用状况和用户投诉状况特征等几个方面。
[0026]静态特征:包括但不限于用户星级、用户使用号码时长、用户性别、年龄、手机终端类型等;
[0027]行为特征:包括但不限于用户近三月消费套餐总额、均值、最大最小值、套餐更换频率、套餐总价值等;
[0028]用户周期使用状况和用户投诉状况特征:包括但不限于用户近三月是否携转咨询、咨询次数、均值、最大最小值、中位数、与异网号码通话次数、均值、近三月投诉次数、均值等。
[0029]数据归一化:对数值型变量特征进行数据归一化处理。
[0030]数据编码:对连续变量特征采用离散本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法的携号转网潜客识别系统,包括:数据获取模块、数据处理模块、训练模块和用户携转概率风险等级分类模块,其特征在于,所述数据获取模块用于获取用户的周期性静态数据和动态数据;所述数据处理模块用于对获取数据进行加工,包括数据预处理模块和特征工程模块,所述数据预处理模块用于对原始数据进行数据预处理,所述特征工程模块用于对数据进行特征选取;所述训练模块用于构建并训练携号转网潜客识别模型,携号转网潜客识别模型的输出结果为用户的携号转网风险概率或者等级;所述用户携转概率风险等级分类模块用于计算用户的携转风险概率或风险等级,并根据用户协转风险概率不同阈值对计算结果进行风险等级分类。2.根据权利要求1所述的一种基于机器学习算法的携号转网潜客识别系统,其特征在于,所述静态数据包括用户基础特征数据,所述动态数据包括用户消费行为数据和经营分析数据。3.根据权利要求1所述的一种基于机器学习算法的携号转网潜客识别系统,其特征在于,所述预处理包括:数据清洗、缺失值填充、离群点处理、数据集成、数据变换和数据规约。4.根据权利要求1所述的一种基于机器学习算法的携号转网潜客识别系统,其特征在于,所述特征工程模块包括多表聚合、特征加工、数据归一化、数据编码、特征选择、特征降维和样本打标口径选取。5.根据权利要求1所述的一种基于机器学习算法的携号转网潜客识别系统,其特征在于,所述训练模块采用机器学习分类模型或者聚类模型,通过对数据的训练和学习,得到训练好的携号转网潜客识别模型;机器学习分类模型包括逻辑回归、决策树、支持向量机、XGBOOST、随机森林、GBDT、EXTRA TREE以及神经网络模型中的任意一种或多种的组合;所述聚类模型包括K-m...

【专利技术属性】
技术研发人员:王进杨浩然
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1