通信客户流失预警的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37207349 阅读:10 留言:0更新日期:2023-04-20 22:59
本发明专利技术涉及一种通信客户流失预警的方法、装置、电子设备及存储介质。通信客户流失预警的方法包括步骤:S1、数据清洗,对包括客户的通信数据进行ETL数据清洗;S2、融合生产模型原始数据集;S3、采用自适应综合过采样算法对S1中原始数据集进行综合采样,生成模型样本数据集;S4、在训练集上划分a%的样本训练集和1

【技术实现步骤摘要】
通信客户流失预警的方法、装置、电子设备及存储介质


[0001]本专利技术涉及网络通信技术和机器学习算法建模领域,具体而言,涉及一种基于ADASYN

BA

Blending(自适应综合过采样

蝙蝠算法

Blending算法) 融合模型的通信客户流失预警的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着数字经济加速发展,通信运营商业务间的竞争日趋激烈,为了更好的抢占市场,运营商不仅需要发展新客户,更重要的是对存量客户进行维护,对存量客户进行流失率预测并采取挽留措施保证存量客户稳定性已成为企业关注和亟需解决的重要课题。根据相关调查数据研究表明,企业寻求一个新顾客的成本是其维持一个老顾客的成本的五到六倍;通过准确的识别潜在流失客户并采取措施进行挽留可以有效的降低企业成本,提高企业利润。
[0003]针对上述问题,借助高准确率的客户流失率预警方法筛选出潜在流失客户,进而电信运营商采用针对性的营销和挽留方法对客户进行忠诚度的培养,实现电信运营商的利润最大化。因此,维护和保持存量客户、防止存量客户流失的工作更具研究意义和价值,一种高准确率的客户流失预警模型和方法,是目前亟待解决的问题。

技术实现思路

[0004]本专利技术要解决的技术问题是如何维护和保持存量客户、防止存量客户流失,实现高准确率的客户流失预警。
[0005]为解决上述技术问题,根据本专利技术的一个方面,提供一种通信客户流失预警的方法,其包括如下步骤:S1、数据清洗,对包括客户的通信套餐资费数据、通信行为数据、信令话单数据进行ETL数据清洗,ETL数据清洗包括数据抽取、数据转换和数据加载;对客户ID进行数据的碰撞关联,针对存在缺失值的字段,进行均值填充和众数填充操作,进而通过数据关联融合得到模型所需的原始数据集,其中,客户ID为手机号码进行加密后的字符串;S2、融合生产模型原始数据集,融合通信资费数据、通信行为数据和信令话单数据,获取模型原始数据集;S3、生成模型样本数据集,采用自适应综合过采样(ADASYN)算法对S1中原始数据集进行综合采样,形成模型样本数据集,将模型样本按x:y比例将模型样本数据集划分为训练集和测试集,其中,x∈[1,9],y∈[1,9],x、y为正整数,且满足x+y=10;S4、第一层模型训练,在训练集上划分a%的样本训练集,其余1

a%为留出集 (Hold

outset),将a%的样本训练集分别采用包括XGboost模型、NGboost模型、Catboost模型、RF模型、DNN模型和LSTM模型的基模型进行模型训练,形成第一层基础分类器模型;将训练集上1

a%留出集和全部测试集分别输入包括XGboost模型、NGboost模型、Catboost模型、RF模型、DNN 模型和LSTM模型的第一层基础分类器模型,由第一层基础分类器模型的各基模型分别输出训练集预测值集合和测试集预测值集合;第一层基分类器输出的训练集预测值集合进行合并形成新训练集特征值,将第一层基分类器输出的测试集预测值集合进行合并形成新测试集预测值;S5、
第二层模型训练,基于LightGBM算法构建第二层模型,将新训练集特征值和新测试集特征值输入LightGBM模型,经训练后输出满足预先设定模型精度的模型,然后进行生产环境服务器部署;S6、Blending融合模型输出潜在流失客户清单。
[0006]根据本专利技术的实施例,步骤S5中,因LightGBM模型超参数较多,可采用蝙蝠(BA)优化算法优化超参数的取值范围,用于提升模型的预测准确度及稳健性。
[0007]根据本专利技术的实施例,步骤S3中,基于样本数据集提取模型需要的特征变量,特征变量可取一定时间内客户通信行为相关的数据,特征变量包括电话号码、一定时间内的套餐费用、账户余额、流量使用量、主/被叫次数、通话时长、入网时间。
[0008]根据本专利技术的实施例,步骤S4到步骤S6中,在融合模型上可采用 Blending算法,融合模型包括两层模型架构,其中,第一层模型架构将训练样本集上构建一个留出集,采用剩下的数据训练每个基模型,然后采用基模型对留出集进行预测,输出预测值,第二层模型架构直接对预测值建模,生成第二层模型架构。
[0009]根据本专利技术的实施例,通信客户流失预警的方法还可包括步骤:S7、步骤S6中输出的潜在流失客户清单,针对性的制定营销方案和挽留策略,营销方案和挽留策略包括免费体验套餐流量、积分送套餐,并持续跟踪业务场景应用中反馈数据。
[0010]根据本专利技术的实施例,通信客户流失预警的方法还可包括步骤:S8、将步骤S7中的反馈数据更新到S1中的原始数据集,形成建模流程闭环。
[0011]根据本专利技术的第二个方面,提供一种通信客户流失预警的装置,包括:模型样本生成单元,模型样本生成单元用于数据清洗、融合生产模型原始数据集和生成模型样本数据集,其中,数据清洗,对包括客户的通信套餐资费数据、通信行为数据、信令话单数据进行ETL数据清洗,ETL数据清洗包括数据抽取、数据转换和数据加载;对客户ID进行数据的碰撞关联,针对存在缺失值的字段,进行均值填充和众数填充操作,进而通过数据关联融合得到模型所需的原始数据集,其中,客户ID为手机号码进行加密后的字符串;融合生产模型原始数据集,融合通信资费数据、通信行为数据和信令话单数据,获取模型原始数据集;生成模型样本数据集,采用自适应综合过采样算法对S1中原始数据集进行综合采样,形成模型样本数据集,将模型样本按x:y比例将模型样本数据集划分为训练集和测试集,其中,x∈[1,9],y ∈[1,9],x、y为正整数,且满足x+y=10;第一层模型,用于对数据进行第一层模型训练,在训练集上划分a%的样本训练集,其余1

a%为留出集 (Hold

outset),将a%的样本训练集上分别采用XGboost模型、NGboost模型、 Catboost模型、RF模型、DNN模型和LSTM模型的基模型进行模型训练,形成第一层基础分类器模型;将训练集上1

a%留出集和全部测试集分别输入包括XGboost模型、NGboost模型、Catboost模型、RF模型、DNN模型和LSTM模型的第一层基础分类器模型,由第一层基础分类器模型的各基模型分别输出训练集预测值集合和测试集预测值集合;第一层基分类器输出的训练集预测值集合进行合并形成新训练集特征值,将第一层基分类器输出的测试集预测值集合进行合并形成新的测试集预测值;第二层模型,用于对数据进行第二层模型训练,第二层模型训练基于LightGBM算法构建第二层模型,将新训练集特征值和新测试集特征值输入LightGBM模型,经训练后输出满足预先设定模型精度的模型,然后进行生产环境服务器部署;Blending 融合模型,用于对数据进行Blending融合后输出潜在流失客户清单。
[0012]根据本专利技术的第三个方面,提供一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通信客户流失预警的方法,包括如下步骤:S1、数据清洗,对包括客户的通信套餐资费数据、通信行为数据、信令话单数据进行ETL数据清洗,所述ETL数据清洗包括数据抽取、数据转换和数据加载;对客户ID进行数据的碰撞关联,针对存在缺失值的字段,进行均值填充和众数填充操作,进而通过数据关联融合得到模型所需的原始数据集,其中,所述客户ID为手机号码进行加密后的字符串;S2、融合生产模型原始数据集,融合通信资费数据、通信行为数据和信令话单数据,获取模型原始数据集;S3、生成模型样本数据集,采用自适应综合过采样(ADASYN)算法对S1中原始数据集进行综合采样,形成模型样本数据集,将模型样本按x:y比例将所述模型样本数据集划分为训练集和测试集,其中,x∈[1,9],y∈[1,9],x、y为正整数,且满足x+y=10;S4、第一层模型训练,在训练集上划分a%的样本训练集,其余1

a%为留出集,将a%的样本训练集分别采用包括XGboost模型、NGboost模型、Catboost模型、RF模型、DNN模型和LSTM模型的基模型进行模型训练,形成第一层基础分类器模型;将所述训练集上1

a%留出集和全部所述测试集分别输入包括XGboost模型、NGboost模型、Catboost模型、RF模型、DNN模型和LSTM模型的第一层基础分类器模型,由第一层基础分类器模型的各基模型分别输出训练集预测值集合和测试集预测值集合;第一层基分类器输出的训练集预测值集合进行合并形成新训练集特征值,将第一层基分类器输出的测试集预测值集合进行合并形成新测试集预测值;S5、第二层模型训练,基于LightGBM算法构建第二层模型,将所述新训练集特征值和所述新测试集特征值输入LightGBM模型,经训练后输出满足预先设定模型精度的模型,然后进行生产环境服务器部署;S6、Blending融合模型输出潜在流失客户清单。2.如权利要求1所述的方法,其中,在步骤S5中,因LightGBM模型超参数较多,采用蝙蝠优化算法优化超参数的取值范围,用于提升模型的预测准确度及稳健性。3.如权利要求1所述的方法,其中,步骤S3还包括:基于样本数据集提取模型需要的特征变量,其中,所述特征变量取一定时间内客户通信行为相关的数据,所述特征变量包括电话号码、一定时间内的套餐费用、账户余额、流量使用量、主/被叫次数、通话时长、入网时间。4.如权利要求1所述的方法,其中,步骤S4到步骤S6中,在融合模型上采用Blending算法,所述融合模型包括两层模型架构,其中,第一层模型架构将训练样本集上构建一个留出集,采用剩下的数据训练每个基模型,然后采用基模型对所述留出集进行预测,输出预测值,第二层模型架构直接对所述预测值建模,生成第二层模型架构。5.如权利要求1所述的方法,还包括步骤:S7、步骤S6中输出的潜在流失客户清单,...

【专利技术属性】
技术研发人员:周晓辉王华超
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1