移动终端换机预测方法、装置、设备及可读存储介质制造方法及图纸

技术编号:26792737 阅读:20 留言:0更新日期:2020-12-22 17:08
本发明专利技术公开了一种移动终端换机预测方法、装置、设备及可读存储介质,获取业务数据,构建RandomForst和XGBOOST模型,将样本在模型的叶子节点位置变换成one‑hot编码特征,生成第一特征;对第一特征进行特征组合,生成第二特征,并将第一特征及第二特征合并;采用集成过滤法对合并后的特征进行选择,剔除表征能力差的特征;构建样本权值函数,并对模型损失函数进行优化;基于bagging框架来构建逻辑回归随机森林,通过模型进行移动终端的换机预测。本发明专利技术技术方案具有表征能力强、成本低、预测准确且鲁棒性强的优点,可便于运营商精准向用户营销手机,具有较高的商业价值。

【技术实现步骤摘要】
移动终端换机预测方法、装置、设备及可读存储介质
本专利技术涉及大数据
,特别涉及一种移动终端换机预测方法、装置、设备及可读存储介质。
技术介绍
随着我国移动网络的的发展,4G、5G技术的普及,智能手机市场发展迅猛。智能手机的普及已经势不可挡,手机在人们日常生活中扮演这越来越重要的角色,通信、消费、学习等各个领域都离不开手机,手机俨然成为生活必需品。手机终端换机市场份额现如今变得巨大,用户换机频率明显增强,运营商如何利用自己掌握的海量用户业务数据,精准向用户营销手机成为运营商拓展市场的战略中心。现有的技术中,主要从两个层面研究用户换机模型,第一种是采用传统的数据分析手段,构建用户画像;第二种是采用机器学习手段,构建用户换机模型。相比较第一种方式,第二种方式更加具有针对性,输出用户是否置换手机以及相应的换机概率,是主流的换机模型构建方式。但是,现有的换机模型构建过程中,仍然存在着许多问题。第一,采用机器学习手段构建模型,需要人工构建表征能力强的特征,但是不同的业务场景要求构建不同的人工特征,人工成本过高。第二,构建的人工特征最终不一定有效,在数据量较大的情况下,验证特征的有效性又会耗费较多的时间。第三,换机数据中,置换手机的用户人群数量远远少于非换机人群的数量,样本类别分布不均衡,样本权值默认一致,如果采用默认的优化损失函数的方式,会降低模型在少数类的泛化能力。
技术实现思路
本专利技术要解决的技术问题是如何提供一种成本低、预测准确、泛化能力强的移动终端换机预测方法、装置、设备及可读存储介质。一方面,为了解决上述技术问题,本专利技术的技术方案为:一种移动终端换机预测方法,包括步骤:S10:获取业务数据,构建RandomForst和XGBOOST模型,将样本在模型的叶子节点位置变换成one-hot编码特征,生成第一特征;S20:对所述第一特征进行特征组合,生成第二特征,并将所述第一特征及所述第二特征合并;S30:采用集成过滤法对合并后的特征进行选择,剔除表征能力差的特征;S40:构建样本权值函数,并对模型损失函数进行优化;S50:基于bagging框架来构建逻辑回归随机森林,通过模型进行移动终端的换机预测。优选地,步骤S10包括:S11:对原始数据进行清洗、缺失值插补、异常值剔除;S12:采用交叉验证法和嵌入特征法构建RandomForst以及XGBOOST模型;S13:利用RandomForst以及XGBOOST模型对原始数据进行预测,预测每一个样本在各自模型的叶子节点的位置;S14:根据样本在RandomForst以及XGBOOST模型叶子节点的位置,构建多个one-hot向量,然后将多个one-hot向量合并成一个新的向量。优选地,步骤S20中,RandomForst和XGBOOST分别构建多棵树,样本在每棵树的叶子节点的位置转化成one-hot编码,将one-hot编码合并成一个大的编码向量,对合并的大的编码向量做特征组合,捕捉这两种集成框架生成的向量之间的关系,增强向量特征的表征能力。优选地,特征组合采用两两组合的方式,特征之间采用加法组合和乘法组合。优选地,步骤S30中采用集成过滤法对合并后的特征进行选择的过程为:将样本划分为N份,取其中N-1份样本,重复N次,获得N份新的样本,设定预获取变量的数量阈值m;构建特征重要性评估指标:比率-卡方检验及方差-F检验;对划分的N份样本,计算比率-卡方检验和方差-F检验的均值,保留每份样本前m个重要的特征,取N份特征集合的交集作为模型的输入特征。优选地,对样本采取有放回抽样,并且对全部特征进行无放回抽样,构建多个新的样本数据集,对每一份数据集都重复步骤S10至S40的优化策略,拟合多个模型,采用投票选择的方式确定最终的判别结果。优选地,步骤S40中,构建样本权值函数的过程为:计算多数类与少数类的数量比值a;计算每个少数类样本和全部样本的余弦相似度,选择前预设个最相似的样本,计算这些样本中少数类的比例记为bi,确定少数类的样本权重wi=abi,多数类样本权重为1。另一方面,本专利技术还提出一种移动终端换机预测装置,包括:第一特征模块:获取业务数据,构建RandomForst和XGBOOST模型,将样本在模型的叶子节点位置变换成one-hot编码特征,生成第一特征;特征合并模块:对所述第一特征进行特征组合,生成第二特征,并将所述第一特征及所述第二特征合并;特征选择模块:采用集成过滤法对合并后的特征进行选择,剔除表征能力差的特征;优化模块:构建样本权值函数,并对模型损失函数进行优化;预算模块:基于bagging框架来构建逻辑回归随机森林,通过模型进行移动终端的换机预测。又一方面,本专利技术提出一种移动终端换机预测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的移动终端换机预测方法的步骤。再一方面,一种移动终端换机预测的可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述的移动终端换机预测方法的步骤。采用上述技术方案,本专利技术对原始数据构建RandomForst和XGBOOST模型,确定数据在两个模型中的叶子节点的位置后,将叶子节点位置变换成one-hot编码特征,提取出来的one-hot编码的特征是表征能力更强的深层特征。对提取的one-hot特征进行合并,然后实现特征组合,扩大特征维度,将生成的one-hot特征以及组合特征与原始特征合并,形成新的数据特征。在新的特征基础上,采用集成过滤法进行特征选择,剔除相对表征能力差的特征,降低特征维度,提高模型拟合速度。针对换机数据正负样本不平衡的问题,构建样本权值函数,优化交叉熵损失函数。最后采用bagging集成框架,构建逻辑回归随机森林,可有效的提高模型准确率和鲁棒性。附图说明图1为本专利技术移动终端换机预测方法一实施例的步骤流程图;图2为本专利技术移动终端换机预测方法一实施例的特征生成原理图;图3为本专利技术移动终端换机预测方法一实施例的特征组合原理图;图4为本专利技术移动终端换机预测方法一实施例的特征选择原理图;图5为本专利技术移动终端换机预测方法一实施例的特征bagging模型集成原理图;图6为本专利技术移动终端换机预测方法中优化后模型与原模型之间的性能对比图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本专利技术,但并不构成对本专利技术的限定。此外,下面所描述的本专利技术各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。参照图1,本专利技术提出了一种移动终端换机预测方法,包括步骤:S10:获取业务数据,构建RandomForst(随机森林)和XGBOOST(优化的分布式梯度增强本文档来自技高网...

【技术保护点】
1.一种移动终端换机预测方法,其特征在于,包括步骤:/nS10:获取业务数据,构建RandomForst和XGBOOST模型,将样本在模型的叶子节点位置变换成one-hot编码特征,生成第一特征;/nS20:对所述第一特征进行特征组合,生成第二特征,并将所述第一特征及所述第二特征合并;/nS30:采用集成过滤法对合并后的特征进行选择,剔除表征能力差的特征;/nS40:构建样本权值函数,并对模型损失函数进行优化;/nS50:基于bagging框架来构建逻辑回归随机森林,通过模型进行移动终端的换机预测。/n

【技术特征摘要】
1.一种移动终端换机预测方法,其特征在于,包括步骤:
S10:获取业务数据,构建RandomForst和XGBOOST模型,将样本在模型的叶子节点位置变换成one-hot编码特征,生成第一特征;
S20:对所述第一特征进行特征组合,生成第二特征,并将所述第一特征及所述第二特征合并;
S30:采用集成过滤法对合并后的特征进行选择,剔除表征能力差的特征;
S40:构建样本权值函数,并对模型损失函数进行优化;
S50:基于bagging框架来构建逻辑回归随机森林,通过模型进行移动终端的换机预测。


2.根据权利要求1所述的移动终端换机预测方法,其特征在于,步骤S10包括:
S11:对原始数据进行清洗、缺失值插补、异常值剔除;
S12:采用交叉验证法和嵌入特征法构建RandomForst以及XGBOOST模型;
S13:利用RandomForst以及XGBOOST模型对原始数据进行预测,预测每一个样本在各自模型的叶子节点的位置;
S14:根据样本在RandomForst以及XGBOOST模型叶子节点的位置,构建多个one-hot向量,然后将多个one-hot向量合并成一个新的向量。


3.根据权利要求1所述的移动终端换机预测方法,其特征在于:步骤S20中,RandomForst和XGBOOST分别构建多棵树,样本在每棵树的叶子节点的位置转化成one-hot编码,将one-hot编码合并成一个大的编码向量,对合并的大的编码向量做特征组合,捕捉这两种集成框架生成的向量之间的关系,增强向量特征的表征能力。


4.根据权利要求3所述的移动终端换机预测方法,其特征在于:特征组合采用两两组合的方式,特征之间采用加法组合和乘法组合。


5.根据权利要求1所述的移动终端换机预测方法,其特征在于:步骤S30中采用集成过滤法对合并后的特征进行选择的过程为:
将样本划分为N份,取其中N-1份样本,重复N次,获得N份新的样本,...

【专利技术属性】
技术研发人员:王权冯广辉王雷居燕峰李福朱坚陆向东林俊德
申请(专利权)人:福建新大陆软件工程有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1