一种基于多模型融合的潜在换机用户发现方法技术

技术编号:15640669 阅读:215 留言:0更新日期:2017-06-16 07:23
本发明专利技术提出一种基于多模型融合的潜在换机用户发现方法,该方法主要包括用户的消费数据和换机轨迹数据采集和预处理、特征构建、模型构建及模型融合、预测等步骤。本发明专利技术旨在利用机器学习算法的多样性和差异性,将多个模型组合起来,以获得更好的效果,使集成的模型具有更强的泛化能力。通过用户历史数据进行训练,最后在数据集上进行预测,从而得到即将换机的高价值用户,并精确的为用户推送手机信息。

【技术实现步骤摘要】
一种基于多模型融合的潜在换机用户发现方法
本专利技术涉及数据清洗方法、异常数据处理方法、用户换机打标方法、特征工程构建方法,以及采用多模型融合进行换机用户预测的技术。
技术介绍
运营商几乎每分每秒都在产生着海量业务数据,如何将这些数据利用起来并产生价值,这就成了运营商的一个迫切需求。然而随机投放的推送对多数用户造成无意义的干扰。对商家而言,滥发的推送可能降低品牌声誉,同时难以估算营销成本。基于数据挖掘技术和手段,通过运营商提供的精确的用户消费行为和历史换机轨迹刻画用户画像、了解用户需求,充分利用数据挖掘和机器学习技术为运营商的业务开展提供有力支撑。利用数据挖掘、机器学习等技术对用户行为进行分析,发现潜在的换机用户。当前通用的方法为利用有监督的分类器对用户历史换机数据、用户app使用情况等信息来建立模型,对用户是否换机,换机类型等做出预测。随着大数据时代的到来,如何有效的进行数据挖掘,从而产生商业价值已经成为了一种企业必然趋势。
技术实现思路
本专利技术提出了一种基于多模型融合的分类算法对用户换机行为进行预测,同时本专利技术还涉及到了用户历史行为分析、样本标注意、特征工程构建、特征选择和特征变换等领域的技术。为了实现上述目的,本专利技术采用的技术方案是:一种基于多模型融合的潜在换机用户发现方法,包括以下步骤:(1)数据采集和预处理,收集用户的基本信息和用户历史换机轨迹信息,删除异常信息,处理缺失信息,对数值型信息进行归一化处理;利用时间窗口划分训练集和测试集。用户的基本信息和用户历史换机轨迹信息从运营商的用户最近1年消费信息中获取。(2)特征构建,根据步骤(1)训练集和测试集中的数据提取出基本信息,以及对基本信息进行扩展得到原始特征;对原始特征分别进行排序得到排序特征;用皮尔逊相关系数衡量原始特征和目标变量之间的相关性,构建多项式特征;将训练集和测试集中的无关联属性特征作为离散特征。(3)模型构建及模型融合,分别构建树型模型、超平面模型和惰性模型中的分类器Xgboost、LIBSVM和KNN,用训练集中的数据分别对分类器Xgboost,LIBSVM和KNN进行训练,再用训练后的Xgboost、LIBSVM和KNN分别训练测试集。(4)用步骤(3)所述Xgboost、LIBSVM和KNN分类器分别对未知样本进行预测,得到的多个预测结果进行加权投票为最终的预测结果。上述步骤(1)中还包括根据用户历史换机轨迹信息对用户打标签,具体为:过滤换机时间小于20天的用户历史换机轨迹;统计用户在整个考察时间窗内使用的手机机型集合(PA)和考察时间窗之前使用的手机机型集合(PB),若集合PA和PB存在差异,那么用1标注该用户为换机用户,否则用0标注该用户不是换机用户。上述步骤(1)中异常信息是指用户的特征缺失率大于50%,则删除。处理缺失信息包括,当用户在某一个时间段内使用的手机缺失,按照时间点向后滚动,即用用户的下个时间段的手机参数填充该缺失,若用户的下个时间段内手机也存在缺失,那么向前滚动,即用用户的上个时间段的手机参数填充该缺失。所述Xgboost分类器的构建方法如下:分别对原始特征、排序特征、离散特征、多项式特征进行特征选择,按照特征重要性排序,在原始特征中选取前N1个特征,在排序特征中选取前N2个特征,在离散特征中选取前N3个特征,在多项式特征中选取前N4个特征(上述参数N1,N2,N3,N4随机取值,但N1,N2,N3,N4分别小于原始特征个数、排序特征个数、离散特征个数、多项式特征个数),Xgboost模型参数在±0.5围内(以初始化参数值为参考,上下0.5以内浮动)随机扰动,生成多个不同的Xgboost模型,所有的模型投票得到Xgboost模型。本专利技术利用多模型融合方法来进行潜在换机用户挖掘,客服了传统的人工识别换机用户的局限性;同时,不同算法的结果着眼点不同,能满足不同用户的需求,将众多的机器学习算法进行合理地组合更能刻画用户换机的多样性、准确性。通过用户历史数据进行训练,最后在数据集上进行预测,从而发现即将换机的高价值用户,并精确地为用户推送手机机型。本专利技术从实际问题手机终端精准营销出发,将数据挖掘技术应用到潜在手机终端更换的预测研究中,研究工作对决策及市场人员开展工作有重要的作用。附图说明图1为潜在换机用户发现的流程图;图2为本专利技术构建Xgboost模型的流程图;图3为本专利技术构建KNN模型的流程图;图4为本专利技术模型融合的流程图;图5为本专利技术界定考察时间段内使用的手机机型集合PA的时间轴图。具体实施方式为进一步阐述本专利技术方案,特以贵州移动2011年至2016年用户数据为例对本技术方案进行详尽阐述:1.数据采集通过运行商获取用户最近1年的消费信息以及用户的历史机型的各种参数,包括处理器、内存、像素以及是否支持导航等,收集到用户的基本信息和用户历史换机轨迹信息。2.数据预处理包括用户基本信息和用户历史换机轨迹信息的处理,根据两个数据表的描述以及物理理解进行如下处理:由于用户基本信息中某些特征存在缺失现象,针对数值型特征和枚举型特征分别做不同的处理,flow、mou、apru等数值型特征,如果存在缺失现象那么就用当前的中位数补充;性别等枚举型特征用区别于数据集中现有的枚举值填充,如“未知”。对信息中的数值型特征进行最大最小归一化处理。3.数据打标本专利技术中规定换机标准:考察时间段内出现的手机型号中,至少有一款在考察时间段之前没有出现过。轨迹数据中如果型号数据缺失,则取该用户按时间后一记录的型号补充,如果缺失记录为最后条记录,则按时间前一记录的型号补充,如果为唯一记录,在填充NULL型号。结合实际案例阐述如下:对用户打标签,首先过滤换机时间小于20天的用户历史换机轨迹的记录,随后统计用户在整个考察时间窗内使用的手机机型集合PA和考察时间窗之前使用的手机机型集合PB,若集合PA减去PB不为空,那么用1标注该用户为换机用户,否则用0标注该用户不是换机用户。4.训练集和测试集划分训练集时间点:2015年9月30日;测试集时间点:2015年12月31日;本专利技术采用基于时间滑动窗口的方法划分数据集,在不考虑突变和周期规律的情况下,该时间序列是具有短期自相关性的,即相邻的时间序列值具有连续性。很显然要预测2016年1月1日-2016年3月31日用户是否换机,离待预测时间越近的几个月的信息与待预测值相关性较大,从已知的2015年12月31日开始倒推5个月提取用户的消费数据作为主要特征,训练集的标注和特征提取和测试集保持相同。以考察用户在2015年10月1日-2015年12月31是否换机为例,图5描述了在考察时间窗内使用的手机的开始使用时间与结束时间和考察时间窗的起始点之间的关系,①手机被使用的开始时间在考察时间窗的开始时间点之前,手机被使用的结束时间在考察时间窗的结束时间点之前;②手机被使用的开始时间和结束时间在考察时间窗之内;③手机被使用的开始时间在考察时间窗的开始时间之后,手机被使用的结束时间在考察时间窗的结束时间点之后;④手机被使用的开始时间在考察时间窗的开始时间点之前,手机被使用的结束时间在考察时间窗的结束点之后。5.特征工程构建前置条件:数据打标结果,即2015年10月1日-2015年12月31日换机的用户为训练集,20本文档来自技高网...
一种基于多模型融合的潜在换机用户发现方法

【技术保护点】
一种基于多模型融合的潜在换机用户发现方法,其特征在于,包括以下步骤:(1)数据采集和预处理,收集用户的基本信息和用户历史换机轨迹信息,删除异常信息,处理缺失信息,对数值型信息进行归一化处理;利用时间窗口划分训练集、验证集和测试集;(2)特征构建,根据步骤(1)训练集和测试集中的数据提取出基本信息,以及对基本信息进行扩展得到原始特征;对原始特征分别进行排序得到排序特征;用皮尔逊相关系数衡量原始特征和目标之间变量的相关性,构建多项式特征;将训练集和测试集中的无关联属性特征作为离散特征;(3)模型构建及模型融合,分别构建树型模型、超平面模型和惰性模型中的典型的分类器Xgboost、LIBSVM和KNN,用训练集中的数据分别对Xgboost,LIBSVM和KNN进行训练,再用训练后的Xgboost、LIBSVM和KNN分别训练测试集;(4)用步骤(3)所述Xgboost、LIBSVM和KNN分类器分别对未知样本进行预测,得到的多个预测结果进行加权投票为最终的预测结果。

【技术特征摘要】
1.一种基于多模型融合的潜在换机用户发现方法,其特征在于,包括以下步骤:(1)数据采集和预处理,收集用户的基本信息和用户历史换机轨迹信息,删除异常信息,处理缺失信息,对数值型信息进行归一化处理;利用时间窗口划分训练集、验证集和测试集;(2)特征构建,根据步骤(1)训练集和测试集中的数据提取出基本信息,以及对基本信息进行扩展得到原始特征;对原始特征分别进行排序得到排序特征;用皮尔逊相关系数衡量原始特征和目标之间变量的相关性,构建多项式特征;将训练集和测试集中的无关联属性特征作为离散特征;(3)模型构建及模型融合,分别构建树型模型、超平面模型和惰性模型中的典型的分类器Xgboost、LIBSVM和KNN,用训练集中的数据分别对Xgboost,LIBSVM和KNN进行训练,再用训练后的Xgboost、LIBSVM和KNN分别训练测试集;(4)用步骤(3)所述Xgboost、LIBSVM和KNN分类器分别对未知样本进行预测,得到的多个预测结果进行加权投票为最终的预测结果。2.根据权利要求1所述一种基于多模型融合的潜在换机用户发现方法,其特征在于:所述用户的基本信息和用户历史换机轨迹信息从运营商的用户最近1年消费信息中获取。3.根据权利要求1或2所述一种基于多模型融合的潜在换机用户发现方法,其特征在于:所述步骤(1)中还包括根据用户历史换机轨迹信息对用户打标签,具体为:过滤换机时间小于...

【专利技术属性】
技术研发人员:王进夏翠萍杨阳王鸿李智星邓欣陈乔松胡峰雷大江
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1