一种基于深度神经网络的移动用户应用偏好识别方法技术

技术编号:21274104 阅读:42 留言:0更新日期:2019-06-06 08:17
本发明专利技术公开了一种基于深度神经网络的移动用户应用偏好识别方法,包括步骤:S1、收集移动用户的行为特征数据和应用特征数据,对数据进行预处理;S2、构建应用聚类模型,对应用进行聚类,得到应用所属类别;S3、根据第一用户集的应用使用数据以及S2步中的应用所属类别得到应用类别集合L;S4、利用第一用户集,构建用户应用偏好预测模型;S5、使用构建的应用偏好预测模型,根据用户的行为特征预测第二用户集中用户偏好的应用类别集合L。本发明专利技术可快速而准确地对用户应用偏好进行预测,能够提高应用运营商的推广效率和准确率,同时也给用户带来更好的应用体验。

【技术实现步骤摘要】
一种基于深度神经网络的移动用户应用偏好识别方法
本专利技术涉及数据处理的
,尤其是指一种基于深度神经网络的移动用户应用偏好识别方法。
技术介绍
随着移动网络的发展,智能手机的普及,移动应用的数量也随之快速增长。一方面用户面对数量繁多的应用不知如何选择,一方面应用发行商希望将自己的应用精准推广给更多用户使用。精准地预测用户的应用偏好,可以使运营商更加高效地扩大用户群,也让用户在选择应用时有更高的参考价值。随着移动互联网技术及应用的发展,用户越来越依赖移动应用,产生了大量的用户行为数据,同时,应用的数量繁多,预测应用偏好的计算量巨大。对海量的用户行为数据进行挖掘,并预测用户应用偏好,传统的机器学习方法难以适应海量的高维数据处理要求。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提出了一种基于深度神经网络的移动用户应用偏好识别方法,可快速而准确地对用户应用偏好进行预测,能够提高应用运营商的推广效率和准确率,同时也给用户带来更好的应用体验。为实现上述目的,本专利技术所提供的技术方案为:一种基于深度神经网络的移动用户应用偏好识别方法,包括以下步骤:S1、收集移动用户的行为特征数据和应用特征数据,对数据进行预处理;S2、构建应用聚类模型,对应用进行聚类,得到应用所属类别;S3、统计第一用户集(这类移动用户具有移动应用的使用数据)中每一个移动用户在一段时间T内使用次数最多的前N个应用;S4、根据S2步中应用聚类模型的聚类结果,得到第一用户集中每一个移动用户的N个应用对应的m(m≤N)个应用类别Pi;将每一个移动用户的m个应用类别集合L{P1,...,Pm}设为第一用户集中用户的应用偏好标签。并且,第一用户集中统计每个应用偏好标签对应的用户数量,将用户数量占总用户数量的比例小于阈值r的应用偏好标签设置为“其他”,所述阈值r为取值范围为0到1之间的小数;S5、利用第一用户集,构建用户应用偏好预测模型;所述用户应用偏好预测模型用于预测用户所偏好的应用类别标签集合L;S6、使用构建的应用偏好预测模型,根据用户的行为特征预测第二用户集(这类移动用户没有移动应用的使用数据)中用户偏好的应用类别标签集合L。在步骤S1中,所述预处理包括去除异常字段、填补缺失值和特征离散化。所述异常字段包括取值全为0、逻辑有误的字段;用特征数据的平均值填补缺失值;将连续性特征划分区间,离散化为0,1,2。在步骤S2中,所述应用聚类模型构建过程如下:S21、对应用特征数据进行预处理,所述预处理包括去除异常字段、填补缺失值和特征离散化;S22、使用KMeans聚类算法对应用特征向量进行聚类,采用手肘法确定聚类的个数K,取K为1到20范围内,对每一个K值聚类记录对应的SSE,即误差平方和,根据K和SSE的关系图选取最佳的聚类数;误差平方和的公式如下:式中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心;S23、为了更合理地选取K值,同时计算了每次聚类的Calinski-Harabasz分数值,分数值越大,聚类效果越好,画出K与Calinski-Harabasz分数的关系图,选取合适的K值;Calinski-Harabasz分数值的数学计算公式如下:式中,N为训练样本数,k为类别数;Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,Tr为矩阵的迹;S24、确定合理的聚类个数K,使用KMeans进行聚类,根据聚类结果,为每个应用标注所属类簇的类别标签。在步骤S5中,所述用户应用偏好预测模型构建过程如下:S51、对用户行为特征进行预处理,得到用户行为特征向量;S52、构建DNN神经网络模型,包括五个神经网络层:输入层、三个隐藏层、输出层;S53、将用户行为数据随机划分,80%的用户行为数据为训练集,用于模型训练;20%的用户行为数据为验证集,用于确定模型的网络结构和模型的参数;将训练集数据输入DNN神经网络模型,每一轮训练过程为:一维向量输入输入层,经过三层隐藏层,在最后经输出层得到每个用户对各应用类别偏好的概率;每一轮训练集训练完,用验证集测试模型的损失函数和准确率;将上述过程迭代,进行训练,当验证集的损失连续五轮训练没有减少或迭代训练轮数达到16轮,则停止训练,取预测性能最好的模型,即取训练中预测准确率最高的模型参数,进行保存。在步骤S6中,用户应用偏好预测模型的预测过程如下:S61、对新的用户行为特征数据进行预处理;S62、预处理后的用户行为特征向量输入DNN模型,得到用户偏好的应用类别。本专利技术与现有技术相比,具有如下优点与有益效果:本专利技术构建应用聚类模型,将应用特征向量输入聚类模型,将应用划分为多个类别,从而减少了应用偏好预测模型的计算复杂度。构建神经网络模型,形成分类器,对用户行为特征向量进行分类预测,实现快速而准确地对用户应用偏好进行预测,能够提高应用运营商的推广效率和准确率,同时也给用户带来更好的应用体验。附图说明图1为本专利技术方法逻辑流程图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。如图1所示,本实施例所提供的基于深度神经网络的移动用户应用偏好预测方法,包括以下步骤:第一步:收集用户行为数据和应用特征数据,对数据进行预处理;预处理过程包括去除异常字段,如取值全为0、逻辑有误的字段;用特征数据的平均值填补缺失值;将连续性特征划分区间,离散化为0,1,2等。第二步构建应用聚类模型,对应用进行聚类,得到应用所属类别;构建应用聚类模型的过程如下:S21、对应用特征数据进行预处理;S22、使用KMeans聚类算法对应用特征向量进行聚类,采用手肘法确定聚类的个数K,取K为1到20范围内,对每一个K值聚类记录对应的SSE(误差平方和),根据K和SSE的关系图选取最佳的聚类数。误差平方和的公式如下:式中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心;S23、为了更合理地选取K值,同时计算了每次聚类的Calinski-Harabasz分数值(分数值越大,聚类效果越好),画出K与Calinski-Harabasz分数的关系图,选取合适的K值。Calinski-Harabasz分数值的数学计算公式如下:式中,N为训练样本数,k为类别数。Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,Tr为矩阵的迹。;S24、通过步骤S22、S23获得的关系图,确定合理的聚类个数K,K值取11,使用KMeans进行聚类,根据聚类结果,为每个应用标注所属类簇的类别标签。第三步:统计第一用户集(这类移动用户具有移动应用的使用数据)中每一个移动用户在一段时间T内使用次数最多的前N个应用;第四步:根据第二步中应用聚类模型的聚类结果,得到第一用户集中每一个移动用户的N个应用对应的m(m≤N)个应用类别Pi;将每一个移动用户的m个应用类别集合L{P1,...,Pm}设为第一用户集中用户的应用偏好标签。并且,第一用户集中统计每个应用偏好标签对应的用户数量,将用户数量占总用户数量的比例小于阈值r的应用偏好标签设置为“其他”,所述阈值r为取值范围为0到1之间的小数;第五步:利用第一用户集,构建用户应用偏好预测模型;所述用户应用偏好预测模型用于预测用户所偏好的应用类别标签集合L;构建用户应用偏好预测模型的本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的移动用户应用偏好识别方法,其特征在于,包括以下步骤:S1、收集移动用户的行为特征数据和应用特征数据,对数据进行预处理;S2、构建应用聚类模型,对应用进行聚类,得到应用所属类别;S3、统计第一用户集中每一个移动用户在一段时间T内使用次数最多的前N个应用,所述第一用户集为具有移动应用使用数据的一类移动用户;S4、根据S2中应用聚类模型的聚类结果,得到第一用户集中每一个移动用户的N个应用对应的m个应用类别Pi,m≤N;将每一个移动用户的m个应用类别集合L{P1,...,Pm}设为第一用户集中用户的应用偏好标签;并且,第一用户集中统计每个应用偏好标签对应的用户数量,将用户数量占总用户数量的比例小于阈值r的应用偏好标签设置为“其他”,所述阈值r为取值范围为0到1之间的小数;S5、利用第一用户集,构建用户应用偏好预测模型,所述用户应用偏好预测模型用于预测用户所偏好的应用类别标签集合L;S6、使用构建的应用偏好预测模型,根据用户的行为特征预测第二用户集中用户偏好的应用类别标签集合L,所述第二用户集为没有移动应用使用数据的一类移动用户。

【技术特征摘要】
1.一种基于深度神经网络的移动用户应用偏好识别方法,其特征在于,包括以下步骤:S1、收集移动用户的行为特征数据和应用特征数据,对数据进行预处理;S2、构建应用聚类模型,对应用进行聚类,得到应用所属类别;S3、统计第一用户集中每一个移动用户在一段时间T内使用次数最多的前N个应用,所述第一用户集为具有移动应用使用数据的一类移动用户;S4、根据S2中应用聚类模型的聚类结果,得到第一用户集中每一个移动用户的N个应用对应的m个应用类别Pi,m≤N;将每一个移动用户的m个应用类别集合L{P1,...,Pm}设为第一用户集中用户的应用偏好标签;并且,第一用户集中统计每个应用偏好标签对应的用户数量,将用户数量占总用户数量的比例小于阈值r的应用偏好标签设置为“其他”,所述阈值r为取值范围为0到1之间的小数;S5、利用第一用户集,构建用户应用偏好预测模型,所述用户应用偏好预测模型用于预测用户所偏好的应用类别标签集合L;S6、使用构建的应用偏好预测模型,根据用户的行为特征预测第二用户集中用户偏好的应用类别标签集合L,所述第二用户集为没有移动应用使用数据的一类移动用户。2.根据权利要求1所述的一种基于深度神经网络的移动用户应用偏好预测方法,其特征在于:在步骤S1中,所述预处理包括去除异常字段、填补缺失值和特征离散化。3.根据权利要求2所述的一种基于深度神经网络的移动用户应用偏好预测方法,其特征在于:所述异常字段包括取值全为0、逻辑有误的字段;用特征数据的平均值填补缺失值;将连续性特征划分区间,离散化为0,1,2。4.根据权利要求1所述的一种基于深度神经网络的移动用户应用偏好预测方法,其特征在于,在步骤S2中,所述应用聚类模型构建过程如下:S21、对应用特征数据进行预处理,所述预处理包括去除异常字段、填补缺失值和特征离散化;S22、使用KMeans聚类算法对应用特征向量进行聚类,采用手肘法确定聚类的个数K,取K为1到20范围内,对每一个K值聚...

【专利技术属性】
技术研发人员:胡金龙曹丽洁杨疆黄敏杰雷蕾王睿苏良良刘南海冯静芳董守斌
申请(专利权)人:华南理工大学中国移动通信集团广西有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1