一种基于安装包列表的移动用户性别预测方法技术

技术编号:14136093 阅读:466 留言:0更新日期:2016-12-10 04:14
本发明专利技术公开的一种基于安装包列表的移动用户性别预测方法,包含以下步骤:获取有性别标签的用户设备号;从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;将安装包列表数量小于M或者大于N的用户剔除;将安装包列表信息转换为特征数据集;将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。本发明专利技术的方法,移动用户性别预测的准确率高。

【技术实现步骤摘要】

本专利技术涉及移动互联网领域,特别涉及一种基于安装包列表的移动用户性别预测方法
技术介绍
现有技术中,如Your Installed Apps Reveal Your Gender and More!(ACM SIGMOBILE Mobile Computing and Communications Review,2015)公开了一种移动用户性别的预测方法,具体为:通过提取安装包数量和付费的数值特征、安装包类别特征、安装包性别概率特征和安装包内容描述特征来独自或组合作为每个用户的特征,然后利用机器学习中的朴素贝叶斯和支持向量机方法来判断用户的性别。上述方法,在特征提取时选取了很多不同且有效的特征来预测性别,但是在运用特征和组合特征时过于简单,仍有较大的改进空间;而且在无法提供全部特征时,移动用户性别的预测无法实现,较为复杂。而在Predicting user traits from a snapshot of apps installed on a smartphone(ACM SIGMOBILE Mobile Computing and Communications Review,2014,18(2):1-8.)也公开了一种移动用户性别的预测方法,具体为:通过分析安装包数量和付费信息,安装包的类别信息等,但最终选定安装包的描述信息来抽取tfidf特征,结合从应用市场获取的相关查询的Top50的安装包描述,利用机器学习中的支持向量机方法来判断用户的宗教信仰,单身与否,父母与否等用户属性。该方法合理利用应用市场的查询功能,预先获取相关的app描述作为正样例的参照,再提取训练和测试样本的tfidf特征,特征提取有较好的表现,但是安装包的其他相关特征并未得到合理的充分运用。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于安装包列表的移动用户性别预测方法。一种基于安装包列表的移动用户性别预测方法,包含以下步骤:S1.获取有性别标签的用户设备号;S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;性别和安装包列表称为原始数据集;S3.将安装包列表数量小于M或者大于N的用户剔除;其中M小于N,M、N的值根据实际需要设定;S4.将安装包列表信息转换为特征数据集:(1)假定原始数据集中男女比例为x:1,安装包P在a个男性用户的安装列表中出现过,在b个女性用户中出现过,则安装包P的性别特征值为 a + 1 ( b + 1 ) x ; ]]>由此得到每个安装包的性别特征值,并将每个安装包映射为性别偏向值,记为字典D1;其中安装包的性别偏向值即为安装包的性别特征值,当安装包的性别特征值为1时,表明该安装包没有性别偏向;a加1、b加1的原因是做拉普拉斯平滑;(2)根据已有的安装包类别库,将每个安装包映射为一个或多个类别,记为字典D2;(3)对于每个用户,根据字典D1将其所有安装包映射为性别偏向值,取偏离1最大的K个值(2和0.5、10和0.1偏离1的程度都相同)作为用户的第一特征;(4)对于每个用户,将其所有性别偏向值映射到预先划分好的十个区间中,计算每个区间中性别偏向值的个数的比例作为用户的第二特征;(5)对于每个用户,根据字典D2将其所有安装包映射为类别,计算每个类别出现次数的比例作为用户的第三特征;(6)将每个用户的性别标签、第一特征、第二特征、第三特征记为特征数据集;所述第一特征为topK特征,第二特征为性别特征,第三特征为类别特征;S5.将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;S6.从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。其实步骤S4中的子步骤(1)和子步骤(2)是一样的,都是为安装包建立某种字典,(1)中是建立安装包到性别偏向值的字典D1,而(2)是建立安装包到安装包类别的字典D2,D1和D2字典建立后是固定不变的,不再依赖任何数据,并同时服务于训练阶段和预测阶段。因此,严格来说,子步骤(1)和(2)只是预处理的阶段,不算特征转换阶段,子步骤(3)-(5)才是特征转换,因为D1和D2只是提供特征转换时所需要用到的字典。因此,在预测阶段,只需要实施子步骤(3)-(5)即可,不再计算(1)和(2),直接调用D1和D2。步骤S5中,所述GBDT是一种迭代的决策树算法,采用了Boost思想,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。与传统的Boost的区别是,每一次的计算是为了减少上一次的残差,为消除残差,在残差减少的梯度方向上建立一个新的模型。因此在GBDT中,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少。GBDT的主要公式如下:F(X)=F0+β1T1(X)+β2T2(X)+...+βMTM(X)其中F0是初始值,Ti是一棵棵的决策树,β是每棵树的权重。步骤S3中,所述M=15,N=1000。本专利技术与现有技术相比,具有如下优点和有益效果:本专利技术的模型在测试集的分布上(男女比约为2:1)能达到的准确率达到80%,其中男性准确率为82%,女性准确率为76%。比现有技术提高约10%的准确率;模型基于百万级别的训练数据和测试数据的验证,相比于现有技术的几千级别的训练和测试,模型对未知新数据的预测更为置信,实用价值颇高。附图说明图1为本专利技术所述一种基于安装包列表的移动用户性别预测方法的流程图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例一一种基于安装包列表的移动用户性别预测方法,包含以下步骤:S1.获取有性别标签的用户设备号;S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;性别和安装包列表称为原始数据集;S3.将安装包列表数量小于M或者大于N的用户剔除;其中M小于N,M、N的值根据实际需要设定;S4.将安装包列表信息转换为特征数据集:(1)假定原始数据集中男女比例为x:1,安装包P在a个男性用户的安装列表中出现过,在b个女性用户中出现过,则安装包P的性别特征值为 a + 1 ( b + 1 ) x ; ]]>由此得到每个安装包的性别特征值,并将每个安装包映射为性别偏向值,记为字典D1;其中安装包的性别偏向值即为安装包的性别特征值,当安装包的性别特征值为1时,表明该安装包没有性别偏向;a加1、b加1的原因是做拉普拉斯平滑;(2)根据已有的安装包类别库,将每个安装包映射为一个或多个类别,记为字典D2;(3)对于每个用户,根据字典D1将其所有安装包映射为性别偏向值,取偏离1最大的K个值(2和0.5、10和0.1偏离1的程本文档来自技高网
...
一种基于安装包列表的移动用户性别预测方法

【技术保护点】
一种基于安装包列表的移动用户性别预测方法,其特征在于,包含以下步骤:S1.获取有性别标签的用户设备号;S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;性别和安装包列表称为原始数据集;S3.将安装包列表数量小于M或者大于N的用户剔除;其中M小于N,M、N的值根据实际需要设定;S4.将安装包列表信息转换为特征数据集:(1)假定原始数据集中男女比例为x:1,安装包P在a个男性用户的安装列表中出现过,在b个女性用户中出现过,则安装包P的性别特征值为a+1(b+1)x;]]>由此得到每个安装包的性别特征值,并将每个安装包映射为性别偏向值,记为字典D1;其中安装包的性别偏向值即为安装包的性别特征值,当安装包的性别特征值为1时,表明该安装包没有性别偏向;(2)根据已有的安装包类别库,将每个安装包映射为一个或多个类别,记为字典D2;(3)对于每个用户,根据字典D1将其所有安装包映射为性别偏向值,取偏离1最大的K个值作为用户的第一特征;(4)对于每个用户,将其所有性别偏向值映射到预先划分好的十个区间中,计算每个区间中性别偏向值的个数的比例作为用户的第二特征;(5)对于每个用户,根据字典D2将其所有安装包映射为类别,计算每个类别出现次数的比例作为用户的第三特征;(6)将每个用户的性别标签、第一特征、第二特征、第三特征记为特征数据集;S5.将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;S6.从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。...

【技术特征摘要】
1.一种基于安装包列表的移动用户性别预测方法,其特征在于,包含以下步骤:S1.获取有性别标签的用户设备号;S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;性别和安装包列表称为原始数据集;S3.将安装包列表数量小于M或者大于N的用户剔除;其中M小于N,M、N的值根据实际需要设定;S4.将安装包列表信息转换为特征数据集:(1)假定原始数据集中男女比例为x:1,安装包P在a个男性用户的安装列表中出现过,在b个女性用户中出现过,则安装包P的性别特征值为 a + 1 ( b + 1 ) x ; ]]>由此得到每个安装包的性别特征值,并将每个安装包映射为性别偏向值,记为字典D1;其中安装包的性别偏向值即为安装包的性别特征值,当安装包的性别特征值为1时,表明该安装包没有性别偏向;(2)根据已有的安装包类别库,将每个安装包映射为一个或多个...

【专利技术属性】
技术研发人员:周涛李百川陈第李展铿蔡锐涛甄勇
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1