一种基于安装包列表的移动用户性别预测方法技术

技术编号：14136093 阅读：466 留言：0更新日期：2016-12-10 04:14

本发明专利技术公开的一种基于安装包列表的移动用户性别预测方法，包含以下步骤：获取有性别标签的用户设备号；从安装列表库中筛选出有性别标签的用户设备号所对应的用户，获取这些用户的安装包列表；将安装包列表数量小于M或者大于N的用户剔除；将安装包列表信息转换为特征数据集；将特征数据集按设定比例随机划分为训练集和测试集；根据训练集数据，使用GBDT模型训练，然后通过测试集进行验证，得到用户性别预测模型；从安装包列表库中获取没有性别标签的用户及其安装列表，做同样的特征转换利用已训练的性别模型预测。本发明专利技术的方法，移动用户性别预测的准确率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及移动互联网领域，特别涉及一种基于安装包列表的移动用户性别预测方法。
技术介绍
现有技术中，如Your Installed Apps Reveal Your Gender and More！(ACM SIGMOBILE Mobile Computing and Communications Review,2015)公开了一种移动用户性别的预测方法，具体为：通过提取安装包数量和付费的数值特征、安装包类别特征、安装包性别概率特征和安装包内容描述特征来独自或组合作为每个用户的特征，然后利用机器学习中的朴素贝叶斯和支持向量机方法来判断用户的性别。上述方法，在特征提取时选取了很多不同且有效的特征来预测性别，但是在运用特征和组合特征时过于简单，仍有较大的改进空间；而且在无法提供全部特征时，移动用户性别的预测无法实现，较为复杂。而在Predicting user traits from a snapshot of apps installed on a smartphone(ACM SIGMOBILE Mobile Computing and Communications Review,2014,18(2):1-8.)也公开了一种移动用户性别的预测方法，具体为：通过分析安装包数量和付费信息，安装包的类别信息等，但最终选定安装包的描述信息来抽取tfidf特征，结合从应用市场获取的相关查询的Top50的安装包描述，利用机器学习中的支持向量机方法来判断用户的宗教信仰，单身与否，父母与否等用户属性。该方法合理利用应用市场的查询功能，预先获取相关的app描述作为正样...
一种基于安装包列表的移动用户性别预测方法

【技术保护点】
一种基于安装包列表的移动用户性别预测方法，其特征在于，包含以下步骤：S1.获取有性别标签的用户设备号；S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户，获取这些用户的安装包列表；性别和安装包列表称为原始数据集；S3.将安装包列表数量小于M或者大于N的用户剔除；其中M小于N，M、N的值根据实际需要设定；S4.将安装包列表信息转换为特征数据集：(1)假定原始数据集中男女比例为x:1，安装包P在a个男性用户的安装列表中出现过，在b个女性用户中出现过，则安装包P的性别特征值为a+1(b+1)x;]]>由此得到每个安装包的性别特征值，并将每个安装包映射为性别偏向值，记为字典D1；其中安装包的性别偏向值即为安装包的性别特征值，当安装包的性别特征值为1时，表明该安装包没有性别偏向；(2)根据已有的安装包类别库，将每个安装包映射为一个或多个类别，记为字典D2；(3)对于每个用户，根据字典D1将其所有安装包映射为性别偏向值，取偏离1最大的K个值作为用户的第一特征；(4)对于每个用户，将其所有性别偏向值映射到预先划分好的十个区间中，计算每个区间中性别偏向值的个数的比例作为用户的第二特征；(5)...

【技术特征摘要】
1.一种基于安装包列表的移动用户性别预测方法，其特征在于，包含以下步骤：S1.获取有性别标签的用户设备号；S2.从安装列表库中筛选出有性别标签的用户设备号所对应的用户，获取这些用户的安装包列表；性别和安装包列表称为原始数据集；S3.将安装包列表数量小于M或者大于N的用户剔除；其中M小于N，M、N的值根据实际需要设定；S4.将安装包列表信息转换为特征数据集：(1)假定原始数据集中男女比例为x:1，安装包P在a个男性用户的安装列表中出现过，在b个女性用户中出现过，则安装包P的性别特征值为 a + 1 ( b + 1 ) x ; ]]>由此得到每个安装包的性别特征值，并将每个安装包映射为性别偏向值，记为字典D1；其中安装包的性别偏向值即为安装包的性别特征值，当安装包的性别特征值为1时，表明该安装包没有性别偏向；(2)根据已有的安装包类别库，将每个安装包映射为一个或多个...

【专利技术属性】
技术研发人员：周涛，李百川，陈第，李展铿，蔡锐涛，甄勇，
申请(专利权)人：有米科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人