一种基于手机上网行为的用户性别预测方法技术

技术编号:15392171 阅读:110 留言:0更新日期:2017-05-19 05:09
本发明专利技术涉及一种基于手机上网行为的用户性别预测方法,该方法统计用户在一段时间内点击各APP的次数;将统计数据整理成矩阵形式;对所述矩阵进行降维处理;将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;用测试数据集来验证预测模型,并计算准确度。本发明专利技术简单易行,且准确率较高。根据用户使用的APP的次数来预测用户的性别,对后续根据不同性别用户的偏好进行相关的个性化服务推荐提供了支持。

User gender prediction method based on mobile phone net surfing behavior

The invention relates to a mobile phone Internet user behavior prediction method based on gender, the method of statistics in a period of time the user clicks the APP; statistical data will be organized into a matrix form; to reduce the dimension of the matrix; the processed data are divided into training set and test data set to train prediction model for the training data set; to verify the prediction model for the test data set, and the accuracy of calculation. The invention is simple and convenient, and has higher accuracy rate. According to the number of APP users used to predict the user's gender, the subsequent follow the different gender user preferences related personalized service recommendations to provide support.

【技术实现步骤摘要】
一种基于手机上网行为的用户性别预测方法
本专利技术属于计算机、通信
,具体涉及一种基于手机上网行为的用户性别预测方法。
技术介绍
随着大数据的发展,许多的网络应用如电子商务网站、搜索引擎等,越来越关心用户的基础属性信息,通过构建用户的画像,为后续对用户进行个性化的服务提供了有力的支持。亚马逊的个性化商店就是个性化服务很好的例子。亚马逊购物商城可以根据用户的浏览记录和购买记录给用户推荐相应的商品促使用户消费,或者通过分析购买过相同或相似产品的其他用户的购买行为为用户推荐商品。在互联网公司的广告业务不断增长的同时,许多的互联网公司也在为用户提供个性化的广告。百度推广会根据用户的搜索历史关键字给用户提供不同的广告业务。很多的公司会根据用户的历史行为分析用户的兴趣模型,以便提供更好的个性化服务。刻画用户画像包括刻画用户的人口统计信息,地理位置信息,搜索访问兴趣爱好等。刻画用户画像其中一个非常重要的部分就是用户特征识别。用户特征识别在个性化推荐、可疑用户辨识等方面都发挥着重要的作用。比如在营销方面,确定了用户的个人特征(如年龄、性别等),就可以针对该用户进行有目的的营销。相比于盲目的撒网式营销,精准营销的成功率将更高,能够创造更大的价值。同样,公共安全已经成为当今社会一个不容忽视的问题,一些犯罪分子往往会隐藏行踪,不在网络等地方留下任何痕迹,但手机作为不可或缺的工具,接打电话、基站切换时就能暴露用户的位置,同时用户使用的哪些APP以及上网习惯等信息也能帮助描绘该用户的特征,帮助相关执法机构缩小探查范围,锁定目标。然而用户的基础属性信息如性别、年龄、收入等在一般情况下是不容易得到的,因为这些信息对用户而言是很敏感的,人们不愿意公开这类个人隐私属性。因此,用户基础特征的识别是近几年研究的热点。随着信息技术的发展和智能手机的普及,智能手机应用呈现指数增长,基于位置的服务也越来越多。这些基于位置的网络应用准许用户发布自己的地理位置信息、搜索附近的人、分享个人的经历等,与此同时网络应用会为用户推荐用户所在地的特色商店、用户感兴趣的人或物,这些需要结合用户的地理位置信息、兴趣爱好以及个人基础属性信息。然而这些信息一般被视作用户隐私信息,很多的网络应用公司很难获得。尽管一些网络应用在用户注册时要求用户填写性别、出生年月、教育程度等相关信息,但是这些信息对用户比较敏感,因此很多用户根本不会填写这些相关信息或者填写错误的信息,这些不真实的信息对个性化推荐会有负作用。实际情况是大部分用户在注册时都没有填写相关的基础属性信息。对手机应用而言由于性别的差异,男性和女性使用的APP也不尽相同。不同属性的用户使用APP的频次不尽相同,但是,相同属性的用户偏爱的APP种类大致相同,因而同一属性的用户使用同一APP的频次大致相同。因此通过研究用户使用每一款APP的频次来预测用户的基础属性信息这个课题为预测用户未知信息提供了新的思路及方法。通过对现有技术的文献检索发现,早期的用户基础属性主要基于用户文本数据和语音数据根据每个人的行为习惯、写作风格等进行年龄及性别的基础属性判别。Eckert等利用社会语言学,通过研究用户的语言特征来推断用户的性别;Koppel等根据用户性别对一些作者的文字进行文本分类,发现在语言风格和文字内容方面,不同性别和年龄的作者之间都有较大的差异,据此他提出了Multi-ClassRealWinnow算法,根据作者的博客内容对作者的年龄和性别进行了分类,取得了较好的效果。目前,面向移动端上网行为数据的用户基础属性识别的研究相对较少。预测用户基础属性的方法主要基于传统的分类器方法。1、LR(逻辑回归)算法。该算法是一种分类方法,主要用于二分类。它的预测值只有两个,是或否。可以用它来做性别预测。该算法对自变量要求较严格,当模型中的自变量过多时,容易造成过拟合。2、朴素贝叶斯算法,该方法常用于文本分类。一般在文本分类中,首先应用TF-IDF分词算法来调整词语的权重,得到关于词语权重的矩阵,然后应用朴素贝叶斯算法来分类。针对非文本数据,该方法不太适用。中国专利申请201510027957.X公开了一种“基于智能手机流量数据的用户基础属性预测方法”,通过分析用户智能手机的流量数据,预测用户的年龄和性别等。其方法是分析用户手机上所有APP的流量精确使用情况,分析用户对每个APP流量的使用特征,并计算相应特征值。将所有APP流量特征值作为特征向量,通过用户ID将用户的基础属性和特征向量关联起来,分析智能手机流量数据与用户基础属性之间的关系,从而达到依据智能手机的流量数据预测用户基础属性的目的。采用SVM模型实现对用户的基础属性的分类预测。该方法由于要分析用户手机上所有APP的流量精确使用情况,分析数据量过大,将所有APP流量特征值作为特征向量会导致变量过多,从而造成特征不明显,分析预测的准确性低。
技术实现思路
本专利技术的目的在于针对现有技术所存在的问题,提供一种简单易行、准确率高的基于手机上网行为的用户性别预测方法。本专利技术的技术方案如下:一种基于手机上网行为的用户性别预测方法,包括如下步骤:(1)统计用户在一段时间内点击各APP的次数;(2)将统计数据整理成矩阵形式;(3)对所述矩阵进行降维处理;(4)将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;(5)用测试数据集来验证预测模型,并计算准确度。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(2)中所述矩阵的行表示每个用户的记录,列表示用户使用每个APP对应的次数。进一步,如上所述的基于手机上网行为的用户性别预测方法,在步骤(3)中,由于所述矩阵为稀疏矩阵,先删除数据的缺失率大于99%的APP,然后再对所述矩阵进行降维处理;降维处理采用主成分分析法。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(4)中在划分训练数据集和测试数据集时,采取随机划分的方法并针对用户不同性别划分一定比例的数据作为训练数据集,以避免有些属性由于随机划分没有测试数据。更进一步,随机划分数据过程中要保证男性和女性数据中分别有80%的数据作为训练数据集,20%的数据作为测试数据集。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(4)中采用RandomForest随机森林算法来建立预测模型;所述随机森林算法是一个包含多个决策树的组合分类器,其输出的类别由多个树输出的类别的众数决定;在模型建立的过程中,通过不断的调整算法参数(如调整CART树的数量)来提高模型预测结果的准确度。进一步,如上所述的基于手机上网行为的用户性别预测方法,步骤(5)中所述的准确度可以由准确率、精确度、召回率来表示,所述准确率定义为正确预测的人数和实际预测人数的比例;所述精确度定义为该类别正确预测人数和预测为该类别人数的比例;召回率定义为该类别正确预测的人数和该类别实际人数的比例。本专利技术的有益效果如下:本专利技术提供的一种根据用户手机上网数据来预测用户基础属性的方法,解决了由于变量过多,造成特征不明显的问题,并且可以有效的避免过拟合现象。同时,能够针对非文本数据来预测用户的基础属性,如性别、年龄。该方法简单易行,且准确率较高。根据用户使用的APP的次数来预测用户的性别,对后续根据不本文档来自技高网
...
一种基于手机上网行为的用户性别预测方法

【技术保护点】
一种基于手机上网行为的用户性别预测方法,包括如下步骤:(1)统计用户在一段时间内点击各APP的次数;(2)将统计数据整理成矩阵形式;(3)对所述矩阵进行降维处理;(4)将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;(5)用测试数据集来验证预测模型,并计算准确度。

【技术特征摘要】
1.一种基于手机上网行为的用户性别预测方法,包括如下步骤:(1)统计用户在一段时间内点击各APP的次数;(2)将统计数据整理成矩阵形式;(3)对所述矩阵进行降维处理;(4)将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;(5)用测试数据集来验证预测模型,并计算准确度。2.如权利要求1所述的基于手机上网行为的用户性别预测方法,其特征在于:步骤(2)中所述矩阵的行表示每个用户的记录,列表示用户使用每个APP对应的次数。3.如权利要求1或2所述的基于手机上网行为的用户性别预测方法,其特征在于:在步骤(3)中,由于所述矩阵为稀疏矩阵,先删除数据的缺失率大于99%的APP,然后再对所述矩阵进行降维处理。4.如权利要求3所述的基于手机上网行为的用户性别预测方法,其特征在于:降维处理采用主成分分析法。5.如权利要求1所述的基于手机上网行为的用户性别预测方法,其特征在于:步骤(4)中在划分训练数据集和测试数据集时,采取随机划分的方法并针对用户不同性别划分一定比例的数据作为训练数据集,以避免有些属性由于随机划分没有测试数据。6.如权利...

【专利技术属性】
技术研发人员:刘玉华马江民张光辉常青
申请(专利权)人:北京拓明科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1