一种优化数据不平衡状态的移动app用户性别识别方法和系统技术方案

技术编号:26304969 阅读:26 留言:0更新日期:2020-11-10 20:01
本发明专利技术提出一种优化数据不平衡状态的移动app用户性别识别方法和系统。所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块。样本数据编码模块用于对连续性特征和离散型特征分别进行不同的处理后,采用one‑shot编码表示,得到one‑shot样本特征。所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。本发明专利技术还提出基于上述系统实现的用户性别识别方法。本发明专利技术的技术方案能够解决在使用one‑shot编码进行建模过程中产生的数据稀疏以及数据不平衡问题。

【技术实现步骤摘要】
一种优化数据不平衡状态的移动app用户性别识别方法和系统
本专利技术属于移动互联网
,尤其涉及一种优化数据不平衡状态的移动app用户性别识别方法和系统。
技术介绍
用户基础属性信息,比如性别、年龄等,通常被认为是用户隐私信息,企业很难获得,但是用户基础属性信息在个性化服务、特定广告投放、用户行为分析和其他方面有着广泛的应用。在互联网公司的广告业务不断增长的同时,许多的互联网公司也在为用户提供个性化的广告。百度推广会根据用户的搜索历史关键字给用户提供不同的广告业务。很多的公司会根据用户的历史行为分析用户的兴趣模型,以便提供更好的个性化服务。刻画用户模型包括刻画用户的人口统计信息,地理位置信息,搜索访问兴趣爱好等。然而用户的基础属性信息如性别、年龄、收入等在一般情况下是不容易得到的,因为这些信息对用户而言是很敏感的,人们不愿意公开这类个人隐私属性。尽管一些网络应用在用户注册时要求用户填写性别、出生年月、教育程度等相关信息,但是这些信息对用户比较敏感,因此很多用户根本不会填写这些相关信息或者填写错误的信息,这些不真实的信息对个性化推荐会有负作用。实际情况是大部分用户在注册时都没有填写相关的基础属性信息,对手机应用而言用户的基础属性信息是未知。目前国内外对于用户基础属性信息的建模研究主要是基于用户在邮件或者社交应用中产生用户数据如邮件内容、搜索内容和空间状态等,主要有三个方面:1、基于邮件内容的用户基础属性预测;2、基于用户搜索内容的基础属性预测;3、、基于用户浏览行为的基础属性预测。研究采用的方法主要是常用的机器学习分类算法,从用户移动终端行为分析用户基础属性的研究则比较少。中国授权专利技术专利ZL201610486432.7公开一种基于安装包列表的移动用户性别预测方法,包含以下步骤:获取有性别标签的用户设备号;从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;将安装包列表数量小于M或者大于N的用户剔除;将安装包列表信息转换为特征数据集;将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。中国专利技术专利申请CN201611127122.2提出一种基于手机上网行为的用户性别预测方法,该方法统计用户在一段时间内点击各APP的次数;将统计数据整理成矩阵形式;对所述矩阵进行降维处理;将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;用测试数据集来验证预测模型,并计算准确度。本专利技术简单易行,且准确率较高。根据用户使用的APP的次数来预测用户的性别,对后续根据不同性别用户的偏好进行相关的个性化服务推荐提供了支持。然而,虽然现有技术已经存在各种预测用户性别的模型和机器学习算法,但是专利技术人发现,现有技术大多关注于模型和算法本身,而并未对算法或者模型使用的样本数据进行匹配处理,从而导致实际使用的样本数据本身存在较大的假阳性问题以及不均衡问题;此外,样本数据无法直接输入机器学习模型,必须要对其进行编码化处理,而直接对样本数据进行编码化处理将会带来大量的数据稀疏问题,从而导致建模和预测效果本身的准确性降低。
技术实现思路
为解决上述技术问题,本专利技术提出一种优化数据不平衡状态的移动app用户性别识别方法和系统。所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块。样本数据编码模块用于对连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征。所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。本专利技术还提出基于上述系统实现的用户性别识别方法。本专利技术的技术方案能够解决在使用one-shot编码进行建模过程中产生的数据稀疏以及数据不平衡问题。在本专利技术的第一个方面,提供一种移动app用户性别识别系统,所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块;其中,所述样本数据输入模块用于输入移动终端样本数据;所述样本数据分类模块将所述样本数据进行特征分类,得到连续性特征和离散型特征;样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;映射模块用于将所有one-hot样本特征进行Embedding映射;所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练;所述预测输出模块采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别;作为本专利技术最突出的优点,所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。作为体现上述优点的关键性技术性手段之一,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化,具体包括:对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来;如果所述第一空值位段的数量小于第一阈值,则利用所述离散数据段的众数填充所述第一空值位段;如果所述第二空值位段的数量大于第二阈值,则删除与所述第二空值位段对应的离散数据段。作为与本专利技术所要解决的技术问题相关联的具体样本数据处理,所述样本数据输入模块用于输入移动终端样本数据,具体包括:所述样本数据包括移动终端对应的用户年龄,所述用户年龄包括6个区段。年龄的处理方式是对其进行分段处理,分别代表不同年龄段,分别为:小于等于18岁,19-23岁,24-34岁,35-44岁,45-54岁,大于等于55岁,这里一共有六段,不同情况下可以有不同划分方式。这样我们就得到了2*6种标签组合,如男生小于等于18岁、女生小于等于18岁等。所述样本数据输入模块用于输入移动终端样本数据,具体包括:所述样本数据包括移动终端每个应用类别下安装包的安装数量;统计该移动终端每个应用类别下安装包的安装总数量,并进行归一化处理。在本专利技术中,样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征,具体包括:对于离散型特征直接用one-hot表示。所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练,具体包括:构建全连接神经网络将所有的one-shot样本特征进行特征映射,映射到最终的类别个数2*6=12个类别上,并使用s本文档来自技高网
...

【技术保护点】
1.一种移动app用户性别识别系统,所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块;/n其中,所述样本数据输入模块用于输入移动终端样本数据;/n所述样本数据分类模块将所述样本数据进行特征分类,得到连续性特征和离散型特征;/n样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;/n映射模块用于将所有one-hot样本特征进行Embedding映射;/n所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练;/n所述预测输出模块采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别;/n其特征在于:/n所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。/n

【技术特征摘要】
1.一种移动app用户性别识别系统,所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块;
其中,所述样本数据输入模块用于输入移动终端样本数据;
所述样本数据分类模块将所述样本数据进行特征分类,得到连续性特征和离散型特征;
样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;
映射模块用于将所有one-hot样本特征进行Embedding映射;
所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练;
所述预测输出模块采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别;
其特征在于:
所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。


2.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化,具体包括:
对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来;
如果所述第一空值位段的数量小于第一阈值,则利用所述离散数据段的众数填充所述第一空值位段;
如果所述第二空值位段的数量大于第二阈值,则删除与所述第二空值位段对应的离散数据段。


3.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述样本数据输入模块用于输入移动终端样本数据,具体包括:
所述样本数据包括移动终端对应的用户年龄,所述用户年龄包括6个区段。


4.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述样本数据输入模块用于输入移动终端样本数据,具体包括:
所述样本数据包括移动终端每个应用类别下安装包的安装数量;
统计该移动终端每个应用类别下安装包的安装总数量,并进行归一化处理。


5.如权利要求1所述的移动...

【专利技术属性】
技术研发人员:李玲贺同路任永亮李嘉懿
申请(专利权)人:北京智能工场科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1