一种优化数据不平衡状态的移动app用户性别识别方法和系统技术方案

技术编号：26304969 阅读：26 留言：0更新日期：2020-11-10 20:01

本发明专利技术提出一种优化数据不平衡状态的移动app用户性别识别方法和系统。所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块。样本数据编码模块用于对连续性特征和离散型特征分别进行不同的处理后，采用one‑shot编码表示，得到one‑shot样本特征。所述样本数据编码模块还包括数据不平衡状态优化子模块，所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。本发明专利技术还提出基于上述系统实现的用户性别识别方法。本发明专利技术的技术方案能够解决在使用one‑shot编码进行建模过程中产生的数据稀疏以及数据不平衡问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种优化数据不平衡状态的移动app用户性别识别方法和系统
本专利技术属于移动互联网
，尤其涉及一种优化数据不平衡状态的移动app用户性别识别方法和系统。
技术介绍
用户基础属性信息，比如性别、年龄等，通常被认为是用户隐私信息，企业很难获得，但是用户基础属性信息在个性化服务、特定广告投放、用户行为分析和其他方面有着广泛的应用。在互联网公司的广告业务不断增长的同时，许多的互联网公司也在为用户提供个性化的广告。百度推广会根据用户的搜索历史关键字给用户提供不同的广告业务。很多的公司会根据用户的历史行为分析用户的兴趣模型，以便提供更好的个性化服务。刻画用户模型包括刻画用户的人口统计信息，地理位置信息，搜索访问兴趣爱好等。然而用户的基础属性信息如性别、年龄、收入等在一般情况下是不容易得到的，因为这些信息对用户而言是很敏感的，人们不愿意公开这类个人隐私属性。尽管一些网络应用在用户注册时要求用户填写性别、出生年月、教育程度等相关信息，但是这些信息对用户比较敏感，因此很多用户根本不会填写这些相关信息或者填写错误的信息，这些不真实的信息对个性化推荐会有负作用。实际情况是大部分用户在注册时都没有填写相关的基础属性信息，对手机应用而言用户的基础属性信息是未知。目前国内外对于用户基础属性信息的建模研究主要是基于用户在邮件或者社交应用中产生用户数据如邮件内容、搜索内容和空间状态等，主要有三个方面：1、基于邮件内容的用户基础属性预测；2、基于用户搜索内容的基础属性预测；3、、基于用户浏览行为的基础属性预测。研...

【技术保护点】
1.一种移动app用户性别识别系统，所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块；/n其中，所述样本数据输入模块用于输入移动终端样本数据；/n所述样本数据分类模块将所述样本数据进行特征分类，得到连续性特征和离散型特征；/n样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后，采用one-shot编码表示，得到one-shot样本特征；/n映射模块用于将所有one-hot样本特征进行Embedding映射；/n所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练；/n所述预测输出模块采用训练好的全连接神经网络模型，输入移动终端用户特征，预测用户性别；/n其特征在于：/n所述样本数据编码模块还包括数据不平衡状态优化子模块，所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。/n

【技术特征摘要】
1.一种移动app用户性别识别系统，所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块；
其中，所述样本数据输入模块用于输入移动终端样本数据；
所述样本数据分类模块将所述样本数据进行特征分类，得到连续性特征和离散型特征；
样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后，采用one-shot编码表示，得到one-shot样本特征；
映射模块用于将所有one-hot样本特征进行Embedding映射；
所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练；
所述预测输出模块采用训练好的全连接神经网络模型，输入移动终端用户特征，预测用户性别；
其特征在于：
所述样本数据编码模块还包括数据不平衡状态优化子模块，所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。

2.如权利要求1所述的移动app用户性别识别系统，其特征在于：
所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化，具体包括：
对于连续性特征进行分段处理，并进行可视化分析，获取连续数据段以及离散数据段，将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来；
如果所述第一空值位段的数量小于第一阈值，则利用所述离散数据段的众数填充所述第一空值位段；
如果所述第二空值位段的数量大于第二阈值，则删除与所述第二空值位段对应的离散数据段。

3.如权利要求1所述的移动app用户性别识别系统，其特征在于：
所述样本数据输入模块用于输入移动终端样本数据，具体包括：
所述样本数据包括移动终端对应的用户年龄，所述用户年龄包括6个区段。

4.如权利要求1所述的移动app用户性别识别系统，其特征在于：
所述样本数据输入模块用于输入移动终端样本数据，具体包括：
所述样本数据包括移动终端每个应用类别下安装包的安装数量；
统计该移动终端每个应用类别下安装包的安装总数量，并进行归一化处理。

5.如权利要求1所述的移动...

【专利技术属性】
技术研发人员：李玲，贺同路，任永亮，李嘉懿，
申请(专利权)人：北京智能工场科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人