性别预测方法、装置和计算机可读存储介质制造方法及图纸

技术编号:24331820 阅读:21 留言:0更新日期:2020-05-29 19:58
本发明专利技术公开了一种性别预测方法、装置和计算机可读存储介质,涉及数据处理领域。性别预测方法包括:根据待测设备对应的历史数据生成待测数据;将所述待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,性别预测模型是根据设备级别用户的历史数据训练的,设备级别用户对应的用户账号在同一设备使用。本发明专利技术的实施例可以基于设备级别用户的历史数据进行模型训练,从而可以使训练数据标记的性别更准确,提高了性别预测模型的准确率。同时,在进行预测时,也可以针对待测设备对应的历史数据,准确地预测出用户的性别。从而,提高了性别预测的准确率。

Gender prediction methods, devices and computer-readable storage media

【技术实现步骤摘要】
性别预测方法、装置和计算机可读存储介质
本专利技术涉及数据处理领域,特别涉及一种性别预测方法、装置和计算机可读存储介质。
技术介绍
在用户性别预测的相关研究中,基于规则的判断方法简单快捷,但准确率有限。用户在注册账号时通常不会填写完整的个人信息,直接使用注册性别作为用户真实性别往往覆盖率较低,真实程度也有较大的不确定性。通过身份证号解析得到性别数据,可靠性较高,但身份证号作为敏感数据,覆盖率通常会更低。目前用户性别预测研究多集中在社交媒体领域,根据用户的发言和互动内容对性别进行预测。而电商领域中,只有少量用户会对商品留言评价。因此,社交平台中的用户性别预测方法无法直接推广至电商应用中。
技术实现思路
专利技术人经过分析后发现,在电商平台中,大部分用户性别画像是指某一个注册账号的性别。但是在实际应用场景中,会存在一个注册账号同时登录多个不同设备的情况,即多人共同使用一个注册账号。例如,某家庭中,夫妻双方在各自的手机设备上都登录了同一个账号进行商品浏览和购买等行为。数据调研发现,有超过1/3的注册账号会在多个设备上登录。因此,目前性别预测的准确率较低。本专利技术实施例所要解决的一个技术问题是:如何提高性别预测的准确率。根据本专利技术一些实施例的第一个方面,提供一种性别预测方法,包括:根据待测设备对应的历史数据生成待测数据;将待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,性别预测模型是根据设备级别用户的历史数据训练的,设备级别用户对应的用户账号在同一设备使用。在一些实施例中,在登录待测设备的用户账号为同一个用户账号的情况下,根据待测设备上未登录用户产生的历史数据以及待测设备对应的用户账号产生的历史数据,生成待测数据。在一些实施例中,在登录待测设备的用户账号包括多个用户账号的情况下,根据待测设备对应的同一用户账号产生的历史数据,获取同一用户账号对应的待测数据;将同一用户账号对应的待测数据输入预先训练的性别预测模型,生成对待测设备对应的同一用户账号的性别预测结果。在一些实施例中,根据待测设备对应的历史数据中的预设操作次数与预设阈值的比较结果生成不同类型的待测数据;将待测数据输入预先训练的、比较结果对应的性别预测模型,获得对待测设备对应的用户的性别预测结果。在一些实施例中,在待测设备对应的历史数据中的预设操作次数大于预设值的情况下,待测数据包括第一商品内容特征和用户行为特征;用户行为特征包括以下至少一种:被操作的每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息;第一商品内容特征包括对操作的商品标题中的分词的操作次数。在一些实施例中,在待测设备对应的历史数据中的预设操作次数不大于预设值的情况下,待测数据包括第二商品内容特征,第二商品内容特征根据历史操作商品的标题的分词的词向量确定。在一些实施例中,性别预测方法还包括:根据用户账号的历史数据和设备信息,生成设备级别用户的历史数据;根据设备级别用户的历史数据生成训练数据,训练数据的标记值为设备级别用户的性别信息;采用训练数据和标记值训练模型,获得性别预测模型,以便采用性别预测模型对设备的用户性别进行预测。在一些实施例中,设备级别用户对应的设备上登录同一个用户账号。根据本专利技术一些实施例的第二个方面,提供一种性别预测装置,包括:待测数据生成模块,被配置为根据待测设备对应的历史数据生成待测数据;性别预测模块,被配置为将待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,性别预测模型是根据设备级别用户的历史数据训练的,设备级别用户对应的用户账号在同一设备使用。在一些实施例中,待测数据生成模块进一步被配置为在登录待测设备的用户账号为同一个用户账号的情况下,根据待测设备上未登录用户产生的历史数据以及待测设备对应的用户账号产生的历史数据,生成待测数据。在一些实施例中,待测数据生成模块进一步被配置为在登录待测设备的用户账号包括多个用户账号的情况下,根据待测设备对应的同一用户账号产生的历史数据,获取同一用户账号对应的待测数据;性别预测模块进一步被配置为将同一用户账号对应的待测数据输入预先训练的性别预测模型,生成对待测设备对应的同一用户账号的性别预测结果。在一些实施例中,待测数据生成模块进一步被配置为根据待测设备对应的历史数据中的预设操作次数与预设阈值的比较结果生成不同类型的待测数据;性别预测模块进一步被配置为将待测数据输入预先训练的、比较结果对应的性别预测模型,获得对待测设备对应的用户的性别预测结果。在一些实施例中,在待测设备对应的历史数据中的预设操作次数大于预设值的情况下,待测数据包括第一商品内容特征和用户行为特征;用户行为特征包括以下至少一种:被操作的每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息;第一商品内容特征包括对操作的商品标题中的分词的操作次数。在一些实施例中,在待测设备对应的历史数据中的预设操作次数不大于预设值的情况下,待测数据包括第二商品内容特征,第二商品内容特征根据历史操作商品的标题的分词的词向量确定。在一些实施例中,性别预测装置还包括:模型训练模块,被配置为根据用户账号的历史数据和设备信息,生成设备级别用户的历史数据;根据设备级别用户的历史数据生成训练数据,训练数据的标记值为设备级别用户的性别信息;采用训练数据和标记值训练模型,获得性别预测模型,以便采用性别预测模型对设备的用户性别进行预测。在一些实施例中,设备级别用户对应的设备上登录同一个用户账号。根据本专利技术一些实施例的第三个方面,提供一种性别预测装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种性别预测方法。根据本专利技术一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种性别预测方法。上述专利技术中的一些实施例具有如下优点或有益效果:本专利技术的实施例可以基于设备级别用户的历史数据进行模型训练,从而可以使训练数据标记的性别更准确,提高了性别预测模型的准确率。同时,在进行预测时,也可以针对待测设备对应的历史数据,准确地预测出用户的性别。从而,提高了性别预测的准确率。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为根据本专利技术一些实施例的性别预测方法的流程示意图。图2A和2B为根据本专利技术另一些实施例的性别预测方法的流程示意图。图3为根据本专利技术一些实施例的性别预测模型训练方法的流程示意图。图4为根据本发本文档来自技高网...

【技术保护点】
1.一种性别预测方法,包括:/n根据待测设备对应的历史数据生成待测数据;/n将所述待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,所述性别预测模型是根据设备级别用户的历史数据训练的,所述设备级别用户对应的用户账号在同一设备使用。/n

【技术特征摘要】
1.一种性别预测方法,包括:
根据待测设备对应的历史数据生成待测数据;
将所述待测数据输入预先训练的性别预测模型,获得对待测设备对应的用户的性别预测结果,其中,所述性别预测模型是根据设备级别用户的历史数据训练的,所述设备级别用户对应的用户账号在同一设备使用。


2.根据权利要求1所述的性别预测方法,其中,
在登录所述待测设备的用户账号为同一个用户账号的情况下,根据待测设备上未登录用户产生的历史数据以及所述待测设备对应的用户账号产生的历史数据,生成待测数据。


3.根据权利要求1所述的性别预测方法,其中,
在登录所述待测设备的用户账号包括多个用户账号的情况下,根据待测设备对应的同一用户账号产生的历史数据,获取所述同一用户账号对应的待测数据;
将所述同一用户账号对应的待测数据输入预先训练的性别预测模型,生成对所述待测设备对应的同一用户账号的性别预测结果。


4.根据权利要求1所述的性别预测方法,其中,
根据待测设备对应的历史数据中的预设操作次数与预设阈值的比较结果生成不同类型的待测数据;
将所述待测数据输入预先训练的、所述比较结果对应的性别预测模型,获得对待测设备对应的用户的性别预测结果。


5.根据权利要求4所述的性别预测方法,其中,在待测设备对应的历史数据中的预设操作次数大于预设值的情况下,所述待测数据包括第一商品内容特征和用户行为特征;
所述用户行为特征包括以下至少一种:被操作的每个类别中的商品的信息、操作每个品牌下的商品的信息、操作每种性别属性商品的信息;
所述第一商...

【专利技术属性】
技术研发人员:王帅强成艺胡恒魁赵佳枢丁卓冶殷大伟赵一鸿
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1