用户性别预测方法、装置及设备制造方法及图纸

技术编号:20026589 阅读:81 留言:0更新日期:2019-01-06 05:20
本发明专利技术提供了一种用户性别预测方法、装置及设备,在进行用户性别预测时,提取各待预测用户的各预设类型数据之用于进行性别预测的特征数据;将提取的特征数据代入预设的全量用户预测模型得到各待预测用户的全量性别预测结果,并将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型得到至少一个所述待预测用户的分量性别预测结果;然后将全量预测结果和分量预测结果进行融合得到各待预测用户的最终性别预测结果。本发明专利技术进行用户性别预测时结合全量用户预测模型和分量用户预测模型的输出结果作为用户性别的最终预测结果,可以在较大程度上提升性别预测的准确率。

【技术实现步骤摘要】
用户性别预测方法、装置及设备
本专利技术涉及通信领域,尤其涉及一种用户性别预测方法、装置及设备。
技术介绍
用户画像又称用户角色(Persona),作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。顾名思义,用户性别预测是指,对某运营商网络内(例如电信)的用户,通过其日常上网内容及语音习惯,预测该用户的网络性别。然后假设网络性别与用户的真实性别是强相关的。将预测出的网络性别定义为真实性别。当然也有网络性别与真实性别不符的情况,但是运营商更关注其通过上网及语音表现出来的虚拟网络性别。现有对移动通信领域各用户的性别预测的研究,都仅限于基于用于日常上网内容及语音习惯等数据,通过一个训练模型(单模型)进行用户性别预测,对通过该训练模型得到的性别预测结果并无其他的任何修正机制,导致性别预测结果准确率低的问题。
技术实现思路
本专利技术实施例提供的用户性别预测方法、装置及设备,主要解决的技术问题是:现有用户性别预测仅通过单模型进行性别预测导致得到的预测结果准确率低的问题。为解决上述技术问题,本专利技术实施例提供一种用户性别预测方法,所述方法包括:提取各待预测用户的各预设类型数据之用于进行性别预测的特征数据;将提取的特征数据代入预设的全量用户预测模型得到所述各待预测用户的全量性别预测结果,并将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型得到至少一个所述待预测用户的分量性别预测结果;所述全量用户预测模型为在训练过程中根据训练用户的所述各预设类型数据之特征数据训练得到,所述分量用户预测模型为在训练过程中根据所述训练用户的所述至少一个预设类型数据之各特征数据训练得到;融合所述全量预测结果和所述分量预测结果得到所述各待预测用户的最终性别预测结果。为解决上述技术问题,本专利技术实施例还提供一种用户性别预测装置,包括:数据提取模块,用于提取各待预测用户的各预设类型数据之用于进行性别预测的特征数据;模型处理模块,用于将所述数据提取模块提取的特征数据代入预设的全量用户预测模型得到所述各待预测用户的全量性别预测结果,并将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型得到至少一个所述待预测用户的分量性别预测结果;所述全量用户预测模型为在训练过程中根据训练用户的所述各预设类型数据之特征数据训练得到,所述分量用户预测模型为在训练过程中根据所述训练用户的所述至少一个预设类型数据之各特征数据训练得到;预测处理模块,用于融合所述全量预测结果和所述分量预测结果得到所述各待预测用户的最终性别预测结果。为解决上述技术问题,本专利技术实施例还提供一种用户性别预测设备,包括:处理器、存储器及通信总线;所述通信总线用于实现所述处理器和所述存储器之间的连接通信;所述处理器用于执行所述存储器中存储的用户性别预测程序以实现如上所述的用户性别预测方法中的步骤。本专利技术实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行前述的用户性别预测方法。本专利技术的有益效果是:根据本专利技术实施例提供的用户性别预测方法、装置及设备,在进行用户性别预测时,提取各待预测用户的各预设类型数据之用于进行性别预测的特征数据;将提取的特征数据代入预设的全量用户预测模型得到各待预测用户的全量性别预测结果,并将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型得到至少一个所述待预测用户的分量性别预测结果;然后将全量预测结果和分量预测结果进行融合得到各待预测用户的最终性别预测结果。本专利技术进行用户性别预测时并不是直接采用单模型的预测结果作为最终预测结果,而是结合全量用户预测模型和分量用户预测模型的输出结果作为用户性别的最终预测结果,因此可以在较大程度上提升性别预测的准确率。附图说明图1为本专利技术实施例一提供的全量预测结果和分量预测结果融合方式一示意图;图2为本专利技术实施例一提供的全量预测结果和分量预测结果融合方式二示意图;图3为本专利技术实施例二提供的用户性别预测方法流程示意图;图4为本专利技术实施例二提供的全量预测结果和分量预测结果融合方式一示意图;图5为本专利技术实施例二提供的全量预测结果和分量预测结果融合方式二示意图;图6为本专利技术实施例三提供的用户性别预测装置结构示意图;图7为本专利技术实施例四提供的用户性别预测设备结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本专利技术中一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:本实施例提供的用户性别预测方案至少包括模型训练以及对待预测用户性别进行预测两个过程。其中,本实施例中的模型训练包括全量用户预测模型和分量用户预测模型的训练过程,该过程包括提取特征、模型构建以及根据构建的模型进行预测等过程。本实施例中提取特征可以针对训练用户(训练用户的性别是已知的,因此男女性别比例也是已知的),提取相应类型数据的用于进行性别预测的特征数据,此处相应类型数据也即在该训练阶段预设类型数据,具体选择哪些类型的数据,以及提取这些类型中的哪些特征数据,可以灵活设定,只要能有效的进行性别区分预测即可。本实施例中,针对提取的特征数据,可以采用相应的建模方式进行建模得到一个全量用户预测模型,该全量用户预测模型的输出结果可以预测出所有各训练用户的性别。同时为了提升用户性别预测的准确率,还可针对至少一类预设类型数据的各特征数据分别建立相应的分量用户预测模型,分量用户预测模型的建立优选采用与全量用户预测模型建立时相同的建模方式,例如本实施例中的建模方式包括但不限于逻辑回归建模、支持向量机建模、随机森林建模、GBDT(GradientBoostingDecisionTree)建模、XGboost(ScalableandFlexibleGradientBoosting)建模。具体选用哪种建模方式也可以灵活设定,例如一种示例中选择XGboost建模方式得到全量用户预测模型和至少一个分量用户预测模型。本实施例中具体针对那些类型数据的特征数据建立分量用户预测模型也可以灵活选定。例如,在一种实施例中,预设类型数据可包括训练过程中预设网页的上网记录数据、应用使用记录数据、通话数据和上网使用习惯数据中的至少一种。包括上网记录数据或应用使用记录数据时,可以针对上网记录数据或应用使用记录数据的特征数据分别建立相应的分量用户预测模型。本实施例中,在进行特征数据提取时,针对至少一类型数据,可以采用性别占比划分为多个类别以达到降纬的目的。现有在使用上网数据和app(application)数据时,由于网站数量庞大,且用户人数差别很大,一起作为特征时,特征矩阵就变为超高维超稀疏矩阵,不利于建模。对此采用本文档来自技高网...

【技术保护点】
1.一种用户性别预测方法,所述方法包括:提取各待预测用户的各预设类型数据之用于进行性别预测的特征数据;将提取的特征数据代入预设的全量用户预测模型得到所述各待预测用户的全量性别预测结果,并将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型得到至少一个所述待预测用户的分量性别预测结果;所述全量用户预测模型为在训练过程中根据训练用户的所述各预设类型数据之特征数据训练得到,所述分量用户预测模型为在训练过程中根据所述训练用户的所述至少一个预设类型数据之各特征数据训练得到;融合所述全量预测结果和所述分量预测结果得到所述各待预测用户的最终性别预测结果。

【技术特征摘要】
1.一种用户性别预测方法,所述方法包括:提取各待预测用户的各预设类型数据之用于进行性别预测的特征数据;将提取的特征数据代入预设的全量用户预测模型得到所述各待预测用户的全量性别预测结果,并将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型得到至少一个所述待预测用户的分量性别预测结果;所述全量用户预测模型为在训练过程中根据训练用户的所述各预设类型数据之特征数据训练得到,所述分量用户预测模型为在训练过程中根据所述训练用户的所述至少一个预设类型数据之各特征数据训练得到;融合所述全量预测结果和所述分量预测结果得到所述各待预测用户的最终性别预测结果。2.如权利要求1所述的用户性别预测方法,其特征在于,所述预设类型数据包括所述训练过程中预设网页的上网记录数据;所述上网记录数据之特征数据包括至少一个针对男性性别预测的特征数据和至少一个针对女性性别进行预测的特征数据的至少一种;所述每一针对男性性别预设的特征数据包括预设目标网站以及各预设目标网站的访问量;所述各预设目标网站为在训练过程中,访问预设目标网站男性占比值大于等于所述训练用户中男性占比值,一个特征数据中的目标网站包含访问网站男性占比值在预设男性比例值划分范围内的各网站;所述每一针对女性性别预设的特征数据包括预设目标网站以及各预设目标网站的访问量;所述各预设目标网站为在训练过程中,访问预设目标网站女性占比值大于等于所述训练用户中女性占比值;所述将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型包括:将所述上网记录数据包括的各特征数据分别代入该上网记录数据之各特征数据各自对应的预设分量用户预测模型。3.如权利要求1所述的用户性别预测方法,其特征在于,所述预设类型数据包括所述训练过程中预设应用的应用使用记录数据;所述应用使用记录数据之特征数据包括至少一个针对男性性别预测的特征数据和至少一个针对女性性别进行预测的特征数据;所述每一针对男性性别预设的特征数据包括预设目标应用以及各预设目标应用的访问量;所述各预设目标应用为在训练过程中,使用预设目标应用的男性占比值大于等于所述训练用户中男性占比值,一个特征数据中的目标应用包含使用应用的男性占比值在预设男性比例值划分范围内的各应用;所述每一针对女性性别预设的特征数据包括预设目标应用以及各预设目标应用的访问量;所述各预设目标应用为在训练过程中,使用预设目标应用的女性占比值大于等于所述训练用户中女性占比值;所述将至少一个预设类型数据的各特征数据分别代入该预设类型数据之各特征数据分别对应的预设分量用户预测模型包括:将所述应用使用记录数据包括的各特征数据分别代入该应用使用记录数据之各特征数据各自对应的预设分量用户预测模型。4.如权利要求2或3所述的用户性别预测方法,其特征在于,所述预设类型数据还包括通话数据和上网使用习惯数据中的至少一种;所述通话数据之特征数据包括联系人个数,被叫总时长,主叫总时长,被叫次数,主叫次数,通话总次数,被叫次数与通话总次数之商以及主叫次数与通话总次数之商中的至少一种;所述上网使用习惯数据之特征数据包括每个预设上网统计周期的上网概率,以及每个上网信息统计周期内上网的信息熵中的至少一种。5.如权利要求1所述的用户性别预测方法,其特征在于,所述全量预测结果和所述分量预测结果为各待预测用户的性别概率值;所述融合所述全量预测结果和所述分量预测结果得到所述各待预测用户的最终性别预测结果包括:针对每一待预测用户,获取该待预测用户的全量用户预测模型输出的性别概率值和各分量用户预测模型输出的性别概率值;计算获取到的所述性别概率值的均值得到性别预测概率值;将所述性别预测概率值与所述训练过程中设置的男性概率阈值和女性概率阈值进行比较,得到该待预测用户最终的性别预测结果。6.如权利要求1所述的用户性别预测方法,其特征在于,所述全量预测结果和所述分量预测结果为分别表征各待预测用户为男性、中性、女性的1、0、-...

【专利技术属性】
技术研发人员:许雪敏
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1