一种用户性别估算方法和系统技术方案

技术编号:14701670 阅读:71 留言:0更新日期:2017-02-24 20:00
本发明专利技术实施例公开了一种用户性别估算方法和系统;本发明专利技术实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;该方案不仅可以提高估算的准确性,而且,可以提高可估算用户的覆盖率。

【技术实现步骤摘要】

本专利技术涉及互联网
,具体涉及一种用户性别估算方法和系统
技术介绍
随着互联网技术的发展,各种即时通信和社交应用也如雨后春笋般应运而生。即时通信和社交应用中所涉及的大量用户数据,比如用户的喜好、年龄和性别等等,对于信息的投放,如广告的投放有着极大的意义。在传统的技术中,用户性别的确定,一般都依赖于用户的自行填写,或者,通过关联的其他应用中性别的填写来确定,但是,这种方式最多只能覆盖50%的用户,仍然存在有大量无法确认其性别的用户,而且,可信度也不高,从而导致后续无法实现信息的准确投放。为此,现有技术又提出了一种性别估算方案,在该方案中,可以获取用户的公众号订阅行为、以及阅读行为,然后依据该公众号订阅行为、以及阅读行为来对用户的性别进行估算,从而实现确定用户性别的目的。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,现有的用户性别估算方案虽然在一定程度中可以估算出用户的性别,但是,其可估算的用户的覆盖率较低,比如,对于没有公众号订阅行为、以及阅读行为的这部分用户而言,便无法确认其性别,等等。
技术实现思路
本专利技术实施例提供一种用户性别估算方法和系统,不仅可以提高用户性别估算的准确性,而且可提高可估算用户的覆盖率。本专利技术实施例提供一种用户性别估算方法,包括:识别用户关联的兴趣群;获取所述兴趣群的群成员关系链数据;根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;基于所述预估性别确定所述用户的性别。相应的,本专利技术实施例还提供一种用户性别估算系统,包括:识别单元,用于识别用户关联的兴趣群;获取单元,用于获取所述兴趣群的群成员关系链数据;估算单元,用于根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;确定单元,用于基于所述预估性别确定所述用户的性别。本专利技术实施例通过识别用户关联的兴趣群,然后获取这些兴趣群的群成员关系链数据,并根据群成员关系链数据估算该兴趣群中占比最大的性别,得到兴趣群对应的预估性别,然后,基于预估性别确定该用户的性别;由于兴趣群的群成员一般性别较为接近,而该方案主要是基于用户所关联的兴趣群中的群成员关系链数据来对性别进行估算的,因此,其估算的准确性会较高,而且,该方案无需依赖用户的公众号订阅行为、以及阅读行为,对于没有公众号订阅行为、以及阅读行为的这部分用户,该估算方案同样适用,也就是说,该方案可以适用了绝大部分用户,相对于现有方案而言,可以提高可估算用户的覆盖率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的用户性别估算方法的场景示意图;图1b是本专利技术实施例提供的用户性别估算方法的流程图;图2是本专利技术实施例提供的用户性别估算方法的另一流程图;图3a是本专利技术实施例提供的用户性别估算系统的结构示意图;图3b是本专利技术实施例提供的用户性别估算系统的另一结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种用户性别估算方法和系统。参见图1a,该用户性别估算系统可以根据大数定律,通过利用用户的兴趣群中群成员关系链数据、以及群成员性别的分布数据等进行分析筛选,然后将群成员中占比最大的性别对用户自身的性别进行近似迁移,从而对未知的用户性别作出较为准确的估计。比如,图1a中用户所关联的兴趣群为兴趣群A、兴趣群B和兴趣群C等,则可以根据这些兴趣群中的群成员关系链数据,分别估算这些兴趣群中占比最大的性别,得到兴趣群对应的预估性别,比如兴趣群A对应的预估性别为男性,兴趣群B对应的预估性别为男性,等等,然后基于这些预估性别确定该用户的性别,比如,由于占最大占比的性别为男性,则确定该用户的性别为男性,等等。该用户性别估算系统可以作为独立的实体存在,也可以作为信息投放系统的一部分,以便后续协助信息投放系统进行精准信息投放,如广告投放,等等。以下将分别进行详细说明。实施例一、在本实施例中,将从用户性别估算系统的角度进行描述,该用户性别估算系统具体可以集成在服务器等设备中。一种用户性别估算方法,包括:识别用户关联的兴趣群,获取该兴趣群的群成员关系链数据,根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别,基于该预估性别确定该用户的性别。如图1b所示,该用户性别估算方法的具体流程可以如下:101、识别用户关联的兴趣群。其中,识别兴趣群的方式可以有多种,例如,可以按群主创建群时选择的群分类类别来进行识别,和/或,也可以按群名称、群简介等关键词来进行识别,在此不再赘述。可选的,可以将识别出的兴趣群添加到同一个集合,比如将识别出的兴趣群的群标识(ID,Identity)添加到同一兴趣群列表中,并建立该集合如兴趣群列表与用户标识之间的映射关系,以便后续进行查找。102、获取该兴趣群的群成员关系链数据。例如,具体可以根据该兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,等等。比如,以在步骤101中已经得到了用户的兴趣群列表为例,则此时可以根据该兴趣群列表确定当前需要处理的兴趣群,然后根据该当前需要处理的兴趣群的群标识获取该兴趣群的群成员数据,并根据该群成员数据获取群成员关系链数据,然后执行步骤103,得到该当前需要处理的兴趣群所对应的预估性别,并返回执行根据该兴趣群列表确定当前需要处理的兴趣群的步骤,直至得到该兴趣群列表中所有兴趣群所对应的预估性别为止。其中,群成员关系链数据,指的是在即时通讯软件,如QQ和/或微信等应用中,与用户在同一兴趣群内的各个群成员之间的关系链。比如,与用户在同一QQ兴趣群内的甲和乙,其中,甲的QQ与微信关联,而乙的QQ与微博关联,则甲在QQ上所公开的数据,以及甲在微信上所公开的数据,以及乙在QQ上所公开的数据,以及乙在微博上所公开的数据,均属于该群成员关系链数据之一,在此不再赘述。由于该方案的实现需要基于群成员关系链数据,因此,为了提高处理效率,避免在缺失群成员关系链数据的兴趣群中耗费过多的计算资源,可选的,在获取该兴趣群的群成员关系链数据之前,还可以将群成员列表为空(即除用户之外,不存在其他群成员)的兴趣群进行删除,即在步骤“获取该兴趣群的群成员关系链数据”之前,该用户性别估算方法还可以包括:确定该兴趣群是否存在除用户之外的其他群成员,若存在,则执行获取该兴趣群的群成员关系链数据的步骤,即执行步骤102;若不存在,则删除该兴趣群。103、根据该群成员关系链数据估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。例如,可以根据该群成员关系链数据确定出已知性别用户,得到已知性别用户集合,根据该已知性别用户集合中用户的性别估算该兴趣群中占比最大的性别,得到该兴趣群对应的预估性别。比如,如果该兴趣群本文档来自技高网...
一种用户性别估算方法和系统

【技术保护点】
一种用户性别估算方法,其特征在于,包括:识别用户关联的兴趣群;获取所述兴趣群的群成员关系链数据;根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;基于所述预估性别确定所述用户的性别。

【技术特征摘要】
1.一种用户性别估算方法,其特征在于,包括:识别用户关联的兴趣群;获取所述兴趣群的群成员关系链数据;根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别;基于所述预估性别确定所述用户的性别。2.根据权利要求1所述的方法,其特征在于,所述根据所述群成员关系链数据估算所述兴趣群中占比最大的性别,得到预估性别,包括:根据所述群成员关系链数据确定出已知性别用户,得到已知性别用户集合;根据所述已知性别用户集合中用户的性别估算所述兴趣群中占比最大的性别,得到所述兴趣群对应的预估性别。3.根据权利要求1所述的方法,其特征在于,所述基于所述预估性别确定所述用户的性别,包括:对用户关联的所有兴趣群所对应的预估性别进行统计;根据统计结果确定占比最大的性别为所述用户的性别。4.根据权利要求2或3所述的方法,其特征在于,所述基于所述预估性别确定所述用户的性别之前,还包括:对所述预估性别的准确率进行评估;若评估结果高于预置阈值,则执行基于所述预估性别确定所述用户的性别的步骤。5.根据权利要求4所述的方法,其特征在于,所述对所述预估性别的准确率进行评估,包括:从所述已知性别用户集合中确定评估样本;将所述评估样本作为用户,并返回执行识别用户关联的兴趣群的步骤,以得到所述评估样本的估算性别;将所述评估样本的估算性别与所述评估样本的已知性别进行比较;根据比较结果统计准确率,得到所述预估性别的准确率。6.根据权利要求1至3任一项所述的方法,其特征在于,所述获取所述兴趣群的群成员关系链数据之前,还包括:确定所述兴趣群是否存在除用户之外的其他群成员;若存在,则执行获取所述兴趣群的群成员关系链数据的步骤;若不存在,则删除所述兴...

【专利技术属性】
技术研发人员:叶幸春
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1