一种数据处理方法及相关装置制造方法及图纸

技术编号:39249666 阅读:10 留言:0更新日期:2023-10-30 12:01
本申请公开一种数据处理方法及相关装置,可应用于人工智能、区块链技术等各种场景,针对多个对象群体中的每个对象群体,获取群体画像特征以及对群体画像特征进行向量映射,得到每个群体画像特征的特征向量表示。特征向量表示能够反映该对象群体的特征,故根据特征向量表示对多个对象群体进行聚类,能够将特征具有相似性的对象群体聚合在一起得到群簇。对群簇所包括的对象群体的群体画像特征进行整合,得到群簇的群簇画像特征。由于群簇画像特征可以覆盖更多的交互数据以及更广的兴趣内容,从而提升兴趣推广性,以及利用群簇画像特征能够为用户提供更高质量的服务,提高用户体验。提高用户体验。提高用户体验。

【技术实现步骤摘要】
一种数据处理方法及相关装置


[0001]本申请涉及互联网领域,特别是涉及一种数据处理方法及相关装置。

技术介绍

[0002]在推荐、搜索、广告等场景中,通常会根据用户的相关数据提取用户的兴趣特征,从而根据提取到的兴趣特征为用户提供对应的服务。仅使用单个用户的相关数据提取兴趣特征并为用户提供对应服务的方式往往覆盖用户有限,尤其对于新用户和低活用户而言,他们的兴趣特征难以构建。
[0003]在这种情况下,可以通过与用户相关的群体挖掘用户的兴趣特征,并基于群体内其他用户的历史交互数据,为该用户探索新兴趣,即利用与用户相关的群体的相关数据构建群体画像特征,群体画像特征可以反映该用户自身的兴趣,也可以反映该用户隐藏的尚未被挖掘的兴趣。
[0004]目前这种方式主要基于实际存在的群体,例如用户的兴趣群、固定作者的粉丝群等。然而实际存在的群体中有效交互数据和覆盖用户量往往受限,使得群体画像特征覆盖的历史交互数据较少,兴趣推广性较差,服务质量不佳,用户体验较差。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种数据处理方法及相关装置,所构建的群簇画像特征能够覆盖更多的交互数据以及更广的兴趣内容,从而提升兴趣推广性,提高服务质量和用户体验。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请实施例提供一种数据处理方法,所述方法包括:
[0008]获取多个对象群体;
[0009]针对所述多个对象群体中的每个对象群体,获取所述对象群体的群体画像特征;
[0010]对每个所述对象群体的群体画像特征分别进行向量映射,得到每个所述群体画像特征的特征向量表示;
[0011]根据所述群体画像特征的特征向量表示对所述多个对象群体进行聚类得到群簇;
[0012]对所述群簇所包括的对象群体的群体画像特征进行整合,得到所述群簇的群簇画像特征。
[0013]又一方面,本申请实施例提供一种数据处理装置,所述装置包括获取单元、映射单元、聚类单元和整合单元:
[0014]所述获取单元,用于获取多个对象群体;
[0015]所述获取单元,还用于针对所述多个对象群体中的每个对象群体,获取所述对象群体的群体画像特征;
[0016]所述映射单元,用于对每个所述对象群体的群体画像特征分别进行向量映射,得到每个所述群体画像特征的特征向量表示;
[0017]所述聚类单元,用于根据所述群体画像特征的特征向量表示对所述多个对象群体进行聚类得到群簇;
[0018]所述整合单元,用于对所述群簇所包括的对象群体的群体画像特征进行整合,得到所述群簇的群簇画像特征。
[0019]另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
[0020]所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
[0021]所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
[0022]另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行前述任一方面所述的方法。
[0023]另一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,当其在计算机设备上运行时,使得所述计算机设备执行时实现前述任一方面所述的方法。
[0024]由上述技术方案可以看出,针对所获取的多个对象群体中的每个对象群体,获取对象群体的群体画像特征以及对每个对象群体的群体画像特征进行向量映射,得到每个群体画像特征的特征向量表示。其中,对象群体的群体画像特征的特征向量表示能够反映该对象群体的特征,因此,根据群体画像特征的特征向量表示对多个对象群体进行聚类,能够将特征具有相似性的对象群体聚合在一起得到群簇,即群簇中所包括的对象群体在特征方面具有相似性。进一步,可以对群簇所包括的对象群体的群体画像特征进行整合,得到群簇的群簇画像特征。由于群簇画像特征相较于单个对象群体的群体画像特征可以覆盖更多的交互数据以及更广的兴趣内容,从而提升兴趣推广性。进而,在为用户提供服务时,可以直接利用该用户所属群簇的群簇画像特征确定用户可能感兴趣的内容,相较于基于用户所属的单个对象群体的群体画像特征确定出的可能感兴趣的内容更为丰富,由此为用户提供更高质量的服务,提高用户体验。
附图说明
[0025]为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本申请实施例提供的一种数据处理方法的应用场景示意图;
[0027]图2为本申请实施例提供的一种数据处理方法的流程图;
[0028]图3为本申请实施例提供的一种基于群体关系的兴趣群体二度聚合方法的框架示意图;
[0029]图4为本申请实施例提供的一种二度聚合系统的结构示意图;
[0030]图5为本申请实施例提供的一种群体画像特征的构建方法的流程图;
[0031]图6为本申请实施例提供的一种基于对象群体的多来源特征融合方法的框架示意图;
[0032]图7为本申请实施例提供的一种多来源特征融合系统的结构示意图;
[0033]图8为本申请实施例提供的一种数据处理装置的结构图;
[0034]图9为本申请实施例提供的一种终端设备的结构图;
[0035]图10为本申请实施例提供的一种服务器的结构图。
具体实施方式
[0036]下面结合附图,对本申请的实施例进行描述。
[0037]在推荐、搜索、广告等场景中,通常利用与对象相关的群体挖掘对象的兴趣特征,具体可以是利用群体的群体画像特征反映对象的真实兴趣以及尚未被挖掘的兴趣。进而,在为对象提供与推荐、搜索、广告等相关的服务时,可以基于对象所在的单个群体的群体画像特征确定对象可能感兴趣的内容。其中,对象可以是指用户。
[0038]相关技术中,主要是基于实际存在的群体,例如用户的兴趣群、固定作者的粉丝群等,该类群体的群体画像特征可以是基于群体所包括的实际用户以及实际用户的有效交互数据构建的。然而,实际存在的单个群体中有效交互数据和覆盖用户量往往受限,使得群体画像特征所覆盖的交互数据较少以及所覆盖的兴趣内容存在局限性,造成兴趣推广性较差,从而使得在相关应用中利用群体画像特征为用户提供的服务质量不佳,尤其表现为利用群体画像特征为用户确定的可能感兴趣的内容的数量较少以及所覆盖的兴趣较为局限等,都会造成用户体验较差。
[0039]为此,本申请实施例提供了一种数据处理方法及相关装置,首先利用对象群体的群体画像特征对多个对象群体进行聚类,由于群体画像特征能够反映对象群体的特征,因此通过聚类能够将特征具有相似性的对象群体聚合在一起得到群簇。进一步,通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个对象群体;针对所述多个对象群体中的每个对象群体,获取所述对象群体的群体画像特征;对每个所述对象群体的群体画像特征分别进行向量映射,得到每个所述群体画像特征的特征向量表示;根据所述群体画像特征的特征向量表示对所述多个对象群体进行聚类得到群簇;对所述群簇所包括的对象群体的群体画像特征进行整合,得到所述群簇的群簇画像特征。2.根据权利要求1所述的方法,其特征在于,所述群体画像特征包括群体关系特征和群体兴趣特征,所述对每个所述对象群体的群体画像特征分别进行向量映射,得到每个所述群体画像特征的特征向量表示,包括:针对每个所述对象群体的群体关系特征和群体兴趣特征,对所述群体关系特征进行向量映射,得到所述群体关系特征的第一特征向量表示,以及对所述群体兴趣特征进行向量映射,得到所述群体兴趣特征的第二特征向量表示;将所述第一特征向量表示和所述第二特征向量表示进行拼接得到所述群体画像特征的特征向量表示。3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征向量表示和所述第二特征向量表示进行拼接得到所述群体画像特征的特征向量表示,包括:获取所述第一特征向量表示的第一权重和所述第二特征向量表示的第二权重;利用所述第一权重和所述第二权重对所述第一特征向量表示和所述第二特征向量表示进行加权拼接得到所述群体画像特征的特征向量表示。4.根据权利要求2所述的方法,其特征在于,所述对所述群体关系特征进行向量映射,得到所述群体关系特征的第一特征向量表示,包括:将每个所述对象群体分别作为第一对象群体,根据所述第一对象群体的群体关系特征和第二对象群体的群体关系特征进行相似性度量,得到所述第一对象群体与所述第二对象群体之间的相似性度量值,所述第二对象群体是所述多个对象群体中除所述第一对象群体之外的每个对象群体;将所述第一对象群体与所述第二对象群体之间的相似性度量值转换为所述第一对象群体的第一特征向量表示。5.根据权利要求4所述的方法,其特征在于,所述将所述第一对象群体与所述第二对象群体之间的相似性度量值转换为所述第一对象群体的第一特征向量表示,包括:以每个对象群体为节点,以对象群体之间的关系作为边,以对象群体之间的相似性度量值作为边的权重,构建对象群体关系图;以所述第一对象群体对应的节点为起始点,以边的权重作为游走概率在所述对象群体关系图上进行随机游走,得到所述第一对象群体的第一特征向量表示。6.根据权利要求1

5任一项所述的方法,其特征在于,所述根据所述群体画像特征的特征向量表示对所述多个对象群体进行聚类得到群簇,包括:从所述多个对象群体中选取K个对象群体作为初始的聚类中心;根据所述群体画像特征的特征向量计算每个对象群体与各个聚类中心之间的距离;
针对每个对象群体,将所述对象群体分配至距离所述对象群体最近的聚类中心所代表的群簇,每分配一个对象群体至群簇,根据群簇中已有的对象群体重新计算聚类中心,并重新执行根据所述群体画像特征的特征向量计算每个对象群体与各个聚类中心之间的距离的步骤,直到满足聚类终止条件,得到K个群簇。7.根据权利要求6所述的方法,其特征在于,所述K是根据群簇内对象覆盖量、群簇内对象交互数据的数量、群簇内对象关系集中度中至少一种确定的。8.根据权利要求1所述的方法,其特征在于,所述群体画像特征包括群体关系特征或群体兴趣特征。9.根据权利要求1

5任一项所述的方法,其特征在于,所述获取所述对象群体的群体画像特征,包括:根据所述对象群体的群体特征信息和所述对象群体中所包括对象的对象特征信息进行群体画像特征构建,得到所述对象群体的群体画像特征。10.根据权利要求9所述的方法,其特征在于,所述根据所述对象群体的群体特征信息和所述对象群体中所包括对象的对象特征信息进行群体画像特征构建,得到所述对象群体的群体画像特征,包括:对所述对象群体的群体特征信息进行垂类识别得到第一垂类识别结果;对所述对象群体中所包括对象的对象特征信息进行垂类识别得到...

【专利技术属性】
技术研发人员:苏鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1