【技术实现步骤摘要】
一种数据处理方法及相关装置
[0001]本申请涉及互联网领域,特别是涉及一种数据处理方法及相关装置。
技术介绍
[0002]在推荐、搜索、广告等场景中,通常会根据用户的相关数据提取用户的兴趣特征,从而根据提取到的兴趣特征为用户提供对应的服务。仅使用单个用户的相关数据提取兴趣特征并为用户提供对应服务的方式往往覆盖用户有限,尤其对于新用户和低活用户而言,他们的兴趣特征难以构建。
[0003]在这种情况下,可以通过与用户相关的群体挖掘用户的兴趣特征,并基于群体内其他用户的历史交互数据,为该用户探索新兴趣,即利用与用户相关的群体的相关数据构建群体画像特征,群体画像特征可以反映该用户自身的兴趣,也可以反映该用户隐藏的尚未被挖掘的兴趣。
[0004]目前这种方式主要基于实际存在的群体,例如用户的兴趣群、固定作者的粉丝群等。然而实际存在的群体中有效交互数据和覆盖用户量往往受限,使得群体画像特征覆盖的历史交互数据较少,兴趣推广性较差,服务质量不佳,用户体验较差。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了一种数据处理方法及相关装置,所构建的群簇画像特征能够覆盖更多的交互数据以及更广的兴趣内容,从而提升兴趣推广性,提高服务质量和用户体验。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请实施例提供一种数据处理方法,所述方法包括:
[0008]获取多个对象群体;
[0009]针对所述多个对象群体中的每个对象群体,获取所述对象群体的群 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个对象群体;针对所述多个对象群体中的每个对象群体,获取所述对象群体的群体画像特征;对每个所述对象群体的群体画像特征分别进行向量映射,得到每个所述群体画像特征的特征向量表示;根据所述群体画像特征的特征向量表示对所述多个对象群体进行聚类得到群簇;对所述群簇所包括的对象群体的群体画像特征进行整合,得到所述群簇的群簇画像特征。2.根据权利要求1所述的方法,其特征在于,所述群体画像特征包括群体关系特征和群体兴趣特征,所述对每个所述对象群体的群体画像特征分别进行向量映射,得到每个所述群体画像特征的特征向量表示,包括:针对每个所述对象群体的群体关系特征和群体兴趣特征,对所述群体关系特征进行向量映射,得到所述群体关系特征的第一特征向量表示,以及对所述群体兴趣特征进行向量映射,得到所述群体兴趣特征的第二特征向量表示;将所述第一特征向量表示和所述第二特征向量表示进行拼接得到所述群体画像特征的特征向量表示。3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征向量表示和所述第二特征向量表示进行拼接得到所述群体画像特征的特征向量表示,包括:获取所述第一特征向量表示的第一权重和所述第二特征向量表示的第二权重;利用所述第一权重和所述第二权重对所述第一特征向量表示和所述第二特征向量表示进行加权拼接得到所述群体画像特征的特征向量表示。4.根据权利要求2所述的方法,其特征在于,所述对所述群体关系特征进行向量映射,得到所述群体关系特征的第一特征向量表示,包括:将每个所述对象群体分别作为第一对象群体,根据所述第一对象群体的群体关系特征和第二对象群体的群体关系特征进行相似性度量,得到所述第一对象群体与所述第二对象群体之间的相似性度量值,所述第二对象群体是所述多个对象群体中除所述第一对象群体之外的每个对象群体;将所述第一对象群体与所述第二对象群体之间的相似性度量值转换为所述第一对象群体的第一特征向量表示。5.根据权利要求4所述的方法,其特征在于,所述将所述第一对象群体与所述第二对象群体之间的相似性度量值转换为所述第一对象群体的第一特征向量表示,包括:以每个对象群体为节点,以对象群体之间的关系作为边,以对象群体之间的相似性度量值作为边的权重,构建对象群体关系图;以所述第一对象群体对应的节点为起始点,以边的权重作为游走概率在所述对象群体关系图上进行随机游走,得到所述第一对象群体的第一特征向量表示。6.根据权利要求1
‑
5任一项所述的方法,其特征在于,所述根据所述群体画像特征的特征向量表示对所述多个对象群体进行聚类得到群簇,包括:从所述多个对象群体中选取K个对象群体作为初始的聚类中心;根据所述群体画像特征的特征向量计算每个对象群体与各个聚类中心之间的距离;
针对每个对象群体,将所述对象群体分配至距离所述对象群体最近的聚类中心所代表的群簇,每分配一个对象群体至群簇,根据群簇中已有的对象群体重新计算聚类中心,并重新执行根据所述群体画像特征的特征向量计算每个对象群体与各个聚类中心之间的距离的步骤,直到满足聚类终止条件,得到K个群簇。7.根据权利要求6所述的方法,其特征在于,所述K是根据群簇内对象覆盖量、群簇内对象交互数据的数量、群簇内对象关系集中度中至少一种确定的。8.根据权利要求1所述的方法,其特征在于,所述群体画像特征包括群体关系特征或群体兴趣特征。9.根据权利要求1
‑
5任一项所述的方法,其特征在于,所述获取所述对象群体的群体画像特征,包括:根据所述对象群体的群体特征信息和所述对象群体中所包括对象的对象特征信息进行群体画像特征构建,得到所述对象群体的群体画像特征。10.根据权利要求9所述的方法,其特征在于,所述根据所述对象群体的群体特征信息和所述对象群体中所包括对象的对象特征信息进行群体画像特征构建,得到所述对象群体的群体画像特征,包括:对所述对象群体的群体特征信息进行垂类识别得到第一垂类识别结果;对所述对象群体中所包括对象的对象特征信息进行垂类识别得到...
【专利技术属性】
技术研发人员:苏鑫,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。