一种实体相似度计算方法、装置及相关设备制造方法及图纸

技术编号:34782768 阅读:11 留言:0更新日期:2022-09-03 19:40
本申请公开了一种实体相似度计算方法,包括按照预设筛选条件对原始图数据进行划分;针对划分得到的各子图数据,均以关注实体为基准,通过游走获得关注实体的各子图路径;按照预设广播数量对各子图路径整合得到的实体路径集进行拆分;将拆分得到的各游走路径子集依次广播至各计算设备;针对每个子图数据,利用各计算设备基于游走路径子集计算初始相似度分数;针对每个关注实体,对初始相似度分数和预获取的各子图数据分别对应的权重值进行加权求和,得到目标相似分数。该方法有效减少实体相似度计算过程中的资源占用,提高实体相似度计算效率。本申请还公开了一种装置、设备及计算机可读存储介质,均具有上述有益效果。均具有上述有益效果。均具有上述有益效果。

【技术实现步骤摘要】
一种实体相似度计算方法、装置及相关设备


[0001]本申请涉及信息推荐
,特别涉及一种实体相似度计算方法,还涉及一种实体相似度计算装置、设备及计算机可读存储介质。

技术介绍

[0002]相似实体计算技术作为实体间相似性探查的基本操作,被广泛应用于各个领域和行业的实际问题中,例如电商平台的相似商品推荐、医疗疗效分析中的相似病人组、金融领域的相似用户等。利用实体自身的属性,可以统计实体间关于属性的相似度,在传统的相似度计算中,由于需要计算所有实体中任意两两实体间的相似度,需要构建并计算n*n维的数值矩阵,当实体的个数n非常巨大时(常见的业务场景中,实体个数经常能达到千万级甚至亿级),内存运算下亿级的实体数最少需要占用9094TB的内存,在此情况下,直接进行大规模的实体相似度计算很容易出现内存溢出的情况,存在资源占用过高、计算效率低下的问题。
[0003]因此,如何有效减少实体相似度计算过程中的资源占用,同时提高实体相似度计算效率是本领域技术人员亟待解决的问题。

技术实现思路

[0004]本申请的目的是提供一种实体相似度计算方法,该方法可以有效减少实体相似度计算过程中的资源占用,同时提高实体相似度计算效率;本申请的另一目的是提供一种实体相似度计算装置、设备及计算机可读存储介质,均具有上述有益效果。
[0005]第一方面,本申请提供了一种实体相似度计算方法,包括:
[0006]确定原始图数据中的关注实体集;
[0007]按照预设筛选条件对所述原始图数据进行划分,获得各子图数据;
[0008]针对各所述子图数据,均以所述关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得所述关注实体的各子图路径;
[0009]对所述关注实体集中全体关注实体的各所述子图路径进行整合,得到全体关注实体的实体路径集;
[0010]按照预设广播数量对所述实体路径集进行拆分,获得各游走路径子集;其中,所述游走路径子集的数量与所述预设广播数量的乘积为所述关注实体集中关注实体的总个数;
[0011]将各所述游走路径子集依次广播至各计算设备;
[0012]针对每个子图数据,利用各所述计算设备基于所述游走路径子集计算所述关注实体与其他实体之间的初始相似度分数;
[0013]获取各所述子图数据分别对应的权重值;
[0014]针对每个关注实体,对所述初始相似度分数和所述权重值进行加权求和,得到所述关注实体与其他实体之间的目标相似分数。
[0015]优选的,所述按照预设筛选条件对所述原始图数据进行划分,获得各子图数据,包
括:
[0016]按照时序筛选条件对所述原始图数据进行划分,获得各初始子图数据;
[0017]按照关系筛选条件对各所述初始子图数据进行筛选,获得各所述子图数据。
[0018]优选的,针对各所述子图数据,均以所述关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得所述关注实体的各子图路径,包括:
[0019]针对每个所述子图数据,以所述关注实体为基准,按照随机跳转策略或概率跳转策略以预设游走次数和预设游走深度进行游走;
[0020]对多次游走的结果进行去重合并,获得所述关注实体的子图路径。
[0021]优选的,对所述关注实体集中全体关注实体的各所述子图路径进行整合,得到全体关注实体的实体路径集,包括:
[0022]针对每个关注实体,对各所述子图数据中的子图路径进行整合,得到当前关注实体的实体路径子集;
[0023]对所述关注实体集中的所有关注实体的实体路径子集进行整合,得到全体关注实体的实体路径集。
[0024]优选的,所述按照预设广播数量对所述实体路径集进行拆分,获得各游走路径子集之前,还包括:
[0025]统计资源配置信息和关注实体数量;
[0026]根据所述资源配置信息、所述关注实体数量、所述预设筛选条件以及所述预设游走策略确定所述预设广播数量。
[0027]优选的,在得到所述关注实体与其他实体之间的目标相似分数之后,还包括:
[0028]将所述目标相似分数按照由大到小的顺序排序,获得相似度序列;
[0029]将所述相似度序列中前预设数量个目标相似分数对应的其他实体作为所述关注实体的高相似度目标。
[0030]优选的,在得到所述关注实体与其他实体之间的目标相似分数之后,还包括:
[0031]将超出预设阈值的目标相似分数对应的其他实体作为所述关注实体的高相似度目标。
[0032]第二方面,本申请还公开了一种实体相似度计算装置,包括:
[0033]关注实体集确定模块,用于确定原始图数据中的关注实体集;
[0034]原始图划分模块,用于按照预设筛选条件对所述原始图数据进行划分,获得各子图数据;
[0035]子图路径获取模块,用于针对各所述子图数据,均以所述关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得所述关注实体的各子图路径;
[0036]路径整合模块,用于对所述关注实体集中全体关注实体的各所述子图路径进行整合,得到全体关注实体的实体路径集;
[0037]路径集拆分模块,用于按照预设广播数量对所述实体路径集进行拆分,获得各游走路径子集;其中,所述游走路径子集的数量与所述预设广播数量的乘积为所述关注实体集中关注实体的总个数;
[0038]路径广播模块,用于将各所述游走路径子集依次广播至各计算设备;
[0039]相似度分数计算模块,用于针对每个子图数据,利用各所述计算设备基于所述游
走路径子集计算所述关注实体与其他实体之间的初始相似度分数;
[0040]权重值获取模块,用于获取各所述子图数据分别对应的权重值;
[0041]加权求和模块,用于针对每个关注实体,对所述初始相似度分数和所述权重值进行加权求和,得到所述关注实体与其他实体之间的目标相似分数。
[0042]第三方面,本申请还公开了一种实体相似度计算设备,包括:
[0043]存储器,用于存储计算机程序;
[0044]处理器,用于执行所述计算机程序时实现如上所述的任一种实体相似度计算方法的步骤。
[0045]第四方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的任一种实体相似度计算方法的步骤。
[0046]本申请所提供的一种实体相似度计算方法,包括确定原始图数据中的关注实体集;按照预设筛选条件对原始图数据进行划分,获得各子图数据;针对各子图数据,均以关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得关注实体的各子图路径;对关注实体集中全体关注实体的各子图路径进行整合,得到全体关注实体的实体路径集;按照预设广播数量对实体路径集进行拆分,获得各游走路径子集;其中,游走路径子集的数量与预设广播数量的乘积为关注实体集中关注实体的总个数;将各游走路径子集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体相似度计算方法,其特征在于,包括:确定原始图数据中的关注实体集;按照预设筛选条件对所述原始图数据进行划分,获得各子图数据;针对各所述子图数据,均以所述关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得所述关注实体的各子图路径;对所述关注实体集中全体关注实体的各所述子图路径进行整合,得到全体关注实体的实体路径集;按照预设广播数量对所述实体路径集进行拆分,获得各游走路径子集;其中,所述游走路径子集的数量与所述预设广播数量的乘积为所述关注实体集中关注实体的总个数;将各所述游走路径子集依次广播至各计算设备;针对每个子图数据,利用各所述计算设备基于所述游走路径子集计算所述关注实体与其他实体之间的初始相似度分数;获取各所述子图数据分别对应的权重值;针对每个关注实体,对所述初始相似度分数和所述权重值进行加权求和,得到所述关注实体与其他实体之间的目标相似分数。2.根据权利要求1所述的实体相似度计算方法,其特征在于,所述按照预设筛选条件对所述原始图数据进行划分,获得各子图数据,包括:按照时序筛选条件对所述原始图数据进行划分,获得各初始子图数据;按照关系筛选条件对各所述初始子图数据进行筛选,获得各所述子图数据。3.根据权利要求1所述的实体相似度计算方法,其特征在于,针对各所述子图数据,均以所述关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得所述关注实体的各子图路径,包括:针对每个所述子图数据,以所述关注实体为基准,按照随机跳转策略或概率跳转策略以预设游走次数和预设游走深度进行游走;对多次游走的结果进行去重合并,获得所述关注实体的子图路径。4.根据权利要求1所述的实体相似度计算方法,其特征在于,对所述关注实体集中全体关注实体的各所述子图路径进行整合,得到全体关注实体的实体路径集,包括:针对每个关注实体,对各所述子图数据中的子图路径进行整合,得到当前关注实体的实体路径子集;对所述关注实体集中的所有关注实体的实体路径子集进行整合,得到全体关注实体的实体路径集。5.根据权利要求1所述的实体相似度计算方法,其特征在于,所述按照预设广播数量对所述实体路径集进行拆分,获得各游走路径子集之前,还包括:统计资源配置信息和关注实体数量;根据所...

【专利技术属性】
技术研发人员:钟穗希刘元弘
申请(专利权)人:深圳普适智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1