知识图谱的数据增强方法、装置及电子设备制造方法及图纸

技术编号:39249138 阅读:11 留言:0更新日期:2023-10-30 12:01
本发明专利技术提供了一种知识图谱的数据增强方法、装置及电子设备,获取待处理知识图谱;其实体之间的关系为双向关系;逻辑规则为关系路径到关系的映射;采用随机游走的方式,获取逻辑规则和数据分布信息,进而遍历待处理知识图谱中的每个已有三元组,针对每个已有三元组,确定该已有三元组对应的至少一个候选三元组;计算每个候选三元组的分值,以确定其对应的增强三元组,并更新至待处理知识图谱中。该方式定义了待处理知识图谱中的逻辑规则,并采用随机游走的方式,学习该逻辑规则和待处理知识图谱中的数据分布信息,再利用学习到的逻辑规则和数据分布信息对待处理知识图谱进行数据增强,可以达到充分利用信息、提升辅助预测准确度的目的。目的。目的。

【技术实现步骤摘要】
知识图谱的数据增强方法、装置及电子设备


[0001]本专利技术涉及数据处理
,尤其是涉及一种知识图谱的数据增强方法、装置及电子设备。

技术介绍

[0002]近年来,知识图谱作为一种存储知识的大规模数据库得到了迅速地发展,并且借助于表示学习广泛应用于搜索引擎、对话系统、商品推荐以及各类垂直领域等。然而,由于几乎所有知识图谱都存在着不完整的问题,已有的表示学习方法不能学习到完全包含实体语义信息的向量表示,这使得在应用知识图谱时存在着信息利用不充分、辅助预测不准确的问题。

技术实现思路

[0003]本专利技术的目的在于提供一种知识图谱的数据增强方法、装置及电子设备,以改善知识图谱存在的信息利用不充分、辅助预测不准确的问题。
[0004]本专利技术提供的一种知识图谱的数据增强方法,方法包括:获取待处理知识图谱;其中,待处理知识图谱中实体之间的关系为双向关系;待处理知识图谱中的逻辑规则为关系路径到关系的映射;采用随机游走的方式,获取逻辑规则和数据分布信息;其中,数据分布信息包括:待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布,以及已有三元组下规则体的分布;根据逻辑规则和数据分布信息,遍历待处理知识图谱中的每个已有三元组,针对每个已有三元组,确定该已有三元组对应的至少一个候选三元组;计算每个候选三元组的分值,根据每个候选三元组的分值确定该已有三元组对应的增强三元组,将增强三元组更新至待处理知识图谱中。
[0005]进一步的,采用随机游走的方式,获取逻辑规则和数据分布信息的步骤包括:采用随机游走的方式获取逻辑规则;遍历待处理知识图谱中的每个已有三元组,针对每个已有三元组,采用随机游走的方式,得到出发于该已有三元组的头实体并结束于该已有三元组的尾实体的至少一条路径;从得到的至少一条路径中抽取出规则体,得到该已有三元组下规则体的分布;更新待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布。
[0006]进一步的,更新待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布的步骤包括:基于该已有三元组下规则体的分布,更新每种规则头的频率,每种规则体的频率、每种规则体下规则头的频率,每种规则体下头实体的频率和尾实体的频率;在遍历完成每个已有三元组后,对每种规则头的频率,每种规则体的频率、每种规则体下规则头的频率,每种规则体下头实体的频率和尾实体的频率分别进行归一化处理,得到待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布。
[0007]进一步的,针对每个已有三元组,确定该已有三元组对应的至少一个候选三元组
的步骤包括:针对每个已有三元组,查询该已有三元组下规则体的分布;针对该已有三元组下的每个规则体,查询该规则体下头实体的分布、尾实体的分布和规则头的分布;根据该已有三元组下所有规则体对应的规则头、头实体和尾实体,构成至少一个候选三元组。
[0008]进一步的,计算每个候选三元组的分值的步骤包括:采用以下公式计算每个候选三元组的分值:;其中,(x,r,y)表示该已有三元组;x表示该已有三元组中的头实体;y表示该已有三元组中的尾实体;r表示头实体x与尾实体y之间的关系;(h,,t)表示该候选三元组;h表示候选三元组中的头实体;t表示候选三元组中的尾实体;表示头实体h和尾实体t之间的关系;表示该已有三元组下的第i个规则体的频率,表示第i个规则体在全局统计下的频率,表示第i个规则体下第j个规则头的频率,表示第j个规则头在全局统计下的频率,表示在当前的规则体下第k个头尾实体对的频率。
[0009]进一步的,根据每个候选三元组的分值确定该已有三元组对应的增强三元组的步骤包括:将分值最高的候选三元组确定为该已有三元组对应的增强三元组。
[0010]本专利技术提供的一种知识图谱的数据增强装置,装置包括:第一获取模块,用于获取待处理知识图谱;其中,待处理知识图谱中实体之间的关系为双向关系;待处理知识图谱中的逻辑规则为关系路径到关系的映射;第二获取模块,用于采用随机游走的方式,获取逻辑规则和数据分布信息;其中,数据分布信息包括:待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布,以及已有三元组下规则体的分布;遍历模块,用于根据逻辑规则和数据分布信息,遍历待处理知识图谱中的每个已有三元组,针对每个已有三元组,确定该已有三元组对应的至少一个候选三元组;计算模块,用于计算每个候选三元组的分值,根据每个候选三元组的分值确定该已有三元组对应的增强三元组,将增强三元组更新至待处理知识图谱中。
[0011]进一步的,第二获取模块还用于:采用随机游走的方式获取逻辑规则;遍历待处理知识图谱中的每个已有三元组,针对每个已有三元组,采用随机游走的方式,得到出发于该已有三元组的头实体并结束于该已有三元组的尾实体的至少一条路径;从得到的至少一条路径中抽取出规则体,得到该已有三元组下规则体的分布;更新待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布。
[0012]本专利技术提供的一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述任一项的知识图谱的数据增强方法。
[0013]本专利技术提供的一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述任一项的知识图谱的数据增强方法。
[0014]本专利技术提供的知识图谱的数据增强方法、装置及电子设备,获取待处理知识图谱;其中,待处理知识图谱中实体之间的关系为双向关系;待处理知识图谱中的逻辑规则为关
系路径到关系的映射;采用随机游走的方式,获取逻辑规则和数据分布信息;其中,数据分布信息包括:待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布,以及已有三元组下规则体的分布;根据逻辑规则和数据分布信息,遍历待处理知识图谱中的每个已有三元组,针对每个已有三元组,确定该已有三元组对应的至少一个候选三元组;计算每个候选三元组的分值,根据每个候选三元组的分值确定该已有三元组对应的增强三元组,将增强三元组更新至待处理知识图谱中。该方式定义了待处理知识图谱中的逻辑规则,并采用随机游走的方式,学习该逻辑规则和待处理知识图谱中的数据分布信息,再利用学习到的逻辑规则和数据分布信息对待处理知识图谱进行数据增强,可以达到充分利用信息、提升辅助预测准确度的目的。
附图说明
[0015]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本专利技术实施例提供的一种知识图谱的数据增强方法的流程图;图2为本专利技术实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的数据增强方法,其特征在于,所述方法包括:获取待处理知识图谱;其中,所述待处理知识图谱中实体之间的关系为双向关系;所述待处理知识图谱中的逻辑规则为关系路径到关系的映射;采用随机游走的方式,获取所述逻辑规则和数据分布信息;其中,所述数据分布信息包括:所述待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布,以及已有三元组下规则体的分布;根据所述逻辑规则和所述数据分布信息,遍历所述待处理知识图谱中的每个已有三元组,针对每个所述已有三元组,确定该已有三元组对应的至少一个候选三元组;计算每个所述候选三元组的分值,根据每个所述候选三元组的分值确定该已有三元组对应的增强三元组,将所述增强三元组更新至所述待处理知识图谱中。2.根据权利要求1所述的方法,其特征在于,采用随机游走的方式,获取所述逻辑规则和数据分布信息的步骤包括:采用随机游走的方式获取所述逻辑规则;遍历所述待处理知识图谱中的每个已有三元组,针对每个所述已有三元组,采用随机游走的方式,得到出发于该已有三元组的头实体并结束于该已有三元组的尾实体的至少一条路径;从得到的所述至少一条路径中抽取出规则体,得到该已有三元组下规则体的分布;更新所述待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布。3.根据权利要求2所述的方法,其特征在于,更新所述待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布的步骤包括:基于该已有三元组下规则体的分布,更新每种规则头的频率,每种规则体的频率、每种规则体下规则头的频率,每种规则体下头实体的频率和尾实体的频率;在遍历完成每个已有三元组后,对每种规则头的频率,每种规则体的频率、每种规则体下规则头的频率,每种规则体下头实体的频率和尾实体的频率分别进行归一化处理,得到所述待处理知识图谱中的关系的分布、关系路径的分布、已有关系路径下头实体和尾实体的分布。4.根据权利要求1所述的方法,其特征在于,针对每个所述已有三元组,确定该已有三元组对应的至少一个候选三元组的步骤包括:针对每个所述已有三元组,查询该已有三元组下规则体的分布;针对该已有三元组下的每个所述规则体,查询该规则体下头实体的分布、尾实体的分布和规则头的分布;根据该已有三元组下所有规则体对应的规则头、头实体和尾实体,构成至少一个候选三元组。5.根据权利要求1所述的方法,其特征在于,计算每个所述候选三元组的分值的步骤包括:采用以下公式计算每个所述候选三元组的分值:
;其中,(x,r,y)表示该已有三元组;x表示该...

【专利技术属性】
技术研发人员:张建伟刘靖楠姜东基
申请(专利权)人:首都信息发展股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1