一种结合外部逻辑知识库和神经网络的混合知识图谱推理算法制造技术

技术编号:37718441 阅读:14 留言:0更新日期:2023-06-02 00:16
本发明专利技术公开了一种基于外部逻辑库和神经网络的混合知识图谱推理算法。该发明专利技术针对已有的封闭领域知识图谱补全方法对于连通性差、存在新实体的知识图谱补全效果较差及忽略了实体间的内部逻辑性的问题,采用目标融合、实体解析技术,结合传统注意力权值,设置了一个排名损失函数用于知识图谱推理,在DBPedia50k、DBPedia500k数据集上提高了至少60%的语义排序效率,无论是在开放区域还是封闭区域,均能有良好性能,在Mean Rank和MRR等指标上也优于其他KGC模型。其他KGC模型。

【技术实现步骤摘要】
一种结合外部逻辑知识库和神经网络的混合知识图谱推理算法


[0001]本专利技术属于自然语言处理领域。

技术介绍

[0002]知识图谱推理算法的是从已有的实体、关系、规则和知识中推理出新的实体、关系、规则和知识的过程,知识图谱补全算法按照需要补全的实体是否存在于给定的知识图谱G={E,R,F}中,可以分为封闭区域的知识图谱补全和开放区域的知识图谱补全两类,在封闭区域的知识图谱补全任务中,原来的图谱中不存在的实体不会被引入。
[0003]基于已有的知识库中已存在的实体、关系、规则和知识进行知识图谱补全的方法即封闭领域知识图谱补全方法(如TransE模型)由于受到已有的知识图谱内容、关系、规则的限制,对已有的、连通性良好的实体之间的关系能实现补全功能,它对固定的、变化缓慢的知识图谱具有补全功能,然而对于连通性差,或是存在新的实体的关系的情况,封闭领域知识图谱补全方法就无法完成补全任务,然而现实中的知识图谱增长迅速,每时每刻都有新的实体和关系加入。TransE模型只适合处理一对一的关系,在一对多、多对一的情况下效果欠佳,并且忽略了实体和实体间本身存在的内部逻辑性,如“苹果”和“香蕉”是同位词的关系,而“苹果”和“水果”具有上下位的关系。如若能引入这些逻辑关系,将为知识图谱补全引入更多的信息。

技术实现思路

[0004]本专利技术提出一种基于外部逻辑知识库和神经网络混合的知识图谱推理方法。内容如下:
[0005](1)首先给出了针对ConMask算法的改进算法———种结合外部逻辑知识库和神经网络的混合知识图谱推理方法(本文简称为ConMask

ELK算法),并给出了相应的总体框架图。
[0006](2)然后在三组公开数据集(FB15k,DBPedia50k和DBPedia500k)上,针对开放区域的知识图谱补全任务和封闭区域的知识图谱补全任务对模型进行实验。
[0007](3)最后,实验分析验证了ConMask

ELK算法的有效性,实验结果表明 ConMask

ELK算法有效地降低了KGC任务的MR指标,提高了HITS@10和 MRR指标。
附图说明
[0008][0009]图1为本专利技术的算法整体框图。
[0010]图2为本专利技术的神经网络结构。
[0011]图3为本专利技术的目标融合部分结构。
[0012]图4为在DBPedia50k和DBPedia500k上的开放区域实体预测结果。
[0013]图5为算法测试所用的数据集介绍。
[0014]图6为封闭区域的知识图谱推理补全任务的头尾预测。
[0015]图7为DBPedia50k数据集上的实体预测结果。
具体实施方式
[0016]首先分析了现有基于封闭区域的知识图谱推理算法中存在的问题,针对为解决的问题提出解决方案并介绍ConMask

ELK算法的设计框架(如图1所示);之后对ConMask

ELK算法进行详细描述,包括与任务相关信息的定位、从相关文本中提取目标实体和目标实体解析方法等。最后在三组公开数据集 (FB15k,DBPedia50k和DBPedia500k)上对ConMask

ELK算法进行了实验验证和结果分析,实验对ConMask

ELK算法与TransE、DKRL等算法在开放区域知识图谱推理任务和封闭区域知识图谱推理任务中,对MR、MRR、 HITS@10等指标进行了比较,实验表明ConMask

ELK算法在上述指标中取得了显著提升,验证了算法的有效性。
[0017]举个例子,在给定三元组(李华,定居,x)中,假设给定目标实体描述:“我的故友李华在北平棉花厂工作多年”,对于人类读者而言,要对这个三元组进行补充,首先可能会摘出句子的重点“李华在北平工作”,然后可以推理出“李华住在北平”,最后可能根据语言习惯可能会修正为“李华定居在北京”,本文提出的ConMask

ELK算法受到这个流程的启发,想要提出一种能够增加新的实体,发现在原本知识图谱中连通性较弱的关系的算法。
[0018]本文提出的算法流程如图1所示,具体步骤如下:
[0019]步骤一:关键信息定位
[0020]为了解决封闭区域的知识图谱补全任务中,TransE模型存在的依赖实体连通性和存在性的问题,ConMask

ELK算法利用已有知识图谱的拓扑信息和文本信息中隐含的知识和关系进行知识图谱补全。
[0021]为了提取文本中的关键信息,略去文本中的无用信息,使用注意力机制对输入文本进行预处理。根据语境为语料库的实体描述中的单词分配一个与关系名称中的每一个单词的依赖关系的相似度评分,相似度评分权重使用如下公式表示
[0022][0023]但是根据上述方法,相似度最高的词并不总是正确的目标实体,如给定三元组(Tom,eat,x),在文本描述“Tom taste a fresh watermelon”中,相似度评分最高的单词是与“eat”,虽然“eat”是与“taste”语义最相近的单词,然而没能正确完成三元组的补全任务。为了避免上述情况发生,给目标词分配正确的权重,对相似度评分权重方法做出了改进,用如下公式表示
[0024][0025]其中,第i个单词的权重等于它本身和它前k
m
个拥有最大的单词,完成关键信息定位后,就能够得到屏蔽了无关内容后的实体描述。
[0026]步骤二:目标融合
[0027]这一部分主要介绍ConMask

ELK方法如何提取基于单词的实体嵌入。由于这一步的输入是经过关键信息定位过的实体描述矩阵和关系名,输入中会包含许多0,因此选用全卷积神经网络FCN做实体嵌入,目标融合过程如图3所示,使用了三层FCN层,在每一层中,先做两次一维卷积运算,然后卷积运算结果经过sigmoid激活函数,再做一次批标准化,最后做最大池化,其中最后一层FCN用平均池化代替最大池化以得到唯一的K维嵌入。此外,为了将输入矩阵做峰值融合到目标实体的单个嵌入中,在每一层FCN之后减少了一半的目标嵌入数量,效果显著。
[0028]步骤三:目标实体解析
[0029]目标实体解析通过计算知识图谱中的候选目标实体和提取的实体嵌入和其他文本特征之间的相似度评分并进行排序,选取评分最高的实体作为最优结果。
[0030]生成候选实体与抽选实体嵌入之间的关联度排名,为了提高算法的性能,加快训练速度,设计一个排名损失函数。该函数可以进行正负目标采样,损失函数如下所示:
[0031][0032]其中参数p
c
是从一个均匀分布U[0,1]中得出的损坏概率,当p
c
>0.5时,保留头部实体;当p
c
≤0.5时,保持输入头部实体h完整,并对尾部实体进行采样, E...

【技术保护点】

【技术特征摘要】
1.一种结合外部逻辑知识库和神经网络的混合知识图谱推理算法,该算法包括以下步骤:步骤1:关键信息定位为了解决封闭区域的知识图谱补全任务中,TransE模型存在的依赖实体连通性和存在性的问题,ConMask

ELK算法利用已有知识图谱的拓扑信息和文本信息中隐含的知识和关系进行知识图谱补全;为了提取文本中的关键信息,略去文本中的无用信息,使用注意力机制对输入文本进行预处理,根据语境为语料库的实体描述中的单词分配一个与关系名称中的每一个单词的依赖关系的相似度评分,相似度评分权重使用如下公式表示但是根据上述方法,相似度最高的词并不总是正确的目标实体,如给定三元组(Tom,eat,x),在文本描述“Tom taste a fresh watermelon”中,相似度评分最高的单词是与“eat”,虽然“eat”是与“taste”语义最相近的单词,然而没能正确完成三元组的补全任务,为了避免上述情况发生,给目标词分配正确的权重,对相似度评分权重方法做出了改进,用如下公式表示其中,第i个单词的权重等于它本身和它前k_m个拥有最大f_w^1的单词,完成关键信息定位后,就能够得到屏蔽了无关内容后的实体描述;步骤2:目标融合这一部分主要介绍ConMask

ELK方法如何提取基于单词的实体嵌入;由于这一步的输入是经过关键信息定位过的实体描述矩阵和关系名,输入中会包含许多0,因此选用全卷积神经网络FCN做实体嵌入,目标融合过程如图3所示,使用了三层FCN层,在每一层中,先做两次一维卷积运算,然后卷积运算结果经过sigmoid激活函数,再做一次批标准化,最后做最大池化,其中最后一层FCN用平均池化代替最大池化以得到唯一的K维嵌入;此外,为了将输入矩阵做峰值融合到目标实体的单个嵌入中,在每一层FCN之后减少了一半的目标嵌入数量,效果显著;步骤3:目标实体解析目标实体解析通过计算知识图谱中的候选目标实体和提取的实...

【专利技术属性】
技术研发人员:王俊李家伟周焕来曾靓邢增桓张时洁贾海涛陈璐
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1