一种基于信息增强的稀疏知识图谱推理方法技术

技术编号:29092350 阅读:17 留言:0更新日期:2021-06-30 10:00
本发明专利技术提出了一种基于信息增强的稀疏知识图谱推理方法,该方法包括:对待补全的稀疏知识图谱进行加载,在确定头尾目标实体之后,利用实体链接算法和外接的知识库来引入额外的信息,以此来对稀疏知识图谱进行信息增强;利用实体链接算法和外接的知识库来引入额外的信息,利用图卷积神经网络来获取外部知识图谱中的信息特征,使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合,在对融合之后的特征进行评分,将分值最高的候选结果作为最终结果进行输出。分值最高的候选结果作为最终结果进行输出。分值最高的候选结果作为最终结果进行输出。

【技术实现步骤摘要】
一种基于信息增强的稀疏知识图谱推理方法


[0001]本专利技术涉及稀疏知识图谱推理补全领域,尤其涉及一种基于信息增强的稀疏知识图谱推理方法。

技术介绍

[0002]现在公布和接触到的知识图谱大部分都是或者说是公司构建和完善的知识图谱,这样的知识图谱有的在各个领域拥有较全面的知识和信息如基于维基百科构建的Wikidata,而有的是在部分领域拥有比较完善的信息和知识结构,如 Face

book公司建立的社交网络信息的知识图谱Freebase。本章所改进的算法也主要是在解决知识图谱从建立到完善阶段使用到的知识图谱推理补全技术。重点是在研究知识图谱中缺失关系部分的问题,在缺失实体部分的问题未提出有效的解决方案。
[0003]但在研究的过程中发现,知识图谱永远都是不完整的这个特点是不变的,但是知识图谱也是逐渐丰富的过程。如果知识图谱的完整度划分出等级,那么在知识图谱构建的初期,其完整度是最低的,相应的稀疏程度是最高的。
[0004]知识图谱在一定程度上可以说是存储某一领域知识的数据库,而数据库在大多时候只能保存某而信息,无法存储所有信息;这和知识图谱的不完整性是同一的。而知识图谱因为其创建的时间的长短和创建是采集到信息的完整性,使得知识图谱中还存在很多的稀疏知识图谱。稀疏知识图谱本身因为缺少很多的关系,所以在推理时只能收集到目标头实体和尾实体的信息,而不能到更多的与头尾实体相关联的语义信息,这使得在推理过程中语义信息的收集变得困难;另一方面,由于其稀疏性图谱中边相对较少,并且这样使得能够在目标实体头尾节点周获取到的结构信息也变少,对图谱结构信息的提取方面也造成困难。
[0005]因此,本专利技术设计了一种基于信息增强的稀疏知识图谱推理方法,在确定头尾目标实体之后,利用实体链接算法和外接的知识库来引入额外的信息。与已有的知识图谱三元组关系预测推理不同的是,在使用评分函数进行评分之前,使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合,在进行特征融合之后进行评分。以此来解决稀疏知识图谱推理补全的中的关系预测问题。

技术实现思路

[0006]知识图谱推理关系预测主要包含五个步骤:知识图谱加载、目标头尾节点选定、图谱信息获取并计算候选关系、关系结果评分的确定推理结果。本专利技术主要针对稀疏图谱在信息获取过程自身信息量较少的问题,提出一种基于信息增强的稀疏知识图谱推理方法。该方法基于图神经网络和外接知识图谱来提供额外信息,以此来对稀疏知识图谱进行信息增强。利用实体链接算法和外接的知识库来引入额外的信息,利用图卷积神经网络来获取外部知识图谱中的信息特征,使用双注意力机制对待补全知识图谱中抽取到的特征信息和增强的特征性进行特征融合,在对融合之后的特征进行评分,关系预测结果。法步骤如下:
[0007](1)首先对稀疏知识图谱进行加载,将知识图谱的语义信息采用向量嵌入的方式加载,结构信息转变为向量之间的关系;
[0008](2)对知识图谱中的目标预测关系的头实体和尾实体进行选定,计算目标节点周围注意力参数信息;
[0009](3)利用LSTM文本信息提取对目标节点头尾实体进行特征计算,获得特征结果,作为特征结果1;
[0010](4)在确定目标头尾实体后,同时利用实体链接算法确定外接知识库的目标实体;
[0011](5)使用图卷积神经网络在外接知识库中获取增强信息特征结果,作为特征结果2;
[0012](6)使用双注意力机制对特征结果1和特征结果2进行融合,得到融合特征结果;
[0013](7)将不同的融合特征与候选关系进行结合,计算得到每个候选关系的阶段性值。
[0014](8)最后通过评分函数对阶段性值进行计算,得到最终的评分值,得到最终的推理预测关系结果。
[0015]附图和附表说明
[0016]图1为本专利技术的主要算法结构图。
[0017]图2为本专利技术的LSTM文本特征提取示意图。
[0018]图3为本专利技术的实体链接算法的流程。
[0019]图4为本专利技术的稀疏知识图谱信息增强部分算法流程图。
[0020]图5为本专利技术的注意力机制特征信息融合算法流程。
具体实施方式
[0021]下面将结合本专利技术实例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述。
[0022]如图1所示,本专利技术主要针对稀疏知识图谱信息量较少的问题,提出了信息增强的方法。信息增强采用外部知识图谱提供增强信息,利用实体链接算法对外部知识图中的目标实体进行定位,利用图卷积神经网络对外部知识图谱的信息进行聚合,最终得到增强特征。利用增强特征来解决稀疏知识图谱关系推理准确度较低的问题。具体实体方式如下:
[0023]步骤一:利用LSTM文本信息提取对目标节点头尾实体进行特征计算
[0024]如图2所示,需要对实体文本进行特征提取。双向语义特征提取中在经过词向量的嵌入之后,可获得对应序列中的每个词的词向量x
i
。在双向LSTM网络中,由正向和负向两个网络同时进行文本语义层和结构层信息,具体的双向计算方式如公式(1)和公式(2)所示。
[0025][0026][0027]公式(1)和公式(2)中的分别是t时刻的正向隐藏状态和负向隐藏状态,和分别是t

1时刻的隐藏状态,最后将通过和获得一个词向量的最终状态h
t
。而LSTM网络提取到的短文本的最终特征可由每个词向量的最终状态表示,如公式(3)所示。
[0028]H=(h1,h2,

,h
n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0029]公式(3)中H∈R
n
×
2u
,n代表词向量的数目,u代表的是每个词向量嵌入的维度大小。
[0030]最终的输出特征作为特征结果1。
[0031]步骤二:实体链接算法确定外接知识库的目标实体
[0032]实体链接的主要任务是将输入的纯文本中的实体链向特定知识库中的相应实体或数据条目过程。而这个过程根据处理的不同阶段又主要分为实体识别和实体消歧两个子任务。实体链接模型一般经过纯文本输入、实体识别、转化为实体标签文本、实体消歧、实体文本链接到知识库等几个步骤。
[0033]如图3所示,本专利技术采用的实体链接算法的实体识别中主要包含两个步骤:实体识别——主要是区分输入文本中的使用到的实体;实体消歧——针对识别的实体和提及的实体预测相应的实体。而实体消歧又分为两个步骤;候选实体生成——找出涉及到的实体之外的可能的其他实体;实体排序——通过上下文信息计算候选实体的分数然后进行排序。
[0034]步骤三:图卷积神经网络在外接知识库中获取增强信息特征结果
[0035]如图4所示,具体的稀疏知识图谱信息增强算法需要使用到图神经网络对目标节点周围的信息进行特征获取。首先对于包含多重关系的知识图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息增强的稀疏知识图谱推理关系预测方法,该方法目标是对稀疏知识图谱中未知关系进行推理预测,方法的步骤如下:步骤1:首先对稀疏知识图谱进行加载,将知识图谱的语义信息采用向量嵌入的方式加载,结构信息转变为向量之间的关系;步骤2:对知识图谱中的目标预测关系的头实体和尾实体进行选定,计算目标节点周围注意力参数信息;步骤3:利用LSTM文本信息提取对目标节点头尾实体进行特征计算,获得特征结果,作为特征结果1;步骤4:在确定目标头尾实体后,同时利用实体链接算法确定外接知识库的目标实体;步骤5:使用图卷积神经网络在外接知识库中获取增强信息特征结果,作为特征结果2;步骤6:使用双注意力机制对特征结果1和特征结果2进行融合,得到融合特征结果;步骤7:将不同的融合特征与候选关系进行结合,计算得到每个候选关系的阶段性值;步骤8:最后通过评分函数对阶段性值进行计算,得到最终的评分值,得到最终的推理预测关系结果。2.根据权利要求1所述的一种基于信息增强的稀疏知识图谱推理方法,其特征在于所述步骤3中对知识图谱进行文本实体特征抽取的具体方法为:需实体文本进行特征提取。双向语义特征提取中在经过词向量的嵌入之后,可获得对应序列中的每个词的词向量x
i
;在双向LSTM网络中,由正向和负向两个网络同时进行文本语义层和结构层信息,具体的双向计算方式如公式(1)和公式(2)所示;语义层和结构层信息,具体的双向计算方式如公式(1)和公式(2)所示;公式(1)和公式(2)中的分别是t时刻的正向隐藏状态和负向隐藏状态,和分别是t

1时刻的隐藏状态,最后将通过和获得一个词向量的最终状态h
t
;而LSTM网络提取到的短文本的最终特征可由每个词向量的最终状态表示,如公式(3)所示;H=(h1,h2,

,h
n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)公式(3)中n代表词向量的数目,u代表的是每个词向量嵌入的维度大小;最终的输出特征作为特征结果1。3.根据权利要求1所述的一种基于图神经网络的知识图谱推理关系预测方法,其特征在于所述步骤4中对目标头尾实体链接到外部知识图谱实体链接方法具体为:本发明采用的实体链接算法的实体识别中主要包含两个步骤:实体识别——主要是区分输入文本中的使用到的实体;实体消歧——针对识别的实体和提及的实体预测相应的实体。而实体消歧又分为两个步骤;候选实体生成——找出涉及到的实体之外的可能的其他实体;实体排序——通过上下文信息计算候选实体的分数然后进行排序。4.根据权利要求1所述的一种基于图...

【专利技术属性】
技术研发人员:任利黄超李嘉豪罗林洁朱昱寰贾海涛贾宇明许文波
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1