一种基于图神经网络和推理路径的文档级关系抽取方法技术

技术编号:34351285 阅读:11 留言:0更新日期:2022-07-31 05:45
本发明专利技术提出一种基于图神经网络和推理路径的文档级关系抽取方法。本发明专利技术为了解决在文档级关系抽取中常用的图模型方法只能关注实体局部特征的特点,不能很好的表示两个实体之间全局特征的问题。本发明专利技术的具体的步骤为:步骤一、基于启发式的规则将一篇输入的文档转化为图结构;步骤二、利用路径搜索算法在构造图结构中提取出不同实体对之间的多条路径;步骤三、利用神经网络编码器对输入文档编码,并得到图中节点的向量表示,利用图神经网络更新图中节点的向量表示;步骤四、得到图结构中实体对之间的路径信息向量表示;步骤五、对实体对之间的关系进行判断,使用标注好的数据训练深度学习模型。本发明专利技术属于自然语言处理领域。本发明专利技术属于自然语言处理领域。本发明专利技术属于自然语言处理领域。

【技术实现步骤摘要】
一种基于图神经网络和推理路径的文档级关系抽取方法


[0001]本专利技术属于自然语言处理
,特别是涉及一种基于图神经网络和推理路径的文档级关系抽取方法。

技术介绍

[0002]文档级关系抽取任务是给定一篇包含多个句子的段落、段落中出现的实体及实体在段落中出现的位置,判断在所有的实体对中是否存在着预定义的一些关系。相比于句子级的关系抽取,文档级关系抽取存在着一下几个技术难点:1)文档级关系需要多种不同的推理方式,包含句内关系抽取、指代推理、逻辑推理、常识推理。如何设计更好的文档级关系抽取模型,有效地从更长的上下文信息中综合有用的信息,判断出实体对之间的关系是任务面临的主要的挑战。2)模型的计算代价问题。文档级关系抽取中潜在的具有关系的实体和实体数目的平方成正比,然后实体存在关系的实体对只有很少一部分,如何高效的抽取文档中存在的关系,是一个存在的挑战。
[0003]现有的方法通常将文档转化为图结构。根据图结构的不同,分为同构图和异构图。同构图中只包含同种类型的节点和边的信息,通常这种方法需要外部的工具,例如会利用句法解析工具得到文档中每句话的句法依存关系,然后将每句话的句法依存的根节点拼接起来。异构图中包含多种不同类型的节点和边的信息。通常图中包含句子、实体和实体在文档中出现的提及。然后通过一些启发式的规则来构造节点之间的边的关系。
[0004]现有的方法利用图神经网络来综合图中的信息。具体地,图神经网络利用节点的邻居结点的特征来更新直接的特征,通过多次迭代来得到节点的包含图上下文信息的节点特征。这种方式虽然能够很好的表示节点之间的交互的信息,但是这种方式只能表示节点的局部特征,当图中两个节点距离较远的时候,图神经网络不能够很好的捕获其中的特征。而且图神经网络没有显示考虑不同实体节点之间的推理路径的关系。
[0005]综上所述,文档级关系抽取相关研究存在着以下不足:
[0006]1、在文档级关系中广泛使用的图神经网络只能关注到节点的局部特征。当两个节点相距较远的时候,会严重影响模型的性能;
[0007]2、图神经网络没有显示的考虑两个节点之间的推理路径,忽略解节点之间的推理关系。

技术实现思路

[0008]本专利技术目的是为了解决目前自然语言处理领域中文档级关系抽取的图模型只考虑了图中局部特征的问题,提出了一种基于图神经网络和推理路径的文档级关系抽取方法。本专利技术所述方法通过考虑图中结点之间的推理路径,来表示图中两个实体节点的全局特征,提高了文档级关系抽取性能。
[0009]本专利技术是通过以下技术方案实现的,本专利技术提出一种基于图神经网络和推理路径的文档级关系抽取方法,所述方法具体包括:
[0010]步骤一、基于启发式的规则将一篇输入的文档转化为图结构;
[0011]步骤二、利用路径搜索算法在构造的图结构中提取出不同实体对之间的多条路径;
[0012]步骤三、利用神经网络编码器对输入文档编码,并得到图中节点的向量表示,利用图神经网络更新图中节点的向量表示;
[0013]步骤四、得到图结构中实体对之间的路径信息向量表示;
[0014]步骤五、对实体对之间的关系进行判断,使用标注好的数据训练深度学习模型。
[0015]进一步地,步骤一中转化为的图结构为异构图结构。
[0016]进一步地,步骤二中路径搜索算法为基于广度优先搜索算法。
[0017]进一步地,步骤二中通过考虑图结构中两个实体节点之间的路径信息来模拟实体之间的推理路径。
[0018]进一步地,步骤四中,利用注意力机制综合多条不同的路径特征,来表示实体对之间在图中的全局特征。
[0019]进一步地,在步骤五中利用图神经网络输出的节点的局部特征和两个实体对之间路径的全局特征,共同为实体之间的关系进行分类。
[0020]进一步地,所述异构图中包含三种类型的节点,分别为句子节点、实体节点和提及节点;满足以下情况下实体之间具有边相连接:1)在同一句话中的两个提及节点连接起来,来表示两个提及之间的句内的关系;2)提及节点及其所属的句子节点连接起来,来表达提及的所属关系;3)属于同一个实体的两个提及节点连接起来;4)所有的句子结点连接起来,来表达多句话之间的关系;5)若实体的某个提及出现在某个句子中,那么这个实体结点和句子结点连接起来。
[0021]进一步地,所述基于广度优先搜索算法具体为:定义一个搜索空间队列S,起始的时候将头实体节点送入搜索空间队列,在每个时间步从队列中取出一个节点,并判断它是否为尾实体节点或者尾实体节点的邻居结点;1)如果它满足条件,则搜索路径结束并且保留该搜索路径为一个可能的实体间的推理路径;2)如果它不满足条件,则将它所有尚未检验过的邻居结点加入到队列中;若队列为空,表示整张异构图都已经检查过了,结束搜索。
[0022]进一步地,在步骤三中,首先将输入的文本序列转化为词向量序列,同时将词的向量表示,词的实体类型的表示,词的指代表示一起拼接起来得到词的总体的一个表示,然后将文档中的词送入到一个编码器中,所述编码器为BiLSTM和基于Transformer的预训练模型来学习所述词向量的上下文表示,得到文档的上下文表示之后,对构建的异构图中节点的向量表示进行初始化,得到异构图节点的初始化表示之后,利用基于图注意网络来迭代更新网络中的节点的特征,利用自注意力机制来汇聚邻居结点的特征,集成这些特征从而得到最终的图网络的输出。
[0023]进一步地,在步骤四中,通过对两个实体对之间的推理路径进行提取,得到了多条相关的推理路径,利用LSTM来对推理路径进行编码,对于某个推理路径,利用LSTM的最后一次迭代的隐含向量来表示这条路径的特征得到一个实体对之间所有路径的特征表示,之后利用注意力机制来融合多条路径的特征。
[0024]本专利技术的有益效果为:
[0025]本专利技术针对图神经网络只能关注图中节点局部特征的特点,通过考虑图中实体节
点之间的推理路径,得到实体对之间在图中的全局的特征。在实体对关系分类的时候,利用路径的向量表示对图卷积特征的向量表示进行补充,提高了模型在文档级关系抽取中的性能。
附图说明
[0026]图1为图结构中路径提取及路径特征表示的流程图;
[0027]图2为神经网络模型的不同的结构图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]实施例一
[0030]结合图1和图2,本专利技术提出一种基于图神经网络和推理路径的文档级关系抽取方法,所述方法包括:
[0031]步骤一、基于启发式的规则将一篇输入的文档转化为图结构;
[0032]步骤二、利用路径搜索算法提取图结构中不同实体对之间的多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络和推理路径的文档级关系抽取方法,其特征在于,所述方法具体包括:步骤一、基于启发式的规则将一篇输入的文档转化为图结构;步骤二、利用路径搜索算法在构造的图结构中提取出不同实体对之间的多条路径;步骤三、利用神经网络编码器对输入文档编码,并得到图中节点的向量表示,利用图神经网络更新图中节点的向量表示;步骤四、得到图结构中实体对之间的路径信息向量表示;步骤五、对实体对之间的关系进行判断,使用标注好的数据训练深度学习模型。2.根据权利要求1所述的方法,其特征在于,步骤一中转化为的图结构为异构图结构。3.根据权利要求1所述的方法,其特征在于,步骤二中路径搜索算法为基于广度优先搜索算法。4.根据权利要求3所述的方法,其特征在于,步骤二中通过考虑图结构中两个实体节点之间的路径信息来模拟实体之间的推理路径。5.根据权利要求1所述的方法,其特征在于,步骤四中,利用注意力机制综合多条不同的路径特征,来表示实体对之间在图中的全局特征。6.根据权利要求1所述的方法,其特征在于,在步骤五中利用图神经网络输出的节点的局部特征和两个实体对之间路径的全局特征,共同为实体之间的关系进行分类。7.根据权利要求2所述的方法,其特征在于,所述异构图中包含三种类型的节点,分别为句子节点、实体节点和提及节点;满足以下情况下实体之间具有边相连接:1)在同一句话中的两个提及节点连接起来,来表示两个提及之间的句内的关系;2)提及节点及其所属的句子节点连接起来,来表达提及的所属关系;3)属于同一个实体的两个提及节点连接起来;4)所有的句子结点连接起来,来表达多句话之间的关系;5...

【专利技术属性】
技术研发人员:赵铁军陈科海徐旺曹海龙朱聪慧徐冰杨沐昀
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1