一种基于图神经网络和推理路径的文档级关系抽取方法技术

技术编号：34351285 阅读：11 留言：0更新日期：2022-07-31 05:45

本发明专利技术提出一种基于图神经网络和推理路径的文档级关系抽取方法。本发明专利技术为了解决在文档级关系抽取中常用的图模型方法只能关注实体局部特征的特点，不能很好的表示两个实体之间全局特征的问题。本发明专利技术的具体的步骤为：步骤一、基于启发式的规则将一篇输入的文档转化为图结构；步骤二、利用路径搜索算法在构造图结构中提取出不同实体对之间的多条路径；步骤三、利用神经网络编码器对输入文档编码，并得到图中节点的向量表示，利用图神经网络更新图中节点的向量表示；步骤四、得到图结构中实体对之间的路径信息向量表示；步骤五、对实体对之间的关系进行判断，使用标注好的数据训练深度学习模型。本发明专利技术属于自然语言处理领域。本发明专利技术属于自然语言处理领域。本发明专利技术属于自然语言处理领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图神经网络和推理路径的文档级关系抽取方法

[0001]本专利技术属于自然语言处理
，特别是涉及一种基于图神经网络和推理路径的文档级关系抽取方法。

技术介绍

[0002]文档级关系抽取任务是给定一篇包含多个句子的段落、段落中出现的实体及实体在段落中出现的位置，判断在所有的实体对中是否存在着预定义的一些关系。相比于句子级的关系抽取，文档级关系抽取存在着一下几个技术难点：1)文档级关系需要多种不同的推理方式，包含句内关系抽取、指代推理、逻辑推理、常识推理。如何设计更好的文档级关系抽取模型，有效地从更长的上下文信息中综合有用的信息，判断出实体对之间的关系是任务面临的主要的挑战。2)模型的计算代价问题。文档级关系抽取中潜在的具有关系的实体和实体数目的平方成正比，然后实体存在关系的实体对只有很少一部分，如何高效的抽取文档中存在的关系，是一个存在的挑战。
[0003]现有的方法通常将文档转化为图结构。根据图结构的不同，分为同构图和异构图。同构图中只包含同种类型的节点和边的信息，通常这种方法需要外部的工具，例如会利用句法解析工具得到文档中每句话的句法依存关系，然后将每句话的句法依存的根节点拼接起来。异构图中包含多种不同类型的节点和边的信息。通常图中包含句子、实体和实体在文档中出现的提及。然后通过一些启发式的规则来构造节点之间的边的关系。
[0004]现有的方法利用图神经网络来综合图中的信息。具体地，图神经网络利用节点的邻居结点的特征来更新直接的特征，通过多次迭代来得到节点的包含图上下文信息的节点特征。这...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络和推理路径的文档级关系抽取方法，其特征在于，所述方法具体包括：步骤一、基于启发式的规则将一篇输入的文档转化为图结构；步骤二、利用路径搜索算法在构造的图结构中提取出不同实体对之间的多条路径；步骤三、利用神经网络编码器对输入文档编码，并得到图中节点的向量表示，利用图神经网络更新图中节点的向量表示；步骤四、得到图结构中实体对之间的路径信息向量表示；步骤五、对实体对之间的关系进行判断，使用标注好的数据训练深度学习模型。2.根据权利要求1所述的方法，其特征在于，步骤一中转化为的图结构为异构图结构。3.根据权利要求1所述的方法，其特征在于，步骤二中路径搜索算法为基于广度优先搜索算法。4.根据权利要求3所述的方法，其特征在于，步骤二中通过考虑图结构中两个实体节点之间的路径信息来模拟实体之间的推理路径。5.根据权利要求1所述的方法，其特征在于，步骤四中，利用注意力机制综合多条不同的路径特征，来表示实体对之间在图中的全局特征。6.根据权利要求1所述的方法，其特征在于，在步骤五中利用图神经网络输出的节点的局部特征和两个实体对之间路径的全局特征，共同为实体之间的关系进行分类。7.根据权利要求2所述的方法，其特征在于，所述异构图中包含三种类型的节点，分别为句子节点、实体节点和提及节点；满足以下情况下实体之间具有边相连接：1)在同一句话中的两个提及节点连接起来，来表示两个提及之间的句内的关系；2)提及节点及其所属的句子节点连接起来，来表达提及的所属关系；3)属于同一个实体的两个提及节点连接起来；4)所有的句子结点连接起来，来表达多句话之间的关系；5...

【专利技术属性】
技术研发人员：赵铁军，陈科海，徐旺，曹海龙，朱聪慧，徐冰，杨沐昀，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人