一种基于图聚合和推理的文本关系抽取方法技术

技术编号：35753745 阅读：21 留言：0更新日期：2022-11-26 19:00

本发明专利技术公开了一种基于图聚合和推理的文本关系抽取方法，提出了一个基于复杂语义信息的文档级图，这是一个异构的过程包含提及节点和句子节点的图形，用于集成文档的丰富语义信息获取实体表示。本发明专利技术提出了一种实体级图获取方法，以发现长距离跨句子实体对的一些关系。然后，我们使用注意机制融合实体全局表示、实体推理表示和实体初始表示信息，以提取实体对之间的关系。对之间的关系。对之间的关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图聚合和推理的文本关系抽取方法

[0001]本专利技术属于自然语言处理领域，具体涉及一种基于图聚合和推理的文本关系抽取方法。

技术介绍

[0002]关系抽取是识别文本中一对命名实体之间的语义关系。关系抽取在通过给定文本的未知关系事实构建知识图谱方面发挥着重要作用。以前的工作侧重于句子级的关系抽取，它提取单个句子中实体之间的关系。在现实世界中应用程序，大量关系，例如来自维基百科文章和生物医学的关系事实文学，跨越文章中的多个句子。根据对维基百科语料库的分析，至少40.7％的关系依赖于要提取的文档中多个句子的信息。因此，有必要在文档级别提取关系。
[0003]以前的研究利用关系抽取来缩短文本跨度。比如说新提出的DocRED数据集，其中包含许多带有大规模人工注释的文档，推动了句子级关系抽取向文档级关系抽取发展。为了充分利用文档的复杂语义信息，最近的工作设计文档级图并致力于提出了基于图神经网络的模型。比如有人拆分文档级图分成两个有向无环图(DAG)，并为每个DAG使用图LSTM来获得每个单词的上下文表示。也有人提出了一种面向边缘的模型，它构造了一个具有不同类型节点和边的文档级图，以获得全局关系分类的表示。同时也有将文档图定义为潜在变量并基于结构化注意力进行诱导以提高文档级关系的性能，通过优化文档图的结构来提取模型。然而，这些专利技术只是平均提及的嵌入以获得实体嵌入并将它们输入分类器以获得关系标签。此外，每个实体在不同的实体对中具有相同的表示，这可能会引入来自无关上下文的噪音。

技术实现思路

[0...

【技术保护点】

【技术特征摘要】
1.一种基于图聚合和推理的文本关系抽取方法，其特征在于，包括以下步骤：S1、通过编码器获取文档的实体初始表示，进而构建文档级图；S2、根据文档级图中边的类型，通过l层堆叠的关系图卷积神经网络对文档级图进行卷积，生成实体全局表示；S3、根据文档级图中实体全局表示生成实体级图，进而生成实体最终表示；根据实体最终表示获得目标关系表示和上下文关系表示；S4、根据目标关系表示和上下文关系表示，通过前馈神经网络进行预测，得到关系预测结果，完成文本关系抽取。2.根据权利要求1所述的基于图聚合和推理的文本关系抽取方法，其特征在于，所述步骤S1包括以下分步骤：S11、将BERT作为编码器获取文档的嵌入，并通过logsumexp池化层获得文档的实体初始表示；其中，得到所述文档的嵌入H的表达式具体为：H＝[h1,h2,
…
,h
k2
]＝BERT([w1,w2,
…
,w
k1
])式中，w
k1
为文档D的第k1个单词，h
k2
为第k2层BERT输出获得的隐藏状态序列；获得文档的实体初始表示的表达式具体为：式中，为包含提及的隐藏状态序列，为提及的总数；S12、根据文档的实体初始表示构建文档级图；其中，所述文档级图包括句子节点和提及节点；所述句子节点的表达式为提及节点的表达式为3.根据权利要求2所述的基于图聚合和推理的文本关系抽取方法，其特征在于，所述步骤S2包括以下分步骤：S21、基于文档级图中句子节点与提及节点，定义文档级图中边的类型，并生成文档级图的边；S22、通过l层堆叠的关系图卷积神经网络对文档级图进行卷积，获取文档级图中边的关系，生成异构图；S23、将异构图输入logsumexp池化层，得到实体全局表示。4.根据权利要求3所述的基于图聚合和推理的文本关系抽取方法，其特征在于，所述步骤S21中，文档级图中边的类型包括提及
‑
提及边缘、提及句子边缘和句子
‑
句子边缘；所述步骤S21具体为：当两个不同的实体初始表示在同一个句子中时，则连接两个不同实体初始表示的提及节点，生成提及
‑
提及边缘；当提及节点在句子中时，则连接提及节点和当前句子中的句子节点，生成提及句子边缘；连接所有句子节点，生成句子
‑
句子边缘。
5.根据权利要求3所述的基于图聚合和推理的文本关系抽取方法，其特征在于，所述步骤S22中，l层堆叠的关系图卷积神经网络对节点前向传递更新的表达式具体为：式中，为l层堆叠的关系图卷积神经网络输出的文档级图中节点，和均为l
‑
1层堆叠的关系图卷积神经网络输出的文档级图中节点，σ(
·
)为激活函数，为与边x连接的节点i的邻居集合，为边类型的集合，为边类型的集合，为可训练的参数矩阵，d
n
...

【专利技术属性】
技术研发人员：惠孛，张栗粽，田玲，郑旭，董寅，刘耀文，宋乐璇，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人