一种基于多图神经网络推理的文档级关系抽取方法技术

技术编号：39048585 阅读：25 留言：0更新日期：2023-10-10 12:01

本发明专利技术涉及一种基于多图神经网络推理的文档级关系抽取方法，包括以下步骤，步骤1：获得文档数据集与给定的对照实体对；步骤2：构建基于多图神经网络推理的前文档级关系抽取模型，将步骤1的数据输入前文档级关系抽取模型内进行训练，并得到训练好的后文档级关系抽取模型；步骤3：将步骤1的数据输入步骤2中训练好的所述后文档级关系抽取模型内，得到对应的实体对关系预测概率。本发明专利技术构建了一个多图神经网络推理部件，该部件使得本发明专利技术的模型可从多角度来推理文档图特征，提升了关系预测的性能，并为文档序列构建了一个全局特征，让模型在保留图特征的同时又加入了序列特征辅助关系预测。系预测。系预测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多图神经网络推理的文档级关系抽取方法

[0001]本专利技术属于自然语言处理
，特别是涉及一种基于多图神经网络推理的文档级关系抽取方法。

技术介绍

[0002]目前基于深度学习的文档级关系抽取方法主要有两大方向：(1)基于文档序列编码的方法；(2)基于文档图推理的方法，目前大多数方法都是基于文档图模型实现的，这主要是由于文档图充分地考虑了实体间的相互信息，用图结构把分散在不同句子中的实体联系起来，因而一定程度上避免了直接使用文档序列编码存在的长依赖问题。
[0003]虽然文档图在许多方法上都展现了优良的性能，但是仍存在以下不足：(1)现有方法在对文档图进行推理时通常只使用单一的图神经网络，然而文档图的节点关系是非常复杂的，特别是在构建文档图的过程中许多方法会使用多元路径关系，这导致使用单一结构的图神经网络难以充分地推理文档图信息，从而影响最终性能。(2)许多基于文档图的方法并没有考虑使用文档序列特征，导致得到的特征只能反映图信息，从而忽略文档原来的序列信息，使得性能难以提高。(3)训练过程中由于标注样本不足，大多数方法通常会使用自定义的负样本辅助训练，然而使用这些负样本也会带来一定程度的噪音问题。
[0004]如一种基于关联句选择和关系图推理的文档级关系抽取方法(公开号：CN113468325A，公开日：2021
‑
10
‑
01)，抽取方法包括如下步骤：获取文档中包含头实体的第一句子集合和包含尾实体的第二句子集合，选择第一句子集合和第二句子集合中在文档...

【技术保护点】

【技术特征摘要】
1.一种基于多图神经网络推理的文档级关系抽取方法，其特征在于，包括以下步骤，步骤1：获得文档数据集与给定的对照实体对，所述文档数据集包括训练文档数据集与待测文档数据集，所述对照实体对包括第一对照实体对与第二对照实体对；步骤2：构建基于多图神经网络推理的前文档级关系抽取模型，并将步骤1的训练文档数据集分为若干组训练文档序列与第一对照实体对输入前文档级关系抽取模型内进行训练，输出所述训练文档序列的第一文档实体对关系预测概率，并得到训练好的后文档级关系抽取模型；步骤3：将待测文档数据集与给定的第二对照实体对，输入步骤2中训练好的所述后文档级关系抽取模型内，得到对应待测文档数据集的第二文档实体对关系预测概率。2.根据权利要求1所述的基于多图神经网络推理的文档级关系抽取方法，其特征在于，上述步骤1中的训练文档数据集与待测文档数据集分别划分为不同的批次，每个所述批次设有一组文档序列，分别为训练文档序列与待测文档序列，所述训练文档序列设有第一文档实体对，所述待测文档序列设有第二文档实体对。3.根据权利要求1所述的基于多图神经网络推理的文档级关系抽取方法，其特征在于，上述步骤2包括以下步骤，步骤2.1：输入，输入步骤1中训练文档序列与第一对照实体对；步骤2.2：特征抽取，将步骤2.1的训练文档序列计算推理得到图卷积特征、图注意力特征与全局注意力特征；步骤2.3：根据步骤2.1中第一对照实体对的位置信息，在步骤2.2的图卷积特征、图注意力特征与全局注意力特征中找到对应的向量表示，进行拼接得到最终的关系特征，并在此基础上计算所述训练文档序列的第一文档实体对关系预测值；步骤2.4：基于2.3的基础上引入平衡交叉熵损失函数改善噪音问题，并使用所述平衡交叉熵损失函数训练前文档级关系抽取模型。4.根据权利要求3所述的基于多图神经网络推理的文档级关系抽取方法，其特征在于，上述步骤2.2包括，步骤2.2.1：编码，所述前文档级关系抽取模型对输入的训练文档序列进行编码，将步骤2.1训练文档序列中的文档输入到编码器中，得到序列编码；步骤2.2.2：构建文...

【专利技术属性】
技术研发人员：王燕玲，黄震华，刘博宁，薛云，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人