一种基于证据检验增强的文档级关系抽取方法技术

技术编号：31086254 阅读：21 留言：0更新日期：2021-12-01 12:39

本发明专利技术提供了一种基于证据检验增强的文档级关系抽取方法，该方法构建基于证据检验增强的文档级关系抽取模型，模型包括关系抽取模块和证据验证模块；通过联合训练的方式，使证据验证模块引导关系抽取模块关注对于关系判断更为重要的信息；由于采用了证据验证的方式利用证据信息，避免了直接使用证据进行关系抽取可能产生的错误传播问题，从而提高了文档级关系抽取的准确率。关系抽取的准确率。关系抽取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于证据检验增强的文档级关系抽取方法

[0001]本专利技术提供一种文档级关系抽取技术，具体涉及一种基于证据检验增强的文档级关系抽取方法，属于自然语言处理中的信息抽取

技术介绍

[0002]关系抽取是自然语言处理领域最基本的问题之一，得益于近年来深度学习技术的发展，基于神经网络的模型在传统句子级关系抽取数据集上取得了较好的成绩，其中包括基于CNN(Convolution Neural Network，卷积神经网络)的模型，以及基于LSTM(Long Short
‑
Term Memory，长短期记忆网络)的模型，Cai等人(2016)、Guo等人(2019)、Mandya等人(2020)尝试在神经网络模型中加入依存关系(Dependency Parsing)等结构信息。由于在应用场景中，实体与实体之间的关系往往是由多句话表达，即有可能存在需要跨句推理得出的关系，基于句子级别的模型在此场景下性能会受到较大的局限。因此，近年来研究者开始探索长文档场景下的关系抽取。
[0003]现有的文档级关...

【技术保护点】

【技术特征摘要】
1.一种基于证据检验增强的文档级关系抽取方法，包括如下步骤：1)构建关系抽取模块，得到文档中所有实体对之间的关系概率；包括步骤A～D：A.获取文档中每一个单词结合了上下文的嵌入表示；给定一篇文档s
i
为文档D中的句子，N为文档中的句子数，w
ij
为句子s
i
中的单词，M
i
为s
i
包含的单词个数，H＝[h1,h2,
…
,h
l
]＝BERT([w1,w2,
…
,w
l
])，表示文档总长度；B.根据单词结合了上下文的嵌入表示[h1,h2,
…
，h
l
]，通过logsumexp池化，得到第i个实体e
i
的第j次提及m
ij
，T为提及m
ij
所含单词个数；C.对于第i个实体，对其所有的提及表示做logsumexp池化得到实体表示C.对于第i个实体，对其所有的提及表示做logsumexp池化得到实体表示Q为第i个实体的提及数量；D.通过上述过程得到了两个实体e
s
和e
o
以及对应的嵌入表示和计算两个实体e
s
和e
o
之间存在关系r的概率；2)构建证据检验模块，根据关系抽取模块得到的实体之间的关系预测结果，得到文档中能够支撑该关系判断的证据；包括步骤E～H：E.获取文档中每一个单词新的结合了上下文的嵌入表示；类似于关系抽取模块，给定一篇文档s
i
为文档D中的句子，N为文档中的句子数，w
ij
为句子s
i
中的单词，M
i
为s
i
包含的单词个数，H
′
＝[h
′1,h
′2,
…
,h
′
l
]＝BERT([w1,w2,
…
,w
l
])，表示文档总长度，N为文档中的句子数；F.根据文档的嵌入表示[h
′1,h
′2,
…
,h
′
l
]，通过logsumexp池化得到每一句的表示，其中M为句子s
i
所含的单词数：G.根据关系抽取模块得到的两实体e
...

【专利技术属性】
技术研发人员：黄振，宋一帆，徐浩，韩圣亚，李素建，
申请(专利权)人：国网山东省电力公司信息通信公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人