实体关系联合抽取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：38907769 阅读：12 留言：0更新日期：2023-09-25 09:26

本发明专利技术公开了一种实体关系联合抽取方法、装置、计算机设备和存储介质，属于自然语言处理技术领域。实体关系联合抽取方法包括：采用预训练词嵌入将待测语句转化为标记向量；将标记向量输入到编码器中进行编码，得到标记的嵌入表示；将标记的嵌入表示输入到后向解码器中，得到后向解码结果；将标记的嵌入表示和后向解码结果输入到前向解码器中，采用从左到右的方式执行解码生成关系向量；根据关系向量构建关系联合图；将所述关系联合图输入到协作图模块中，采用图卷积捕获关系相关性，得到关系表示。本方法采用双向解码器减轻前向解码错误的负面影响，利用关系共图表示作为辅助任务，让模型通过GCN捕获关系共现，提高了实体关系抽取的效率。抽取的效率。抽取的效率。

全部详细技术资料下载

【技术实现步骤摘要】
实体关系联合抽取方法、装置、计算机设备和存储介质

[0001]本专利技术涉及自然语言处理
，更具体地说，涉及一种实体关系联合抽取方法、装置、计算机设备和存储介质。

技术介绍

[0002]关系抽取，也称为关系事实抽取，在自然语言处理的各种应用中发挥着至关重要的作用，尤其是在知识图谱(KG)的自动构建方面。近年来有很多研究集中在这一任务上，其目标是识别句子中一对实体的关系以及构建关系三元组。传统的关系抽取分为两个步骤，即以管道模式进行命名实体识别(Named Entity Recognition(NER))和关系分类(relation classification)。首先命名实体识别的错误会传播到下游任务关系分类中，模型没有机会获得反馈，从而影响关系提取的性能。然后管道式方法为每个子任务分别训练不同的模型，因此无法对这两个子任务之间的底层依赖关系进行建模。最后管道模式只考虑目标实体之间的关系，而忽略可能在同一个句子中呈现的其他关系事实。因此，如何提升在关系抽取中的准确性成为了一个亟待解决的问题。
[0003]在相关技术中，提出了使用统一模型进行实体关系联合抽取(JERE)。联合方法不仅可以建模实体信息和关系之间的依赖关系，还可以考虑关系之间的交互，因为它可以同时从一个句子中提取所有关系事实。除了上述工作之外，还有另一个研究方向，Sequence
‑
to
‑
Sequence(Seq2Seq)，它将这个任务重铸成一个序列生成问题，将关系提取视为生成三元组的任务，这种模型的支柱

【技术保护点】

【技术特征摘要】
1.一种实体关系联合抽取方法，其特征在于：包括，S100：采用预训练词嵌入将待测语句转化为标记向量；S200：将所述标记向量输入到编码器中进行编码，得到标记的嵌入表示；S300：将标记的嵌入表示输入到后向解码器中，采用从右到左的方式进行解码，得到后向解码结果；S400：将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中，采用从左到右的方式执行解码生成关系向量；S500：根据所述关系向量构建关系联合图；S600：将所述关系联合图输入到协作图模块中，采用图卷积捕获关系相关性，得到关系表示。2.根据权利要求1所述的实体关系联合抽取方法，其特征在于：所述步骤S200中，所述编码器为RNN编码器。3.根据权利要求1所述的实体关系联合抽取方法，其特征在于：所述步骤S200中，所述编码器包括若干个双向LSTM模块。4.根据权利要求3所述的实体关系联合抽取方法，其特征在于：所述步骤S200具体包括：以从左到右和从右到做的顺序将所述标记向量输入到双向LSTM模块中，将得到的前向输出和后向输出组合，得到每个标记的嵌入表示，其中标记向量的第i个标记的嵌入表示为：其中，h
ie
为第i个标记的嵌入表示，为第i个单词的前向输出，为第i个单词的后向输出。5.根据权利要求1所述的实体关系联合抽取方法，其特征在于：所述步骤S300中，所述后向解码器为带有改进的LSTM单元的RNN；所述改进的LSTM单元为引入了注意力机制的LSTM单元。6.根据权利要求5所述的实体关系联合抽取方法，其特征在于：所述步骤S300具体包括：将所有标记的嵌入表示组成嵌入表示序列，嵌入表示序列的第一个元素作为目标令牌的开始，嵌入表示序列的最后一个元素作为目标令牌的结束；在后向解码器中，从目标令牌的结束的开始，直到遇到目标令牌的开始，从右到左逐步解码嵌入表示序列，得到后向解码器输出；时间步t时后向解码器输出为：h
tbd
＝LSTM(h
t+1bd
，[e
t+1
；C
tbd
])])
s(h
tbd
，h
ie
)＝h
tbd
W
αbd
h
ie
其中，[
·
；
·
]为向量连接，h
t+1bd
是后向解码器中上一步的输入，e
t+1
为标记y
t+1
的嵌入表示，C
tbd
为使用注意力机制从编码器获得的上下文向量，h
ie
为第i个标记的嵌入表示，α
tbd
为后向解码器的注意力分数，s(h
tbd
，h
ie
)为时间步t时的后向解码输出和第i个标记的嵌入表示的融合编码表示；将所述解码器输出通过掩码处理后采用线性变换，得到后向解码结果。7.根据权利要求1所述的实体关系联合抽取方法，其特征在于：所述步骤S400中，所述前向解码器与后向解码器的结构相同。8.根据权利要求7所述的实体关系联合抽取方法，其特征在于：所述步骤S400具体包括包括，将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中，采用从左到右的方式执行解码，得到前向解码器输出，时间步t时前向解码器输出为：h
tbd
＝LSTM(h
t
‑
1bd
，[e
t
‑1；C
tb
；C
te
])])s(h
tfd
，h
ibd
)＝h
tfd
W
αfd
h
ibdbd
s(h
tfd
，h
ie
)＝h
tfd
W
afe
...

【专利技术属性】
技术研发人员：丁鲲，张慧，蒋国权，刘姗姗，刘茗，张骁雄，刘浏，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人