实体关系联合抽取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38907769 阅读:12 留言:0更新日期:2023-09-25 09:26
本发明专利技术公开了一种实体关系联合抽取方法、装置、计算机设备和存储介质,属于自然语言处理技术领域。实体关系联合抽取方法包括:采用预训练词嵌入将待测语句转化为标记向量;将标记向量输入到编码器中进行编码,得到标记的嵌入表示;将标记的嵌入表示输入到后向解码器中,得到后向解码结果;将标记的嵌入表示和后向解码结果输入到前向解码器中,采用从左到右的方式执行解码生成关系向量;根据关系向量构建关系联合图;将所述关系联合图输入到协作图模块中,采用图卷积捕获关系相关性,得到关系表示。本方法采用双向解码器减轻前向解码错误的负面影响,利用关系共图表示作为辅助任务,让模型通过GCN捕获关系共现,提高了实体关系抽取的效率。抽取的效率。抽取的效率。

【技术实现步骤摘要】
实体关系联合抽取方法、装置、计算机设备和存储介质


[0001]本专利技术涉及自然语言处理
,更具体地说,涉及一种实体关系联合抽取方法、装置、计算机设备和存储介质。

技术介绍

[0002]关系抽取,也称为关系事实抽取,在自然语言处理的各种应用中发挥着至关重要的作用,尤其是在知识图谱(KG)的自动构建方面。近年来有很多研究集中在这一任务上,其目标是识别句子中一对实体的关系以及构建关系三元组。传统的关系抽取分为两个步骤,即以管道模式进行命名实体识别(Named Entity Recognition(NER))和关系分类(relation classification)。首先命名实体识别的错误会传播到下游任务关系分类中,模型没有机会获得反馈,从而影响关系提取的性能。然后管道式方法为每个子任务分别训练不同的模型,因此无法对这两个子任务之间的底层依赖关系进行建模。最后管道模式只考虑目标实体之间的关系,而忽略可能在同一个句子中呈现的其他关系事实。因此,如何提升在关系抽取中的准确性成为了一个亟待解决的问题。
[0003]在相关技术中,提出了使用统一模型进行实体关系联合抽取(JERE)。联合方法不仅可以建模实体信息和关系之间的依赖关系,还可以考虑关系之间的交互,因为它可以同时从一个句子中提取所有关系事实。除了上述工作之外,还有另一个研究方向,Sequence

to

Sequence(Seq2Seq),它将这个任务重铸成一个序列生成问题,将关系提取视为生成三元组的任务,这种模型的支柱是编码器

解码器架构,但是同时也有一些问题,即前向解码错误和关系共现,这些都被忽视了。

技术实现思路

[0004]本申请的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本申请的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]本申请的一些实施例提出了实体关系联合抽取方法、装置、电子设备和计算机存储介质,来解决以上
技术介绍
部分提到的技术问题。
[0006]作为本申请的一个方面,本申请的一些实施例提供了一种实体关系抽取方法,包括:
[0007]S100:采用预训练词嵌入将待测语句转化为标记向量;
[0008]S200:将所述标记向量输入到编码器中进行编码,得到标记的嵌入表示;
[0009]S300:将标记的嵌入表示输入到后向解码器中,采用以从右到左的方式进行解码,得到后向解码结果;
[0010]S400:将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中,采用从左到右的方式执行解码生成关系向量;
[0011]S500:根据所述关系向量构建关系联合图;
[0012]S600:将所述关系联合图输入到协作图模块中,采用图卷积捕获关系相关性,得到关系表示。
[0013]进一步的,所述步骤S200中,所述编码器为RNN编码器。
[0014]进一步的,所述步骤S200中,所述编码器包括若干个双向LSTM模块。
[0015]进一步的,所述步骤S200具体包括:
[0016]以从左到右和从右到做的顺序将所述标记向量输入到双向LSTM模块中,将得到的前向输出和后向输出组合,得到每个标记的嵌入表示,其中标记向量的第i个标记的嵌入表示为:
[0017][0018]其中,h
ie
为第i个标记的嵌入表示,为第i个单词的前向输出,为第i个单词的后向输出。
[0019]进一步的,所述步骤S300中,所述后向解码器为带有改进的LSTM单元的RNN;所述改进的LSTM单元为引入了注意力机制的LSTM单元。
[0020]进一步的,所述步骤S300具体包括:
[0021]将所有标记的嵌入表示组成嵌入表示序列,嵌入表示序列的第一个元素作为目标令牌的开始,嵌入表示序列的最后一个元素作为目标令牌的结束;
[0022]在后向解码器中,从目标令牌的结束的开始,直到遇到目标令牌的开始,从右到左逐步解码嵌入表示序列,得到后向解码器输出;时间步t时后向解码器输出为:
[0023][0024][0025][0026]s(h
tbd
,h
ie
)=h
tbd
W
abd
h
ie
[0027]其中,[
·

·
]为向量连接,h
t+1bd
是后向解码器中上一步的输入,e
t+1
为标记y
t+1
的嵌入表示,C
tbd
为使用注意力机制从编码器获得的上下文向量,h
ie
为第i个标记的嵌入表示,α
tbd
为后向解码器的注意力分数,s(h
tdd
,h
ie
)为时间步t时的后向解码输出和第i个标记的嵌入表示的融合编码表示;
[0028]将所述解码器输出通过掩码处理后采用线性变换,得到后向解码结果。
[0029]进一步的,所述步骤S400中,所述前向解码器与后向解码器的结构相同。
[0030]进一步的,所述步骤S400具体包括包括,
[0031]将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中,采用从左到右的方式执行解码,得到前向解码器输出,时间步t时前向解码器输出为:
[0032]h
tbd
=LSTM(h
t

1bd
,[e
t
‑1;C
tb
;C
te
])
[0033][0034][0035]s(h
tfd
,h
ibd
)=h
tfd
W
afd
h
ibd
[0036][0037][0038]s(h
tfd
,h
ie
)=h
tfd
W
afe
h
ie
[0039]其中,h
t

1fd
和e
t
‑1是前一步前向解码器的输出和令牌的嵌入,e
t+1
是标记y
t+1
的嵌入表示,C
tb
和C
te
是采用注意力机制分别从后向解码器和编码器获得的两个上下文向量,α
tfb
和α
tfe
是前向解码器和编码器的注意力分数,s(h
tfd
,h
ibd
)为时间步t时的前向解码器的输出和第i个标记的后向解码结果的融合编码表示,s(h
tfd
,h
ie
)为时间步t时的前向解码输出和第i个标记的嵌入表示的融合编码表示;
...

【技术保护点】

【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于:包括,S100:采用预训练词嵌入将待测语句转化为标记向量;S200:将所述标记向量输入到编码器中进行编码,得到标记的嵌入表示;S300:将标记的嵌入表示输入到后向解码器中,采用从右到左的方式进行解码,得到后向解码结果;S400:将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中,采用从左到右的方式执行解码生成关系向量;S500:根据所述关系向量构建关系联合图;S600:将所述关系联合图输入到协作图模块中,采用图卷积捕获关系相关性,得到关系表示。2.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S200中,所述编码器为RNN编码器。3.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S200中,所述编码器包括若干个双向LSTM模块。4.根据权利要求3所述的实体关系联合抽取方法,其特征在于:所述步骤S200具体包括:以从左到右和从右到做的顺序将所述标记向量输入到双向LSTM模块中,将得到的前向输出和后向输出组合,得到每个标记的嵌入表示,其中标记向量的第i个标记的嵌入表示为:其中,h
ie
为第i个标记的嵌入表示,为第i个单词的前向输出,为第i个单词的后向输出。5.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S300中,所述后向解码器为带有改进的LSTM单元的RNN;所述改进的LSTM单元为引入了注意力机制的LSTM单元。6.根据权利要求5所述的实体关系联合抽取方法,其特征在于:所述步骤S300具体包括:将所有标记的嵌入表示组成嵌入表示序列,嵌入表示序列的第一个元素作为目标令牌的开始,嵌入表示序列的最后一个元素作为目标令牌的结束;在后向解码器中,从目标令牌的结束的开始,直到遇到目标令牌的开始,从右到左逐步解码嵌入表示序列,得到后向解码器输出;时间步t时后向解码器输出为:h
tbd
=LSTM(h
t+1bd
,[e
t+1
;C
tbd
])])
s(h
tbd
,h
ie
)=h
tbd
W
αbd
h
ie
其中,[
·

·
]为向量连接,h
t+1bd
是后向解码器中上一步的输入,e
t+1
为标记y
t+1
的嵌入表示,C
tbd
为使用注意力机制从编码器获得的上下文向量,h
ie
为第i个标记的嵌入表示,α
tbd
为后向解码器的注意力分数,s(h
tbd
,h
ie
)为时间步t时的后向解码输出和第i个标记的嵌入表示的融合编码表示;将所述解码器输出通过掩码处理后采用线性变换,得到后向解码结果。7.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S400中,所述前向解码器与后向解码器的结构相同。8.根据权利要求7所述的实体关系联合抽取方法,其特征在于:所述步骤S400具体包括包括,将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中,采用从左到右的方式执行解码,得到前向解码器输出,时间步t时前向解码器输出为:h
tbd
=LSTM(h
t

1bd
,[e
t
‑1;C
tb
;C
te
])])s(h
tfd
,h
ibd
)=h
tfd
W
αfd
h
ibdbd
s(h
tfd
,h
ie
)=h
tfd
W
afe
...

【专利技术属性】
技术研发人员:丁鲲张慧蒋国权刘姗姗刘茗张骁雄刘浏
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1