【技术实现步骤摘要】
实体关系联合抽取方法、装置、计算机设备和存储介质
[0001]本专利技术涉及自然语言处理
,更具体地说,涉及一种实体关系联合抽取方法、装置、计算机设备和存储介质。
技术介绍
[0002]关系抽取,也称为关系事实抽取,在自然语言处理的各种应用中发挥着至关重要的作用,尤其是在知识图谱(KG)的自动构建方面。近年来有很多研究集中在这一任务上,其目标是识别句子中一对实体的关系以及构建关系三元组。传统的关系抽取分为两个步骤,即以管道模式进行命名实体识别(Named Entity Recognition(NER))和关系分类(relation classification)。首先命名实体识别的错误会传播到下游任务关系分类中,模型没有机会获得反馈,从而影响关系提取的性能。然后管道式方法为每个子任务分别训练不同的模型,因此无法对这两个子任务之间的底层依赖关系进行建模。最后管道模式只考虑目标实体之间的关系,而忽略可能在同一个句子中呈现的其他关系事实。因此,如何提升在关系抽取中的准确性成为了一个亟待解决的问题。
[0003]在相关技术中,提出了使用统一模型进行实体关系联合抽取(JERE)。联合方法不仅可以建模实体信息和关系之间的依赖关系,还可以考虑关系之间的交互,因为它可以同时从一个句子中提取所有关系事实。除了上述工作之外,还有另一个研究方向,Sequence
‑
to
‑
Sequence(Seq2Seq),它将这个任务重铸成一个序列生成问题,将关系提取视为生成三元组的任务,这种模型的支柱
【技术保护点】
【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于:包括,S100:采用预训练词嵌入将待测语句转化为标记向量;S200:将所述标记向量输入到编码器中进行编码,得到标记的嵌入表示;S300:将标记的嵌入表示输入到后向解码器中,采用从右到左的方式进行解码,得到后向解码结果;S400:将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中,采用从左到右的方式执行解码生成关系向量;S500:根据所述关系向量构建关系联合图;S600:将所述关系联合图输入到协作图模块中,采用图卷积捕获关系相关性,得到关系表示。2.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S200中,所述编码器为RNN编码器。3.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S200中,所述编码器包括若干个双向LSTM模块。4.根据权利要求3所述的实体关系联合抽取方法,其特征在于:所述步骤S200具体包括:以从左到右和从右到做的顺序将所述标记向量输入到双向LSTM模块中,将得到的前向输出和后向输出组合,得到每个标记的嵌入表示,其中标记向量的第i个标记的嵌入表示为:其中,h
ie
为第i个标记的嵌入表示,为第i个单词的前向输出,为第i个单词的后向输出。5.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S300中,所述后向解码器为带有改进的LSTM单元的RNN;所述改进的LSTM单元为引入了注意力机制的LSTM单元。6.根据权利要求5所述的实体关系联合抽取方法,其特征在于:所述步骤S300具体包括:将所有标记的嵌入表示组成嵌入表示序列,嵌入表示序列的第一个元素作为目标令牌的开始,嵌入表示序列的最后一个元素作为目标令牌的结束;在后向解码器中,从目标令牌的结束的开始,直到遇到目标令牌的开始,从右到左逐步解码嵌入表示序列,得到后向解码器输出;时间步t时后向解码器输出为:h
tbd
=LSTM(h
t+1bd
,[e
t+1
;C
tbd
])])
s(h
tbd
,h
ie
)=h
tbd
W
αbd
h
ie
其中,[
·
;
·
]为向量连接,h
t+1bd
是后向解码器中上一步的输入,e
t+1
为标记y
t+1
的嵌入表示,C
tbd
为使用注意力机制从编码器获得的上下文向量,h
ie
为第i个标记的嵌入表示,α
tbd
为后向解码器的注意力分数,s(h
tbd
,h
ie
)为时间步t时的后向解码输出和第i个标记的嵌入表示的融合编码表示;将所述解码器输出通过掩码处理后采用线性变换,得到后向解码结果。7.根据权利要求1所述的实体关系联合抽取方法,其特征在于:所述步骤S400中,所述前向解码器与后向解码器的结构相同。8.根据权利要求7所述的实体关系联合抽取方法,其特征在于:所述步骤S400具体包括包括,将所述标记的嵌入表示和所述后向解码结果输入到前向解码器中,采用从左到右的方式执行解码,得到前向解码器输出,时间步t时前向解码器输出为:h
tbd
=LSTM(h
t
‑
1bd
,[e
t
‑1;C
tb
;C
te
])])s(h
tfd
,h
ibd
)=h
tfd
W
αfd
h
ibdbd
s(h
tfd
,h
ie
)=h
tfd
W
afe
...
【专利技术属性】
技术研发人员:丁鲲,张慧,蒋国权,刘姗姗,刘茗,张骁雄,刘浏,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。