一种基于层叠式指针网络的实体关系联合抽取方法及系统技术方案

技术编号:37533211 阅读:13 留言:0更新日期:2023-05-12 16:00
本发明专利技术公开了一种基于层叠式指针网络的实体关系联合抽取方法及系统,包括以下步骤:S1、构建Duie_Bert预训练模型对输入的文本进行编码;S2、利用特定关系

【技术实现步骤摘要】
一种基于层叠式指针网络的实体关系联合抽取方法及系统


[0001]本专利技术涉及一种计算机应用技术,尤其涉及一种基于层叠式指针网络的实体关系联合抽取方法及系统。

技术介绍

[0002]关系抽取作为构建知识图谱的关键环节,成为国内外研究人员的焦点问题。然而,由于非结构化文本信息表达的多样性,使得从自然语言文本中提取关系面临困难和挑战。
[0003]传统特征工程实体关系抽取模型离不开人工和自然语言处理工具的使用,降低了关系抽取的效率。
[0004]为解决这个问题,一些基于深度神经网络的模型逐渐成为研究的主流方向。其中由于联合抽取模型将命名实体识别和关系分类两个子任务紧密结合降低了流水线方法中误差传播造成的影响,近些年研究人员大都致力于联合抽取模型的研究。
[0005]如:文献Zheng SC,Wang F,Bao HY,et al.Joint extraction of entities and relations based on a novel tagging scheme[C]//Proc of the55th Annual Meeting of the ACL.Stroudsburg,PA:ACL,2017:1227

1236提出了:为避免以命名实体识别

关系抽取流水线方式进行抽取,将关系抽取视为命名实体识别,通常命名实体识别以序列标注方式处理。
[0006]文献Zeng XG,Zeng DJ,He SZ,et al.Extracting relational facts by an end

to

end neural model with copy mechanism[C]//Proc of the 56th Annual Meeting of the ACL.Stroudsburg,PA:ACL,2018:506

514提出了:基于复制机制的序列对序列学习的end2end模型进行实体关系联合抽取,引入了3种重叠三元组的模式,除了可以联合提取实体和关系之外,通过带有复制机制的序列到序列模型可以解决多个实体关系重叠问题。
[0007]文献Fu TJ,Li P,Ma WY.GraphRel:Modeling text as relational graphs for joint entity and relation extraction[C]//Proc of the 57th Annual Meeting of the ACL.Stroudsburg,PA:ACL,2019:1409

1418提出了:提出将原序列语句视为1个图,将句中的每个词视为1个节点,通过两个阶段的图卷积网络进行每个词之间的特征融合,继而推断节点之间的关系,该模型能够避免解码过程中因先后顺序导致的实体关系三元组前后依赖的问题,然而不能较好的解决EPO类型的关系重叠问题。
[0008]文献Wei ZP,Su JL,Wang Y,et al.A Novel Cascade Binary Tagging Framework for Relational Triple Extraction.In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,Stroudsburg,PA:Association for Computational Linguistics,2020:1476

1488提出了一种新的级联二元标注框架,将三元组的抽取任务转换为头实体、关系和尾实体三个级别的问题,有效解决了EOP类型的关系重叠问题。但是此方法在文本编码过程中未能充分利用实体与句子中各个词之间的细粒度语义联系,导致语义信息错误传递的问题。

技术实现思路

[0009]针对近些年来关系抽取研究中存在的重叠关系三元组问题和多实体错误传递的问题,本专利技术提供一种基于层叠式指针网络的实体关系联合抽取方法及系统,通过在实体关系联合抽取模型中引入由特定关系

实体向量引导的多头注意力机制,用于获取实体与句子之间的语义联系,有效地解决关系抽取过程中的误差积累和数据冗余的问题。
[0010]为实现上述目的,本专利技术提供了一种基于层叠式指针网络的实体关系联合抽取方法,包括以下步骤:
[0011]S1、构建Duie_Bert预训练模型对输入的文本进行编码;
[0012]S2、利用特定关系

实体向量引导的多头注意力机制来增强编码层输出向量的特征表达,在此基础上,针对头实体及每一种关系利用改进的层叠式指针标注框架抽取出对应的尾实体,完成关系三元组的抽取;
[0013]S21、计算头实体的开始位置和结束位置;
[0014]S22、在编码层,引入基于特定关系

实体引导的注意力机制,获取实体与句子之间的语义联系;
[0015]S23、计算尾实体的开始位置和结束位置。
[0016]优选的,步骤S1具体包括以下步骤:
[0017]使用Duie数据集中的文本对Bert模型训练,得到了适用于Duie数据集文本的Duie_Bert模型。
[0018]优选的,步骤S1得到的Duie_Bert模型包括嵌入、片段嵌入和位置编码嵌入三个部分,且Duie_Bert模型删除嵌入信息,同时用字嵌入代替词嵌入,将字嵌入信息W
s
和位置嵌入信息W
p
相加得到输入的向量,随后将输入向量经过第一层及后续层的Transformer网络得到文本的向量表示:
[0019]h0=SW
S
+W
p (1)
[0020]h
n
=Transformer(h
n
‑1),n∈[1,N] (2)
[0021]其中,S为输入句中子词3个索引的单热向量矩阵;P表示输入序列中的位置索引;h
n
为隐状态向量,其表示句子经过N层Transformer网络编码后的输出,该向量作为解码层的输入。
[0022]优选的,步骤S21具体包括以下步骤:
[0023]S211、对于输入的每个字嵌入token,使用一个线性层和sigmoid激活函数来判断是否是头实体的开始部分或结束部分;
[0024]S212、采用两个相同的二分类器,通过给每个token分配一个标记:0/1,判断当前token是否对应于subject的起始位置或结束位置;
[0025]S213、结合标注框架去识别所有可能的头实体。
[0026]优选的,其特征在于:步骤S211中所述sigmoid激活函数为:
[0027]f
istart_s
=σ(W
start
t
i
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:包括以下步骤:S1、构建Duie_Bert预训练模型对输入的文本进行编码;S2、利用特定关系

实体向量引导的多头注意力机制来增强编码层输出向量的特征表达,在此基础上,针对头实体及每一种关系利用改进的层叠式指针标注框架抽取出对应的尾实体,完成关系三元组的抽取;S21、计算头实体的开始位置和结束位置;S22、在编码层,引入基于特定关系

实体引导的注意力机制,获取实体与句子之间的语义联系;S23、计算尾实体的开始位置和结束位置。2.根据权利要求1所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S1具体包括以下步骤:使用Duie数据集中的文本对Bert模型训练,得到了适用于Duie数据集文本的Duie_Bert模型。3.根据权利要求2所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S1得到的Duie_Bert模型包括嵌入、片段嵌入和位置编码嵌入三个部分,且Duie_Bert模型删除嵌入信息,同时用字嵌入代替词嵌入,将字嵌入信息W
s
和位置嵌入信息W
p
相加得到输入的向量,随后将输入向量经过第一层及后续层的Transformer网络得到文本的向量表示:h0=SW
S
+W
p (1)h
n
=Transformer(h
n
‑1),n∈[1,N] (2)其中,S为输入句中子词3个索引的单热向量矩阵;P表示输入序列中的位置索引;h
n
为隐状态向量,其表示句子经过N层Transformer网络编码后的输出,该向量作为解码层的输入。4.根据权利要求3所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S21具体包括以下步骤:S211、对于输入的每个字嵌入token,使用一个线性层和sigmoid激活函数来判断是否是头实体的开始部分或结束部分;S212、采用两个相同的二分类器,通过给每个token分配一个标记:0/1,判断当前token是否对应于subject的起始位置或结束位置;S213、结合标注框架去识别所有可能的头实体。5.根据权利要求4所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S211中所述sigmoid激活函数为:f
istart_s
=σ(W
start
t
i
+b
start
) (3)f
iend_s
=σ(W
end
t
i
+b
end
) (4)其中,f
i
start_s和f
ie...

【专利技术属性】
技术研发人员:张志勇宋斌乔丹阳于雅洁张中亚邵敬平李玉祥张丽丽靳正芬赵长伟
申请(专利权)人:河南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1