【技术实现步骤摘要】
一种基于层叠式指针网络的实体关系联合抽取方法及系统
[0001]本专利技术涉及一种计算机应用技术,尤其涉及一种基于层叠式指针网络的实体关系联合抽取方法及系统。
技术介绍
[0002]关系抽取作为构建知识图谱的关键环节,成为国内外研究人员的焦点问题。然而,由于非结构化文本信息表达的多样性,使得从自然语言文本中提取关系面临困难和挑战。
[0003]传统特征工程实体关系抽取模型离不开人工和自然语言处理工具的使用,降低了关系抽取的效率。
[0004]为解决这个问题,一些基于深度神经网络的模型逐渐成为研究的主流方向。其中由于联合抽取模型将命名实体识别和关系分类两个子任务紧密结合降低了流水线方法中误差传播造成的影响,近些年研究人员大都致力于联合抽取模型的研究。
[0005]如:文献Zheng SC,Wang F,Bao HY,et al.Joint extraction of entities and relations based on a novel tagging scheme[C]//Proc of the55th Annual Meeting of the ACL.Stroudsburg,PA:ACL,2017:1227
–
1236提出了:为避免以命名实体识别
‑
关系抽取流水线方式进行抽取,将关系抽取视为命名实体识别,通常命名实体识别以序列标注方式处理。
[0006]文献Zeng XG,Zeng DJ,He SZ,et al.Extracting re ...
【技术保护点】
【技术特征摘要】
1.一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:包括以下步骤:S1、构建Duie_Bert预训练模型对输入的文本进行编码;S2、利用特定关系
‑
实体向量引导的多头注意力机制来增强编码层输出向量的特征表达,在此基础上,针对头实体及每一种关系利用改进的层叠式指针标注框架抽取出对应的尾实体,完成关系三元组的抽取;S21、计算头实体的开始位置和结束位置;S22、在编码层,引入基于特定关系
‑
实体引导的注意力机制,获取实体与句子之间的语义联系;S23、计算尾实体的开始位置和结束位置。2.根据权利要求1所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S1具体包括以下步骤:使用Duie数据集中的文本对Bert模型训练,得到了适用于Duie数据集文本的Duie_Bert模型。3.根据权利要求2所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S1得到的Duie_Bert模型包括嵌入、片段嵌入和位置编码嵌入三个部分,且Duie_Bert模型删除嵌入信息,同时用字嵌入代替词嵌入,将字嵌入信息W
s
和位置嵌入信息W
p
相加得到输入的向量,随后将输入向量经过第一层及后续层的Transformer网络得到文本的向量表示:h0=SW
S
+W
p (1)h
n
=Transformer(h
n
‑1),n∈[1,N] (2)其中,S为输入句中子词3个索引的单热向量矩阵;P表示输入序列中的位置索引;h
n
为隐状态向量,其表示句子经过N层Transformer网络编码后的输出,该向量作为解码层的输入。4.根据权利要求3所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S21具体包括以下步骤:S211、对于输入的每个字嵌入token,使用一个线性层和sigmoid激活函数来判断是否是头实体的开始部分或结束部分;S212、采用两个相同的二分类器,通过给每个token分配一个标记:0/1,判断当前token是否对应于subject的起始位置或结束位置;S213、结合标注框架去识别所有可能的头实体。5.根据权利要求4所述的一种基于层叠式指针网络的实体关系联合抽取方法,其特征在于:步骤S211中所述sigmoid激活函数为:f
istart_s
=σ(W
start
t
i
+b
start
) (3)f
iend_s
=σ(W
end
t
i
+b
end
) (4)其中,f
i
start_s和f
ie...
【专利技术属性】
技术研发人员:张志勇,宋斌,乔丹阳,于雅洁,张中亚,邵敬平,李玉祥,张丽丽,靳正芬,赵长伟,
申请(专利权)人:河南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。