基于增强序列标注策略的单阶段联合实体关系抽取方法及系统技术方案

技术编号:35514064 阅读:15 留言:0更新日期:2022-11-09 14:30
本发明专利技术属于信息抽取技术领域,特别涉及一种基于增强序列标注策略的单阶段联合实体关系抽取方法及系统,首先,构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实体位置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;然后,将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组,提升关系实体抽取效果。果。果。

【技术实现步骤摘要】
基于增强序列标注策略的单阶段联合实体关系抽取方法及系统


[0001]本专利技术属于信息抽取
,特别涉及一种基于增强序列标注策略的单阶段联合实体关系抽取方法及系统。

技术介绍

[0002]早期的实体关系抽取采用流水线方法,即首先使用命名体识别模型抽取文本中的实体,然后再使用关系分类模型预测候选实体对之间的关系。该方法虽然灵活简单、易于实现,两个子任务可以使用独立的数据集,但是存在误差传播、缺少两个子任务的交互以及增加冗余计算等问题。为了解决这些问题,后续的研究提出了联合实体关系抽取方法,即基于神经网络的端到端模型同时抽取文本中存在的实体及关系,通过设计合理的标注策略、向量融合方式及解码方法,不断增强两个子任务之间的交互,不断提升模型的抽取效果,相比于流水线方法取得了更好的性能。
[0003]近年来,针对联合实体关系抽取的研究已取得长足进步,但仍然存在如下四个方面的挑战:(1)实体嵌套问题。指在一个实体的内部包含一个或多个其他的实体。例如,“河南博物院”是一个类型为组织机构名的实体,而“河南博物院”中的“河南”同时也是类型为地名的实体。(2)曝光偏差问题。指模型在训练阶段和推理阶段各个组件的输入不一致。例如,CasRel和PRGC等模型虽然能够做到同时编码实体和关系,但是在解码阶段却弱化为流水线方式,训练阶段各个组件的输入均来自真实的标记,而推理阶段各个组件的上输入却来自前一组件的预测结果,如果前一组件预测结果出错,将会导致误差累积。(3)冗余计算问题。例如,CasRel、TPLinker和OneRel等模型在训练阶段通常需要预定义多个关系,并为每个关系建立一个矩阵,在推理阶段,不管文本中是否存在某个或者某些关系,都要遍历所有预定义的关系矩阵来抽取所有的实体关系三元组,造成了冗余计算问题,而且预定义的关系数量越多,推理时间就会越长,占用内存就会越多,耗费更多计算资源。(4)关系重叠问题。根据实体关系三元组中实体的重叠程度可以将句子分为正常(Normal)、实体对重叠(EntityPairOverlap,EPO)和单实体重叠(SingleEntityOverlap,SEO)三种类型。如果一个句子中的所有实体关系三元组都没有重叠的实体,这个句子就属于正常类型;如果一个句子中相同的实体对之间有多个不同的关系,这个句子就属于实体对重叠类型;如果一个句子中的一个实体存在于多个实体关系三元组中,这个句子就属于单实体重叠类型。

技术实现思路

[0004]为此,针对现有技术中的联合实体关系抽取无法同时解决嵌套实体、曝光偏差、冗余计算和重叠关系等技术问题,本专利技术提供一种基于增强序列标注策略的单阶段联合实体关系抽取方法及系统,将联合实体关系抽取任务转化为序列标注任务来提升实体抽取的效果。
[0005]按照本专利技术所提供的设计方案,提供一种基于增强序列标注策略的单阶段联合实
体关系抽取方法,包含如下内容:
[0006]构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实体位置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;
[0007]将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。
[0008]作为本专利技术中基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,实体关系抽取模型利用BERT模型结构作为编码器来获取输入文本序列的词向量表示,且在BERT模型中,首先,将输入文本序列转换为由词嵌入向量、分割嵌入向量和位置嵌入向量组成的待编码嵌入向量;然后将待编码嵌入向量输入值BERT模型中进行编码。
[0009]作为本专利技术中基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步,实体关系抽取模型中利用全连接神经网络来实现标注组件的组合标签标注,将词向量表示中的每个单词标签预测转换为多标签分类问题,利用sigmoid作为激活函数获取每个单词所属组合标签的预测概率,并根据预设的概率阈值来获取单词对应的标签映射。
[0010]作为本专利技术中基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步,每个单词所述组合标签的预测概率的计算过程表示为:p
i
=sigmoid(W
s
x
i
+b
s
),其中,R为预定义实体关系的数量,W
s
(g)表示网络可训练的权重矩阵,x
i
表示第i个单词的词向量表示,b
s
表示网络可训练的偏置常数。
[0011]作为本专利技术基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,实体关系抽取模型中利用全连接网络神经网络来实现实体相关矩阵的组合标签信息交互,利用sigmoid作为激活函数获取组合标签为头实体开始单词和尾实体开始单词之间的相关概率,并根据预设的相关概率阈值来得到对应组合标签映射。
[0012]作为本专利技术基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,组合标签为头实体开始单词和尾实体开始单词的相关概率计算过程表示为:p
is,js
=sigmoid(W
m
[x
is
;x
js
]+b
m
),其中,W
m
(g)表示网络可训练的权重矩阵,x
is
表示第i个头实体开始单词的词向量表示,xjs表示第j个尾实体开始单词的词向量表示,b
m
表示网络可训练的偏置常数。
[0013]作为本专利技术基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,实体关系抽取模型中的解码器,首先根据标注组件的标签映射解码出具有关系的头实体和尾实体,以根据标签索引来寻找组合标签;然后,通过将具有相同关系的头实体和尾实体两两组合来生成实体关系三元组,并根据实体相关矩阵的组合标签映射结果来解码出具有关系的头实体开始单词和尾实体开始单词的组合;最后,将标注组件标签映射的解码输出和实体相关矩阵的组合标签映射的解码输出进行匹配,保留有关系的实体关系三元组。
[0014]作为本专利技术基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,构建由标注组件损失函数和实体相关矩阵损失函数组成的组合损失函数,并利用NYT、NYT*、WebNLG、WebNLG*四个数据集对实体关系抽取模型进行训练,在训练过程中标注组件和实体相关矩阵共享编码器的编码输出。
[0015]作为本专利技术基于增强序列标注策略的单阶段联合实体关系抽取方法,进一步地,组合损失函数表示为:其中,其中,N表示输入文本序列的长度,R表示预定义关系的数量,M表示输入文本序列的最大长度,y
i,j...

【技术保护点】

【技术特征摘要】
1.一种基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,包含如下内容:构建实体关系抽取模型并进行训练,其中,实体关系抽取模型包含用于对输入的文本序列进行编码来输出对应单词词向量表示的编码器,用于对词向量表示进行标签映射的标注组件和实体相关矩阵,用于对标签映射结果进行解码来抽取相关实体关系三元组的解码器;标签映射中,利用标注组件对词向量表示标注由实体位置、单词在实体中位置及关系类型组成的组合标签,并利用实体相关矩阵增强组合标签之间的信息交互;将待抽取的目标文本序列输入已训练的实体关系抽取模型,利用该已训练的实体关系抽取模型来输出目标文本序列的相关实体三元组。2.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,实体关系抽取模型利用BERT模型结构作为编码器来获取输入文本序列的词向量表示,且在BERT模型中,首先,将输入文本序列转换为由词嵌入向量、分割嵌入向量和位置嵌入向量组成的待编码嵌入向量;然后将待编码嵌入向量输入值BERT模型中进行编码。3.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,实体关系抽取模型中利用全连接神经网络来实现标注组件的组合标签标注,将词向量表示中的每个单词标签预测转换为多标签分类问题,利用sigmoid作为激活函数获取每个单词所属组合标签的预测概率,并根据预设的概率阈值来获取单词对应的标签映射。4.根据权利要求3所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,每个单词所述组合标签的预测概率的计算过程表示为:p
i
=sigmoid(W
s
x
i
+b
s
),其中,p
i
∈i1×
(4
×
R+1)
,R为预定义实体关系的数量,W
s
(g)表示网络可训练的权重矩阵,x
i
表示第i个单词的词向量表示,b
s
表示网络可训练的偏置常数。5.根据权利要求1所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,实体关系抽取模型中利用全连接网络神经网络来实现实体相关矩阵的组合标签信息交互,利用sigmoid作为激活函数获取组合标签为头实体开始单词和尾实体开始单词之间的相关概率,并根据预设的相关概率阈值来得到对应组合标签映射。6.根据权利要求5所述的基于增强序列标注策略的单阶段联合实体关系抽取方法,其特征在于,组合标签为头实体开始单词和尾实体开始单词的相关概率计算过程表示为:p
is,js

【专利技术属性】
技术研发人员:周刚朱秀宝陈静兰明敬向怡馨卢记仓李珠峰南煜
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1