当前位置: 首页 > 专利查询>三峡大学专利>正文

基于多头三仿射注意力机制的嵌套命名实体识别方法技术

技术编号:37546716 阅读:18 留言:0更新日期:2023-05-12 16:20
一种基于多头三仿射注意力机制的嵌套命名实体识别方法,本发明专利技术能捕捉深层单词语义信息,解决基于跨度的方法对嵌套实体边界识别要求较高,且学习所有候选跨度计算量大的问题。利用多头三仿射注意力机制获取跨度表示,融合跨度边界及内部信息,捕捉较长跨度嵌套命名实体;利用正则化技术对实体边界进行平滑处理,提高模型边界识别的准确性;开展嵌套命名实体识别任务。本发明专利技术能捕捉深层单词语义信息,解决基于跨度的方法对嵌套实体边界识别要求较高,且学习所有候选跨度计算量大的问题。且学习所有候选跨度计算量大的问题。且学习所有候选跨度计算量大的问题。

【技术实现步骤摘要】
基于多头三仿射注意力机制的嵌套命名实体识别方法


[0001]本专利技术属于命名实体识别
,特别涉及一种基于多头三仿射注意力机制的嵌套命名实体识别方法。

技术介绍

[0002]嵌套命名实体是一种特殊的命名实体,即在一个实体的内部还存在着一个或多个其他的实体。例如,“三峡大学”属于组织机构名类型的实体,而“三峡大学”中的“三峡”同时也是地名类型的实体。对于这种具有嵌套结构的命名实体,传统的基于序列标注的命名实体模型是难以直接有效地处理的。一般将非嵌套的命名实体称为Flat NER,将嵌套命名实体称为Nested NER。
[0003]目前对命名实体的识别,很多人提出了自己的技术方案,例如中国专利文献CN114330348A公开的“一种命名实体识别方法及装置”,加入了先验知识增加模型对该领域的学习能力,辅助预训练模型在该领域的预测,提高了识别准确率。但是针对嵌套命名实体的识别仍然比较困难,因此需要设计一种识别方法,用于解决跨度计算量大的问题。

技术实现思路

[0004]鉴于
技术介绍
所存在的技术问题,本专利技术所提供的基于多头三仿射注意力机制的嵌套命名实体识别方法,本专利技术能捕捉深层单词语义信息,解决基于跨度的方法对嵌套实体边界识别要求较高,且学习所有候选跨度计算量大的问题。
[0005]为了解决上述技术问题,本专利技术采取了如下技术方案来实现:
[0006]一种基于多头三仿射注意力机制的嵌套命名实体识别方法,采用了基于多头三仿射注意力机制的嵌套实体识别模型架构:嵌套实体识别模型架构由编码层、三仿射机制层和预测层三部分构成;识别方法如下:
[0007]步骤1,结合字符特征、词性嵌入、词嵌入向量以及预训练语言模型对句子进行编码,获得句子的语义信息;
[0008]步骤2,利用多头三仿射注意力机制对上述信息进行交互学习,得到标签级跨度表示,将标签级跨度表示映射到更高的嵌入维度以获得更加完整的跨度表示;
[0009]步骤3,对真实的实体边界进行平滑处理,并基于此开展跨度嵌套命名实体识别任务。
[0010]优选地,步骤1中,在编码层,使用预训练语言模型BERT和Bi

LSTM作为编码器,从输入的句子中聚合词的字符特征、词性特征和词特征,得到句子的编码向量;
[0011]步骤2中,在三仿射机制层,一阶段利用三仿射注意力机制生成跨度表示,二阶段将利用三仿射对跨度边界和跨度的表示进行交互,将跨度边界与融合后的信息在高阶相互作用得到新的跨度表示,为之后的跨度分类提供依据;
[0012]步骤3中,在预测层,对真实的边界进行正则化平滑处理,结合实体跨度得分进行分类。
[0013]优选地,步骤1的操作步骤如下:
[0014]步骤1.1,对于给定的句子,利用BERT作为词嵌入模型,BERT的输入向量是由字符特征向量、词性特征向量和词特征向量组合而成;在BERT计算之后,通过最大池化来获得每个单词的词向量;
[0015]在BERT输出之后用Bi

LSTM生成最终的词表示,即:
[0016]x=LSTM(S)={x1,x2,...,x
n
}∈R
n
×
d
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0017]其中n表示句子的长度,d表示单词的维度。
[0018]优选地,步骤2的操作如下:
[0019]步骤2.1,在从Bi

LSTM获得单词表示之后,应用三个独立的MLP来分别表示跨度嵌套命名实体的边界信息h
i
,h
j
和跨度嵌套命名实体的表示h
k
;其中,h
i
表示跨度的头、h
j
表示跨度的尾,h
k
表示跨度本身,h
i
,h
j
,h
k
∈R
d
;;
[0020]为了融合实体更多的信息以获得更好的信息表示,运用三仿射注意力机制进行运算:
[0021]TirAff(u,v,w,ω)=ω
×
u
′×
w
′×
v

[0022]=ω
×
[MLP(u)1]×
[MLP(w)]×
[MLP(v)1]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0023]h
i
,h
j
,h
k
=MLP(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0024]s
i,j,h,r
=TirAff(h
i
,h
j
,h
k
,w
r
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0025][0026][0027]P
i,j,k
=TirAff(h
i
,h
j
,h
i,j,r
,vr
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0028]其中,W
r
∈R
d+1
×
R
d
×
R
d+1
是参数向量,边界信息(h
i
,h
j
)和标签式参数W
r
可视为注意力查询向量Q,跨度表示h
k
可视为键向量K和值向量V。
[0029]h
i,j,k
是由h
i
,h
j
,h
k
计算所得,当MLP为0时,
[0030][0031]令:
[0032][0033]得:
[0034][0035]预训练语言模型用于更好地独立学习更多知识,防止模型过度拟合,利用多头并行计算,有效避免计算成本和参数数量的显著增长。
[0036]优选地,步骤3的操作步骤如下:
[0037]步骤3.1:边界平滑,每个跨度都分配具有成为一个实体的完全概率,而所有未标注的跨度被赋予零概率;将这种概率分配称为硬边界;在平滑大小为D的情况下,到注释实
体的曼哈顿距离为d(d≤D)的所有跨度均分概率ε/D,即:
[0038][0039]y
ij
是真实跨度嵌套命名实体(x
i
,x
j
)的向量表示,ε是实体边界平滑系数,D为平滑尺寸,即标注跨度到周围的曼哈顿距离,表示对实体周围一阶或二阶进行平滑,是边界平滑后的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:采用了基于多头三仿射注意力机制的嵌套实体识别模型架构:嵌套实体识别模型架构由编码层、三仿射机制层和预测层三部分构成;识别方法如下:步骤1,结合字符特征、词性嵌入、词嵌入向量以及预训练语言模型对句子进行编码,获得句子的语义信息;步骤2,利用多头三仿射注意力机制对上述信息进行交互学习,得到标签级跨度表示,将标签级跨度表示映射到更高的嵌入维度以获得更加完整的跨度表示;步骤3,对真实的实体边界进行平滑处理,并基于此开展跨度嵌套命名实体识别任务。2.根据权利要求1所述的基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:步骤1中,在编码层,使用预训练语言模型BERT和Bi

LSTM作为编码器,从输入的句子中聚合词的字符特征、词性特征和词特征,得到句子的编码向量;步骤2中,在三仿射机制层,一阶段利用三仿射注意力机制生成跨度表示,二阶段将利用三仿射对跨度边界和跨度的表示进行交互,将跨度边界与融合后的信息在高阶相互作用得到新的跨度表示,为之后的跨度分类提供依据;步骤3中,在预测层,对真实的边界进行正则化平滑处理,结合实体跨度得分进行分类。3.根据权利要求2所述的基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:步骤1的操作步骤如下:步骤1.1,对于给定的句子,利用BERT作为词嵌入模型,BERT的输入向量是由字符特征向量、词性特征向量和词特征向量组合而成;在BERT计算之后,通过最大池化来获得每个单词的词向量;为了进一步增强编码层对重要信息的保留,在BERT输出之后用Bi

LSTM生成最终的词表示,即:x=LSTM(S)={x1,x2,...,x
n
}∈R
n
×
d
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中n表示句子的长度,d表示单词的维度。4.根据权利要求3所述的基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:步骤2的操作如下:步骤2.1,在从Bi

LSTM获得单词表示之后,应用三个独立的MLP来分别表示跨度嵌套命名实体的边界信息h
i
,h
j
和跨度嵌套命名实体的表示h
k
;其中,h
i
表示跨度的头、h
j
表示跨度的尾,h
k
表示跨度本身,h
i
,h
j
,h
k
∈R
d
;为了融合实体更多的信息以获得更好的信息表示,运用三仿射注意力机制进行运算:TirAff(u,v,w,ω)=ω
×
u
′×
w
′×
v

=...

【专利技术属性】
技术研发人员:唐庭龙郭云乔李小龙
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1