【技术实现步骤摘要】
基于多头三仿射注意力机制的嵌套命名实体识别方法
[0001]本专利技术属于命名实体识别
,特别涉及一种基于多头三仿射注意力机制的嵌套命名实体识别方法。
技术介绍
[0002]嵌套命名实体是一种特殊的命名实体,即在一个实体的内部还存在着一个或多个其他的实体。例如,“三峡大学”属于组织机构名类型的实体,而“三峡大学”中的“三峡”同时也是地名类型的实体。对于这种具有嵌套结构的命名实体,传统的基于序列标注的命名实体模型是难以直接有效地处理的。一般将非嵌套的命名实体称为Flat NER,将嵌套命名实体称为Nested NER。
[0003]目前对命名实体的识别,很多人提出了自己的技术方案,例如中国专利文献CN114330348A公开的“一种命名实体识别方法及装置”,加入了先验知识增加模型对该领域的学习能力,辅助预训练模型在该领域的预测,提高了识别准确率。但是针对嵌套命名实体的识别仍然比较困难,因此需要设计一种识别方法,用于解决跨度计算量大的问题。
技术实现思路
[0004]鉴于
技术介绍
所存在的技术问题,本专利技术所提供的基于多头三仿射注意力机制的嵌套命名实体识别方法,本专利技术能捕捉深层单词语义信息,解决基于跨度的方法对嵌套实体边界识别要求较高,且学习所有候选跨度计算量大的问题。
[0005]为了解决上述技术问题,本专利技术采取了如下技术方案来实现:
[0006]一种基于多头三仿射注意力机制的嵌套命名实体识别方法,采用了基于多头三仿射注意力机制的嵌套实体识别模型架构:嵌套实体识别模 ...
【技术保护点】
【技术特征摘要】
1.一种基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:采用了基于多头三仿射注意力机制的嵌套实体识别模型架构:嵌套实体识别模型架构由编码层、三仿射机制层和预测层三部分构成;识别方法如下:步骤1,结合字符特征、词性嵌入、词嵌入向量以及预训练语言模型对句子进行编码,获得句子的语义信息;步骤2,利用多头三仿射注意力机制对上述信息进行交互学习,得到标签级跨度表示,将标签级跨度表示映射到更高的嵌入维度以获得更加完整的跨度表示;步骤3,对真实的实体边界进行平滑处理,并基于此开展跨度嵌套命名实体识别任务。2.根据权利要求1所述的基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:步骤1中,在编码层,使用预训练语言模型BERT和Bi
‑
LSTM作为编码器,从输入的句子中聚合词的字符特征、词性特征和词特征,得到句子的编码向量;步骤2中,在三仿射机制层,一阶段利用三仿射注意力机制生成跨度表示,二阶段将利用三仿射对跨度边界和跨度的表示进行交互,将跨度边界与融合后的信息在高阶相互作用得到新的跨度表示,为之后的跨度分类提供依据;步骤3中,在预测层,对真实的边界进行正则化平滑处理,结合实体跨度得分进行分类。3.根据权利要求2所述的基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:步骤1的操作步骤如下:步骤1.1,对于给定的句子,利用BERT作为词嵌入模型,BERT的输入向量是由字符特征向量、词性特征向量和词特征向量组合而成;在BERT计算之后,通过最大池化来获得每个单词的词向量;为了进一步增强编码层对重要信息的保留,在BERT输出之后用Bi
‑
LSTM生成最终的词表示,即:x=LSTM(S)={x1,x2,...,x
n
}∈R
n
×
d
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中n表示句子的长度,d表示单词的维度。4.根据权利要求3所述的基于多头三仿射注意力机制的嵌套命名实体识别方法,其特征在于:步骤2的操作如下:步骤2.1,在从Bi
‑
LSTM获得单词表示之后,应用三个独立的MLP来分别表示跨度嵌套命名实体的边界信息h
i
,h
j
和跨度嵌套命名实体的表示h
k
;其中,h
i
表示跨度的头、h
j
表示跨度的尾,h
k
表示跨度本身,h
i
,h
j
,h
k
∈R
d
;为了融合实体更多的信息以获得更好的信息表示,运用三仿射注意力机制进行运算:TirAff(u,v,w,ω)=ω
×
u
′×
w
′×
v
′
=...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。