当前位置: 首页 > 专利查询>三峡大学专利>正文

基于双三仿射机制的嵌套实体识别方法、系统及存储介质技术方案

技术编号:37674206 阅读:26 留言:0更新日期:2023-05-26 04:37
本发明专利技术公开了一种基于双三仿射机制的嵌套实体识别方法、系统及存储介质,涉及命名实体识别技术领域。主要包括以下步骤:在利用三仿射机制做实体跨度表示的基础上,将实体边界相对位置和跨度区域信息融入实体跨度表示;之后再利用三仿射机制注意力机制,以实体边界作为查询,以新的跨度表示作为键和值将实体内部信息与边界词进行交互获得实体跨度表示;最后利用实体跨度联合双仿射机制进行实体类别预测。本发明专利技术实现了嵌套实体的精准识别,在相同批次大小的情况下,参数量以及占用资源都相对较少,为高效嵌套命名实体识别提供参考,而且较一般三仿射机制模型提高了实体识别的准确率。率。率。

【技术实现步骤摘要】
基于双三仿射机制的嵌套实体识别方法、系统及存储介质


[0001]本专利技术涉及命名实体识别
,更具体的说是涉及一种基于双三仿射机制的嵌套实体识别方法、系统及存储介质。

技术介绍

[0002]从给定文本中识别命名实体的边界以及实体的类型,这种任务被称为命名实体识别,是信息抽取的标准任务之一。
[0003]在大规模应用深度学习之前,命名实体识别方法主要以基于词典和规则的方法传机器学习的方法,识别准确率提升缓慢,一直无法取得理想效果。深度学习的引入和发展是命名实体识别的准确率得到了很大的提升。
[0004]然而现有研究工作大多侧重于对非嵌套实体识别的研究,而对嵌套实体识别的关注度不够。嵌套命名实体结构是复杂多变的,嵌套颗粒度与嵌套层数缺乏规律性,因此,对本领域技术人员来说,如何快速高效地从开放领域的文本中准确获取嵌套命名实体结构信息,使得语义理解更加精准,是自然语言处理进入全面化应用的关键。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于双三仿射机制的嵌套实体识别方法、系统及存储介质,以解决
技术介绍
中存在的问题。
[0006]为了实现上述目的,本专利技术采用如下技术方案:一种基于双三仿射机制的嵌套实体识别方法,具体步骤包括如下:
[0007]获取目标嵌套实体;
[0008]对所述目标嵌套实体的各个字符进行编码,得到所述字符的向量表示;
[0009]对所述字符的向量表示采用基于双三仿射机制融合位置与内容信息的嵌套实体识别模型处理得到字符所有的跨度表示进行实体识别,得到第一概率值;
[0010]通过双仿射机制对所述字符的向量表示进行映射获取跨度表示,得到实体识别的第二概率值;
[0011]将所述第一概率值与所述第二概率值相加进行所述目标嵌套实体中各个子实体的类别预测。
[0012]可选的,采用所述嵌套实体识别模型进行实体识别的步骤为:
[0013]基于所述词的向量表示通过三仿射机制计算得到跨度表示,将实体边界相对位置信息和跨度区域信息融入所述跨度表示,得到融合信息;
[0014]利用三仿射机制,将实体边界与所述融合信息相互作用得到实体跨度表示;
[0015]利用所述实体跨度表示联合双仿射机制进行所述目标嵌套实体中各个子实体的类别预测。
[0016]可选的,所述嵌套实体识别模型包括编码层、三仿射机制层、预测层;其中,
[0017]编码层:使用预训练语言模型BERT和BiLSTM作为编码器,对所述目标嵌套实体进
行编码,产生包含上下文的词的向量表示;
[0018]三仿射机制层:在三仿射机制层中,第一阶段利用三仿射注意力机制作跨度表示,第二阶段将所述跨度表示与实体边界相对位置和区域信息融合,再次利用三仿射机制将边界与融合后的信息在高阶相互作用得到实体跨度表示,得到第一概率值;
[0019]预测层:通过利用所述第一概率值与双仿射预测器共同进行实体预测。
[0020]可选的,所述跨度表示的表达式为:
[0021][0022][0023][0024]其中,(h
i
,h
j
)表示跨度的开始位置和结束位置,h
k
表示从开始位置到结束位置的信息,TriAff表示三仿射机制,表示三仿射注意力,以实体边界(h
i
,h
j
)和实体跨度表示的维度参数作为注意力机制的queries,每个单词(h
k
)作为注意力机制的keys、values,生成维度为dm的跨度表示
[0025]可选的,所述融合信息的表达式为:
[0026][0027]其中,表示跨度表示,E
d
表示实体边界相对位置信息,Er表示跨度区域信息,dm表示跨度表示的维度,表示实体边界相对位置信息嵌入维度,表示跨度区域信息嵌入维度。
[0028]可选的,利用三仿射机制得到的所述实体跨度表示的表达式为:
[0029][0030]其中,(h
i

,h
j

)表示实体边界,表示标签大小参数,S
i,j,d
表示所述融合信息。
[0031]可选的,基于三仿射机制得到的所述实体跨度表示,通过多层感知机计算跨度从第i个词到第j个词的跨度得分。
[0032]另一方面,提供一种基于双三仿射机制的嵌套实体识别系统,包括数据获取模块、编码模块、第一识别模块、第二识别模块、预测模块;其中,
[0033]所述数据获取模块,用于获取目标嵌套实体;
[0034]所述编码模块,用于对所述目标嵌套实体进行编码,得到所述目标嵌套实体的词的向量表示;
[0035]所述第一识别模块,用于对所述词的向量表示采用基于双三仿射机制融合位置与内容信息的嵌套实体识别模型进行实体识别,得到第一概率值;
[0036]所述第二识别模块,用于通过双仿射机制对所述词的向量表示进行识别,得到第二概率值;
[0037]所述预测模块,用于将所述第一概率值与所述第二概率值相加进行所述目标嵌套实体中各个子实体的类别预测。
[0038]最后,提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种基于双三仿射机制的嵌套实体识别方法的步骤。
[0039]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于双三仿射机制的嵌套实体识别方法、系统及存储介质,具有以下有益的技术效果:实现了嵌套实体的精准识别,在相同批次大小的情况下,参数量以及占用资源都相对较少,为高效嵌套命名实体识别提供参考,而且较一般三仿射机制模型提高了实体识别的准确率。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0041]图1为本专利技术的方法流程图;
[0042]图2为本专利技术的嵌套命名实体识别模型框架示意图;
[0043]图3为本专利技术的三仿射的跨度表示图;
[0044]图4为本专利技术的融合相对位置信息和区域信息示意图;
[0045]图5为本专利技术的系统结构图。
具体实施方式
[0046]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0047]本专利技术实施例公开了一种基于双三仿射机制的嵌套实体识别方法,如图1所示,具体步骤包括如下:
[0048]S1、获取目标嵌套实体;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双三仿射机制的嵌套实体识别方法,其特征在于,具体步骤包括如下:获取目标嵌套实体;对所述目标嵌套实体的各个字符进行编码,得到所述字符的向量表示;对所述字符的向量表示采用基于双三仿射机制融合位置与内容信息的嵌套实体识别模型处理得到字符所有的跨度表示进行实体识别,得到第一概率值;通过双仿射机制对所述字符的向量表示进行映射获取跨度表示,得到实体识别的第二概率值;将所述第一概率值与所述第二概率值相加进行所述目标嵌套实体中各个子实体的类别预测。2.根据权利要求1所述的一种基于双三仿射机制的嵌套实体识别方法,其特征在于,采用所述嵌套实体识别模型进行实体识别的步骤为:基于所述字的向量表示通过三仿射机制计算得到跨度表示,将实体边界相对位置信息和跨度区域信息融入所述跨度表示,得到融合信息;利用三仿射机制,将实体边界与所述融合信息相互作用得到实体跨度表示;利用所述实体跨度表示联合双仿射机制进行所述目标嵌套实体中各个子实体的类别预测。3.根据权利要求1所述的一种基于双三仿射机制的嵌套实体识别方法,其特征在于,所述嵌套实体识别模型包括编码层、双三仿射机制层、预测层;其中,编码层:使用预训练语言模型BERT和BiLSTM作为编码器,对所述目标嵌套实体进行编码,产生包含上下文的字的向量表示;三仿射机制层:在三仿射机制层中,第一阶段利用三仿射注意力机制作跨度表示,第二阶段将所述跨度表示与实体边界相对位置和区域信息融合,再次利用三仿射机制将边界与融合后的信息在高阶相互作用得到实体跨度表示,得到第一概率值;预测层:通过利用所述第一概率值与双仿射预测器共同进行实体预测。4.根据权利要求2所述的一种基于双三仿射机制的嵌套实体识别方法,其特征在于,所述跨度表示的表达式为:述跨度表示的表达式为:述跨度表示的表达式为:其中,(h
i
,h
j
)表示跨度的开始位置和结束位置,h
k
表示从开始位置到结束位置的信息,TriAff表示三仿射机制,表示三仿射注意力,以实体边界(h
i
,h
j
)和实体跨度表示的维度参数作为注意力机制的queries,每个单词(h
k
)作为注意力机制的keys...

【专利技术属性】
技术研发人员:吴义熔郭云乔唐庭龙李小龙孙水发
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1