一种基于两阶段架构的统一命名实体识别方法及装置制造方法及图纸

技术编号：39042320 阅读：17 留言：0更新日期：2023-10-10 11:55

本发明专利技术一种基于两阶段架构的统一命名实体识别方法及装置，所述方法包括以下步骤：在第一个阶段，片段抽取器对文本中的所有片段进行枚举和分类，以抽取出其中的实体片段；所述的实体片段被定义为：能够单独构成一个实体，或者是一个实体的组成片段；在第二个阶段，片段成对分类器对实体片段两两组合，并对实体片段组合进行关系分类；所述的关系分类包括Next

全部详细技术资料下载

【技术实现步骤摘要】
一种基于两阶段架构的统一命名实体识别方法及装置

[0001]本专利技术涉及自然语言处理中的命名实体识别
，尤其涉及一种基于两阶段架构的统一命名实体识别方法及装置。

技术介绍

[0002]命名实体识别(Namedentityrecognition,NER)目的识别文本中表示实体的文本片段。它已经成为自然语言处理领域的基本任务，在实体链接、数据挖掘等各种基于知识的应用中发挥着举足轻重的作用。
[0003]命名实体识别的研究从早期的常规命名实体识别，发展到了嵌套命名实体识别，到最近的不连续命名实体识别。具体来说，常规命名实体识别简单地检测出文本中的实体提及以及其类型；嵌套命名实体识别指检测文本中可能嵌套的命名实体以及其类型；不连续命名实体识别指检测出文本中存在许多不连续片段的命名实体及其类型。
[0004]嵌套命名实体识别和不连续命名实体识别这两个问题更加复杂，因为要识别的实体提及可能包含多个无规律的嵌套或者不连续的片段。不连续命名实体识别非常重要，尤其是在医疗领域，许多医疗、疾病数据集包括CADEC、ShARe13数据集，都包含非常多的不连续实体。
[0005]近年来，已经有大量的方法被研究以解决三个NER任务。其中大多数方法集中于解决常规和重叠的命名实体识别问题，只有极少方法研究不连续命名实体识别问题。命名实体识别旨在研究一个统一的框架，能够同时解决常规NER、嵌套NER和不连续NER。就命名实体识别而言，模型BART
‑
LARGE采用了一种生成式的方法，通过端到端生成来

【技术保护点】

【技术特征摘要】
1.一种基于两阶段架构的统一命名实体识别方法，其特征在于，所述方法包括：在第一个阶段，片段抽取器对文本中的所有片段进行枚举和分类，以抽取出其中的实体片段；所述的实体片段被定义为：能够单独构成一个实体，或者是一个实体的组成片段；在第二个阶段，片段成对分类器对实体片段两两组合，并对实体片段组合进行关系分类；所述的关系分类包括Next
‑
Fragment关系类型和Overlapped关系类型，分别用于不连续NER和嵌套NER；在训练过程中，采用多任务学习，来联合训练所述的第一个阶段和第二个阶段。2.根据权利要求1所述的一种基于两阶段架构的统一命名实体识别方法，其特征在于，所述的片段抽取器是的目的是找到所有的文本片段，并确定这些片段是否构成实体，包括以下步骤：给定输入文本X＝{x1,x2,
…
,x
N
}，N是文本长度，设定一个最大片段长度L，首先枚举文本片段，获得候选片段集合S(X)＝{s
(1,1)
,
…
,s
(1,L)
,
…
,s
(N
‑
L+1,N)
,
…
,s
(N,N)
}，s
(i,j)
为开始位置为i结束位置为j的候选片段；将具有相同开始位置的相邻片段分到一个组中；为每个组构造一个模板，模板是该组中所有片段对应的片段标识的拼接，对于候选片段s
i
，令片段对应的标识对与该片段的开始和结束词具有相同的位置嵌入；插入模板后，文本中各个词的位置嵌入保持不变；分别将每个模板扩充至输入文本之后，并将最终序列输入到第一BERT编码器模块；得到了整个序列的嵌入其中是扩充后的序列长度；片段s
(a,b)
的标识的上下文嵌入为和接着计算片段的嵌入为：其中，w表示片段长度特征的嵌入，[；]表示向量拼接操作；利用一个多层感知器进行片段类型分类：p1(e|s
(a，b)
)＝Softmax(MLP1(h(s
(a，b)
)))其中，MLP1表示多层感知机，p1表示实体片段类型e∈ε∪{none}的概率分布，ε表示预定义的实体类型集合，若e∈none则表明片段s
(a,b)
不是一个实体片段，none表示非实体片段。3.根据权利要求2所述的一种基于两阶段架构的统一命名实体识别方法，其特征在于，所述的片段成对分类器的目的是确定片段两两之间的关系，包括以下步骤：给定第一阶段中所有已识别的实体片段，依次将其中一个片段作为前片段，句子中位于其之后的片段作为后片段，将前片段和其对应的所有后片段打包为一个组，即，将前片段s
(a,b)
和对应的所有后片段打包为一个组；为每个组构造一个类型化的模板，是该组中所有片段对的标识的连接；对于组将前片段s
(a,b)
的标识<F:e
x
>和</F:e
x
>插入到文本中该片段的前后；然后将后片段的标识按顺序拼接，所述的标识对仍然与相应片段的开始...

【专利技术属性】
技术研发人员：谭真，黄培馨，李家旭，肖卫东，赵翔，曾维新，胡艳丽，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人