一种基于两阶段架构的统一命名实体识别方法及装置制造方法及图纸

技术编号:39042320 阅读:17 留言:0更新日期:2023-10-10 11:55
本发明专利技术一种基于两阶段架构的统一命名实体识别方法及装置,所述方法包括以下步骤:在第一个阶段,片段抽取器对文本中的所有片段进行枚举和分类,以抽取出其中的实体片段;所述的实体片段被定义为:能够单独构成一个实体,或者是一个实体的组成片段;在第二个阶段,片段成对分类器对实体片段两两组合,并对实体片段组合进行关系分类;所述的关系分类包括Next

【技术实现步骤摘要】
一种基于两阶段架构的统一命名实体识别方法及装置


[0001]本专利技术涉及自然语言处理中的命名实体识别
,尤其涉及一种基于两阶段架构的统一命名实体识别方法及装置。

技术介绍

[0002]命名实体识别(Namedentityrecognition,NER)目的识别文本中表示实体的文本片段。它已经成为自然语言处理领域的基本任务,在实体链接、数据挖掘等各种基于知识的应用中发挥着举足轻重的作用。
[0003]命名实体识别的研究从早期的常规命名实体识别,发展到了嵌套命名实体识别,到最近的不连续命名实体识别。具体来说,常规命名实体识别简单地检测出文本中的实体提及以及其类型;嵌套命名实体识别指检测文本中可能嵌套的命名实体以及其类型;不连续命名实体识别指检测出文本中存在许多不连续片段的命名实体及其类型。
[0004]嵌套命名实体识别和不连续命名实体识别这两个问题更加复杂,因为要识别的实体提及可能包含多个无规律的嵌套或者不连续的片段。不连续命名实体识别非常重要,尤其是在医疗领域,许多医疗、疾病数据集包括CADEC、ShARe13数据集,都包含非常多的不连续实体。
[0005]近年来,已经有大量的方法被研究以解决三个NER任务。其中大多数方法集中于解决常规和重叠的命名实体识别问题,只有极少方法研究不连续命名实体识别问题。命名实体识别旨在研究一个统一的框架,能够同时解决常规NER、嵌套NER和不连续NER。就命名实体识别而言,模型BART

LARGE采用了一种生成式的方法,通过端到端生成来获得实体片段的位置索引,组合索引获取NER结果。然而,生成式方法通常面临着曝光偏差的问题,文本生成在训练和推断时的不一致会严重影响生成的结果。与之相比,模型W2NER获得了更好的效果,这个模型将命名实体识别任务转化为一个词对分类任务,通过分类句子中词和词之间的两种关系,然后对词进行组合,以获取NER结果。然而,这种方法也面临着效率低、词对冗余等问题。
[0006]现有技术中,基于片段的模型能够自然地解决命名实体识别问题,但是基于片段的模型无法应对不连续命名实体识别。鉴于此,我们提出一种基于两阶段架构的统一命名实体识别方法,并给出相关装置。

技术实现思路

[0007]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开了一种基于两阶段架构的统一命名实体识别方法及装置。所述方法将命名实体识别问题建模为一个实体片段的成对分类问题。实体片段对之间的关系描述了不同片段之间的语义联系,因此对于识别嵌套实体和不连续实体十分重要。通过以下两个阶段解决统一命名实体识别问题:在第一个阶段,片段抽取器对文本中的所有片段进行枚举和分类,以抽取出其中的实体片段;在第二个阶段,片段成对分类器对实体片段两两组合,并对其进行关系分类;在训练
过程中,采用多任务学习,来联合训练两个阶段。
[0008]本专利技术方法的技术方案如下,一种基于两阶段架构的统一命名实体识别方法,所述方法包括:
[0009]在第一个阶段,片段抽取器对文本中的所有片段进行枚举和分类,以抽取出其中的实体片段;所述的实体片段被定义为:能够单独构成一个实体,或者是一个实体的组成片段;
[0010]在第二个阶段,片段成对分类器对实体片段两两组合,并对实体片段组合进行关系分类;所述的关系分类包括Next

Fragment关系类型和Overlapped关系类型,分别用于不连续NER和嵌套NER;
[0011]在训练过程中,采用多任务学习,来联合训练所述的第一个阶段和第二个阶段。
[0012]具体地,所述的片段抽取器是的目的是找到所有的文本片段,并确定这些片段是否构成实体,包括以下步骤:
[0013]给定输入文本X={x1,x2,

,x
N
},N是文本长度,设定一个最大片段长度L,首先枚举文本片段,获得候选片段集合S(X)={s
(1,1)
,

,s
(1,L)
,

,s
(N

L+1,N)
,

,s
(N,N)
},s
(i,j)
为开始位置为i结束位置为j的候选片段;
[0014]将具有相同开始位置的相邻片段分到一个组中;
[0015]为每个组构造一个模板,模板是该组中所有片段对应的片段标识的拼接,对于候选片段s
i
,令片段对应的标识对与该片段的开始和结束词具有相同的位置嵌入;
[0016]插入模板后,文本中各个词的位置嵌入保持不变;
[0017]分别将每个模板扩充至输入文本之后,并将最终序列输入到第一BERT编码器模块;
[0018]得到了整个序列的嵌入其中是扩充后的序列长度;片段s
(a,b)
的标识的上下文嵌入为和接着计算片段的嵌入为:
[0019][0020]其中,w表示片段长度特征的嵌入,[;]表示向量拼接操作;
[0021]利用一个多层感知器进行片段类型分类:
[0022]p1(e|s
(a,b)
)=Softmax(MLP1(h(s
(a,b)
)))
[0023]其中,MLP1表示多层感知机,p1表示实体片段类型e∈ε∪{none}的概率分布,ε表示预定义的实体类型集合,若e∈none则表明片段s
(a,b)
不是一个实体片段,none表示非实体片段。
[0024]具体地,所述的片段成对分类器的目的是确定片段两两之间的关系,包括以下步骤:
[0025]给定第一阶段中所有已识别的实体片段,依次将其中一个片段作为前片段,句子中位于其之后的片段作为后片段,将前片段和其对应的所有后片段打包为一个组,即,将前片段s
(a,b)
和对应的所有后片段打包为一个组;
[0026]为每个组构造一个类型化的模板,是该组中所有片段对的标识的连接;对于组将前片段s
(a,b)
的标识<F:e
x
>和</F:e
x
>插入到文本中
该片段的前后;
[0027]然后将后片段的标识按顺序拼接,所述的标识对仍然与相应片段的开始和结束词具有相同的位置嵌入,类型化的模板由固定在文本中的前标识和所有后标识组成,所述模板可以捕获候选片段对之间的依赖关系;
[0028]将类型化的模板附加到输入文本中,获得整个序列;
[0029]将整个序列输入到第二BERT编码器模块,在BERT计算之后,得到了整个序列的嵌入,对于片段对s
(a,b)
和s
(c,d)
,记前片段s
(a,b)
的标识的嵌入为x
a
‑1和x
b+1
,后片段s...

【技术保护点】

【技术特征摘要】
1.一种基于两阶段架构的统一命名实体识别方法,其特征在于,所述方法包括:在第一个阶段,片段抽取器对文本中的所有片段进行枚举和分类,以抽取出其中的实体片段;所述的实体片段被定义为:能够单独构成一个实体,或者是一个实体的组成片段;在第二个阶段,片段成对分类器对实体片段两两组合,并对实体片段组合进行关系分类;所述的关系分类包括Next

Fragment关系类型和Overlapped关系类型,分别用于不连续NER和嵌套NER;在训练过程中,采用多任务学习,来联合训练所述的第一个阶段和第二个阶段。2.根据权利要求1所述的一种基于两阶段架构的统一命名实体识别方法,其特征在于,所述的片段抽取器是的目的是找到所有的文本片段,并确定这些片段是否构成实体,包括以下步骤:给定输入文本X={x1,x2,

,x
N
},N是文本长度,设定一个最大片段长度L,首先枚举文本片段,获得候选片段集合S(X)={s
(1,1)
,

,s
(1,L)
,

,s
(N

L+1,N)
,

,s
(N,N)
},s
(i,j)
为开始位置为i结束位置为j的候选片段;将具有相同开始位置的相邻片段分到一个组中;为每个组构造一个模板,模板是该组中所有片段对应的片段标识的拼接,对于候选片段s
i
,令片段对应的标识对与该片段的开始和结束词具有相同的位置嵌入;插入模板后,文本中各个词的位置嵌入保持不变;分别将每个模板扩充至输入文本之后,并将最终序列输入到第一BERT编码器模块;得到了整个序列的嵌入其中是扩充后的序列长度;片段s
(a,b)
的标识的上下文嵌入为和接着计算片段的嵌入为:其中,w表示片段长度特征的嵌入,[;]表示向量拼接操作;利用一个多层感知器进行片段类型分类:p1(e|s
(a,b)
)=Softmax(MLP1(h(s
(a,b)
)))其中,MLP1表示多层感知机,p1表示实体片段类型e∈ε∪{none}的概率分布,ε表示预定义的实体类型集合,若e∈none则表明片段s
(a,b)
不是一个实体片段,none表示非实体片段。3.根据权利要求2所述的一种基于两阶段架构的统一命名实体识别方法,其特征在于,所述的片段成对分类器的目的是确定片段两两之间的关系,包括以下步骤:给定第一阶段中所有已识别的实体片段,依次将其中一个片段作为前片段,句子中位于其之后的片段作为后片段,将前片段和其对应的所有后片段打包为一个组,即,将前片段s
(a,b)
和对应的所有后片段打包为一个组;为每个组构造一个类型化的模板,是该组中所有片段对的标识的连接;对于组将前片段s
(a,b)
的标识<F:e
x
>和</F:e
x
>插入到文本中该片段的前后;然后将后片段的标识按顺序拼接,所述的标识对仍然与相应片段的开始...

【专利技术属性】
技术研发人员:谭真黄培馨李家旭肖卫东赵翔曾维新胡艳丽
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1