基于网格标记和语义分割的统一中文命名实体识别方法技术

技术编号:39431623 阅读:21 留言:0更新日期:2023-11-19 16:16
本发明专利技术涉及基于网格标记和语义分割的统一中文命名实体识别方法,属于中文命名实体识别技术领域。本发明专利技术包括步骤:首先,输入句子经过编码器模块后获得含有上下文信息的中文字符表示;进一步地,获得蕴含实体边界信息和字符对间关系信息的字符对网格表示;接着,将字符对网格表示视为多通道的图像,通过U型分割模块以获得图像风格的特征矩阵中的局部和全局特征;随后,经过协预测器层推理字符对间的关系;最后解码得到所有可能的实体。本发明专利技术在两个包含扁平实体和嵌套实体的中文医学命名实体识别数据集(CMeEE

【技术实现步骤摘要】
基于网格标记和语义分割的统一中文命名实体识别方法


[0001]本专利技术涉及基于网格标记和语义分割的统一中文命名实体识别方法,属于中文命名实体识别


技术介绍

[0002]作为中文信息抽取的重要子任务,也是许多中文自然语言处理任务的前置和底层基础任务,中文命名实体识别(Chinese Named Entity Recognition,CNER)得到了广泛的研究。近年来,研究人员或通过新的标记架构或引入更多的汉字和词汇特征,使得CNER模型性能得到了显著提升,CNER任务的发展进入了一个相对成熟的阶段。命名实体识别(Named Entity Recognition,NER)三类子任务包括扁平实体识别(flatNER)、重叠实体识别(OverlappedNER)和不连续实体识别(discontinuousNER),在很多现实应用场景中,往往包含所有类型的子任务,然而,先前的相关工作大多数都是针对特定的一类CNER任务设计特定的模型,这些特定于某种子任务的模型和方法阻碍了CNER任务的发展,也不利于在现实场景中的应用,统一的CNER方法亟待解决。
[0003]最近,研究者们开始探索统一解决三类NER任务的方法。Su等人基于全局归一化的思想设计了Global Pointer模型,实现了嵌套实体和非嵌套实体的统一识别。Wang等人提出了W2NER模型,将NER任务转化为词对关系分类问题(对于CNER更准确的应该称为字符关系分类),基于网格标记方案(Grid Tagging Scheme,GTS)建模组成实体词的字符之间的相邻关系实现了扁平实体、嵌套实体和不连续实体的统一抽取,在多个实体抽取基准数据集上达到了最新的最佳性能。此外,其他的一些研究工作也对统一的CNER任务具有启发意义。Yan等人设计了一种基于span的方法,将span特征矩阵视为图像,拓展了基于span的嵌套实体识别任务的方法。Zhang等人将实体对之间的相关特征视为图像,将文档级关系抽取问题转化为语义分割问题,在多个文档级关系抽取基准数据集上实现了最佳性能。
[0004]本专利技术专注于统一的中文命名实体识别方法研究。在W2NER的基础上有效建模实体边界信息,将其与字符对关系特征矩阵融合获得字符对信息,而后融入位置信息得到最终的字符对网格表示。将字符对网格表示视为多通道的图像,在图像风格的特征图上使用U型分割模块来获得更加丰富的语义特征。遵循网格标记路线,将CNER任务重新表述为字符级分类问题,即字符对关系分类。本专利技术旨在为每一个字符对标记上预定义的类别,如图2中,即:NONE——表示字符对间没有预定义的关系,Next

Neighboring

Character(NNC)——指示两个字符是否在实体中相邻,Tail

Head

Character

*(THC

*)——用于实体边界和类型的检测,指示两个字符分别是“*”类型实体的尾部和头部边界。这与计算机视觉任务中的经典任务——语义分割十分类似,该任务旨在将图像中的每个像素标记为相应的表示类别。受上述工作的启发,那么CNER任务可形式化为语义分割问题,将得到的三维特征作为图像,字符对关系的预测视为像素级掩码,这将与字符对关系分类更加贴合。
[0005]根据上述分析,本专利技术提出了一种基于网格标记和语义分割的统一的中文命名实体识别方法。在两个公开的包含扁平实体和嵌套实体的中文医学命名实体识别数据集
(CMeEE

V2,MMC)上进行了实验,结果显示本专利技术的方法实现了扁平实体和嵌套实体的统一识别,且在性能上优于其他的竞争方法。

技术实现思路

[0006]本专利技术提供了基于网格标记和语义分割的统一中文命名实体识别方法,以用于解决现有的方法实体识别性能低的问题。
[0007]本专利技术的技术方案是:基于网格标记和语义分割的统一中文命名实体识别方法,所述方法包括:
[0008]Step1、输入句子经过BERT和Bi

LSTM组成的编码器模块后获得含有上下文信息的中文字符表示;
[0009]Step2、通过Biaffine注意力模块和CLN获得蕴含实体边界信息和字符对间关系信息的特征矩阵,融合位置信息后获得最终的三维字符对网格表示;
[0010]Step3、得到最终的三维字符对网格表示后,将其视为多通道的图像,通过U型分割模块以获得图像风格的特征矩阵中更丰富、更细化、多尺度融合的局部和全局特征;
[0011]Step4、通过最小化负对数似然损失来训练模型;
[0012]Step5、经过MLP分类器和Biaffine分类器共同组成的协预测器层推理字符对间的关系,最后解码得到所有可能的实体。
[0013]进一步地,所述Step1中,对于给定的输入句子X={x1,x2,...x
N
},将输入到预训练语言模型BERT中获得每个中文字符的上下文表示,通过Bi

LSTM增强字符的上下文编码,经过编码后输入句子表示为:
[0014][0015]其中,x
i
表示句子中的第i个中文字符,d
h
表示字符表征的嵌入维度,N表示句子的长度。
[0016]进一步地,所述Step2具体包括如下:
[0017]Step2.1、首先基于Conditional Layer Normalization(CLN)机制来生成相邻字符对间的关系信息如图2所示,图像风格的字符对网格中的每一个像素点可视为:第i行的字符x
i
的表示h
i
和第j列的字符x
j
的表示h
j
共同形成的条件复合。计算公式如下:
[0018][0019]γ
ij
=W
α
h
i
+b
α
,λ
ij
=W
β
h
i
+b
β
ꢀꢀꢀꢀ
(3)其中,W
α
、W
β
、b
α
、b
β
都是可学习的参数,μ和σ表示h
j
的平均值和标准差,Vi
j(pair)
表示字符对(x
i
,x
j
)的关系信息表示。
[0020]Step2.2、基于Biaffine注意力机制建模实体边界信息d
h
表示字符表征的嵌入维度,N表示句子的长度;
[0021]所述Step2.2的具体步骤如下:
[0022]Step2.2.1、首先通过Biaffine注意力机制捕捉输入序列中字符之间的交互关系,得到一个span分数其中,S
ij
表示字符对(x
i
,x
j
)的span分数的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于网格标记和语义分割的统一中文命名实体识别方法,其特征在于:所述方法包括:Step1、输入句子经过BERT和Bi

LSTM组成的编码器模块后获得含有上下文信息的中文字符表示;Step2、通过Biaffine注意力模块和CLN获得蕴含实体边界信息和字符对间关系信息的特征矩阵,融合位置信息后获得最终的三维字符对网格表示;Step3、得到最终的三维字符对网格表示后,将其视为多通道的图像,通过U型分割模块以获得图像风格的特征矩阵中的局部和全局特征;Step4、通过最小化负对数似然损失来训练模型;Step5、经过MLP分类器和Biaffine分类器共同组成的协预测器层推理字符对间的关系,最后解码得到所有可能的实体。2.根据权利要求1所述的基于网格标记和语义分割的统一中文命名实体识别方法,其特征在于:所述Step1中,对于给定的输入句子X={x1,x2,...x
N
},将输入到预训练语言模型BERT中获得每个中文字符的上下文表示,通过Bi

LSTM增强字符的上下文编码,经过编码后输入句子表示为:其中,x
i
表示句子中的第i个中文字符,d
h
表示字符表征的嵌入维度,N表示句子的长度。3.根据权利要求1所述的基于网格标记和语义分割的统一中文命名实体识别方法,其特征在于:所述Step2具体包括如下:Step2.1、首先基于CLN机制来生成相邻字符对间的关系信息Step2.2、基于Biaffine注意力机制建模实体边界信息d
h
表示字符表征的嵌入维度,N表示句子的长度;Step2.3、将以上两个步骤中的相邻字符对间的关系信息V
(pair)
和实体边界信息V
(span)
融合获得字符信息表示Step2.4、融合字符对之间的相对距离信息嵌入和区分网格中上下三角区域的区域信息嵌入获得最终的三维字符对网格表示G,其中,d
d
和d
t
分别表示相对距离信息和区域信息的嵌入维度。4.根据权利要求3所述的基于网格标记和语义分割的统一中文命名实体识别方法,其特征在于:所述Step2.2的具体步骤如下:Step2.2.1、首先通过Biaffine注意力机制捕捉输入序列中字符之间的交互关系,得到一个span分数其中,S
ij
表示字符对(x
i
,x
j
)的span分数的计算公式如下:)的span分数的计算公式如下:)的span分数的计算公式如下:其中,...

【专利技术属性】
技术研发人员:相艳赵学东郭军军线岩团
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1