当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于标签语义信息感知的少样本命名实体识别方法技术

技术编号:39576809 阅读:12 留言:0更新日期:2023-12-03 19:27
本发明专利技术属于自然语言处理领域,具体涉及一种基于标签语义信息感知的少样本命名实体识别方法

【技术实现步骤摘要】
一种基于标签语义信息感知的少样本命名实体识别方法


[0001]本专利技术属于自然语言处理领域,具体涉及一种基于标签语义信息感知的少样本命名实体识别方法


技术介绍

[0002]命名实体识别是自然语言处理领域的一项基础任务,其主要目的在于从文本中提取特定实体,这些实体在下游任务中起着至关重要的作用

近年来,基于预训练语言模型的方法已成为命名实体识别领域的主流方法,并取得了较好地效果,但命名实体识别系统的开发仍然严重依赖于大量标注数据

然而在某些特定领域内,获取充足高质量标注数据的挑战不可忽视

因此,如何在少量标注样本的情况下实现有效的命名实体识别,已经成为当前领域一项重要的研究问题,即少样本命名实体识别

[0003]少样本命名实体识别旨在使用少量的标注数据,识别模型未曾遇到过的实体类型

在该任务中,数据集使用
N

way K

shot
方式进行采样,并将其划分为支持集和查询集两部分,其中每条数据均有
N
个类别,每个类别有
K
个标注样本

支持集中包含一些数据样例,用于训练模型以区分目标实体和非实体,查询集则用于检验模型在支持集上所学到的知识

[0004]随着对少样本命名实体识别的深入研究,出现了一阶段模型
。Finn
等人提出了与模型无关的元学习方法
(MAML)
,该方法独立于模型,能够指导模型的学习过程,使得模型更快

更好地适应新任务,取得了显著的效果,为该领域的研究提供了新的切入点
。Yang
等人提出了
StructShot
模型,该方法基于查询集的单词距离来判断样本类型,并结合了维特比解码算法,通过将单词距离和维特比解码算法相结合,在解决样本类型判断问题上表现出色,为模型性能的提升带来了新的思路

此外,
Das
等人提出了一种基于对比学习的
CONTaiNER
模型,该模型采用高斯距离作为度量依据,为解决过拟合问题提供了一种有效的解决方案,增强了模型的鲁棒性

这些模型直接对序列进行分类来判断其所属实体类型

其中最具代表性的方法是基于原型网络的方法,该方法使用实体的中心点,即实体类型原型向量来表示该实体特征,并以此为依据判断样本的实体类型

这些模型容易实现,训练和推理的过程较为直接,适用于简单的领域

[0005]然而,这些一阶段模型并未有效利用实体跨度信息,在面对复杂领域和罕见实体时表现不佳,存在泛化能力差

无法充分捕捉领域的细微差异等问题

针对上述问题,研究者们提出了先进行实体跨度检测,再判断跨度的实体类型的两阶段模型
。Wang
提出了
SpanProto
模型,通过将序列标记转换为跨度矩阵,帮助模型更好地专注于实体跨度信息,一定程度上提升了实体识别的性能
。Ma
等人则提出了一种分解的元学习方法,结合
MAML
算法来增强原型网络,帮助模型找到更好的向量表示空间,从而增强了模型的泛化能力,使得其在新任务上表现更出色
。Wang
等人提出了
ESD
模型,使用多头注意力机制对实体包含的跨度信息分别强化,并对强化后的向量进行交叉强化,同时在推理部分使用
Beam Soft

NMS
方法缓解了实体跨度冲突问题,在少样本命名实体识别中取得了显著的效果,提高了模型的
性能

这种两阶段的设计使得模型能够更充分地利用可用数据,相比一阶段模型,它有更强的可解释性和更好的性能

[0006]但是,通过对现有的两阶段模型分析,发现仍然存在如下问题:
1)
两阶段模型忽略了标签包含的语义信息,导致在第二阶段将样本判断为错误的实体类型;
2)
使用基于原型网络的方法计算损失时,只关注实体类型原型向量,忽略了不同样本之间的相似度,限制了模型对新样本的泛化能力

[0007]针对上述问题,本专利技术提出了一种基于标签语义信息感知的少样本命名实体识别方法

该方法中的模型先获取句中所有的实体跨度,随后将相同实体类型的跨度与其对应的实体类型语义信息聚合为一个原型向量,将该原型向量作为锚点,从支持集中选取该实体类型的正样本代表和负样本代表,聚合为实体类型三元组,并依据样本到该三元组的距离进行预测


技术实现思路

[0008]针对上述问题,本专利技术提供了一种基于标签语义信息感知的少样本命名实体识别方法,在构建实体类型原型向量时,将对应实体类型所包含的语义信息考虑在内,通过维度转换层将其与原型向量相融合;在对新样本进行实体识别时,将实体类型的正负样本与实体类型原型向量组成实体类型三元组,依据样本到三元组的距离对其进行分类

[0009]为了达到上述目的,本专利技术采用了下列技术方案:
[0010]步骤1:对数据集进行预处理,并将其划分为包括查询集

支持集;
[0011]步骤2:构建适用于少样本命名实体识别的预训练学习模型,包括跨度识别

跨度分类两个阶段;
[0012]所述跨度识别从句子中提取跨度并获取跨度向量,包括:
[0013]1)
文本编码层:对数据集进行编码,获得字符级别的向量表示和标签对应的向量表示;
2)
跨度编码层:获取句子的实体跨度和非实体跨度,并将其转换为对应的向量表示;
3)
跨度增强层:分别对支持集和查询集的跨度向量进行增强;
[0014]所述跨度分类对得到的跨度向量进行分类,包括:
[0015]1)
三元组构造层:使用增强后的实体跨度向量构建实体类型原型向量,融入标签语义信息,并选取数个正样本和负样本,与锚点向量一同构建为实体类型三元组;
2)
实体分类层:计算查询集中每一个样本与每个实体类型三元组的距离,选取距离最近的三元组对应的类型作为该样本的实体类型;
3)
标签推理:通过计算样本到三元组的距离,将距离最近的三元组所属实体类型分给该样本,并根据对应的索引选择实体类型,组合得到对完整句子的解码结果

[0016]进一步地,对数据集进行预处理包括数据采样

格式规范,具体为:
[0017]所述数据采样,即对命名实体识别的数据集进行
N way K shot
采样,通过从数据集中选择
N
个类别,并从每个类别中随机选取
K
个样本;
...

【技术保护点】

【技术特征摘要】
1.
一种基于标签语义信息感知的少样本命名实体识别方法,其特征在于,包括以下步骤:步骤1:对数据集进行预处理,并将其划分为包括查询集

支持集;步骤2:构建适用于少样本命名实体识别的预训练学习模型,包括跨度识别

跨度分类两个阶段;所述跨度识别从句子中提取跨度并获取跨度向量,包括:
1)
文本编码层:对数据集进行编码,获得字符级别的向量表示和标签对应的向量表示;
2)
跨度编码层:获取句子的实体跨度和非实体跨度,并将其转换为对应的向量表示;
3)
跨度增强层:分别对支持集和查询集的跨度向量进行增强;所述跨度分类对得到的跨度向量进行分类,包括:
1)
三元组构造层:使用增强后的实体跨度向量构建实体类型原型向量,融入标签语义信息,并选取数个正样本和负样本,与锚点向量一同构建为实体类型三元组;
2)
实体分类层:计算查询集中每一个样本与每个实体类型三元组的距离,选取距离最近的三元组对应的类型作为该样本的实体类型;
3)
标签推理:通过计算样本到三元组的距离,将距离最近的三元组所属实体类型分给该样本,并根据对应的索引选择实体类型,组合得到对完整句子的解码结果
。2.
根据权利要求1所述的一种基于标签语义信息感知的少样本命名实体识别方法,其特征在于,所述步骤1中对数据集进行预处理包括数据采样

格式规范,具体为:所述数据采样,即对命名实体识别的数据集进行
N way K shot
采样,通过从数据集中选择
N
个类别,并从每个类别中随机选取
K
个样本;所述格式规范,即对采样后的数据进行统一的结构和表示约定
。3.
根据权利要求2所述的一种基于标签语义信息感知的少样本命名实体识别方法,其特征在于,所述步骤2中文本编码层具体为:将每一个长度为
n
的句子
S
输入
BERT
层,获取句子对应的向量表示
S

{s1,s2,s3,...,s
n
}
,其中每个
S
i
均为
d
维的向量,同时将长为
m
的实体类型
C
也输入
BERT
层,最终得到标签层
m
×
d
维的向量表示
C

{c1,c2,c3,...,c
m
}。4.
根据权利要求2所述的一种基于标签语义信息感知的少样本命名实体识别方法,其特征在于,所述步骤2中跨度编码层具体为:对于支持集和查询集中的每个句子,如果构造所有长度小于
L
的跨度,将所有非实体跨度分为三类:
1)
该跨度为实体跨度的一部分,对应实体标签为
entity

unrelated span

2)
该跨度与实体跨度有交叉,对应实体标签为
entity

overlapped span

3)
该跨度与实体跨度完全无关,对应实体标签为
entity

unrelated span
;如果构造得到的跨度数量大于
N
,则从所有跨度中随机选择
N
个构成跨度矩阵,其中
L

N
均为模型超参数,跨度初始化过程如下所示:
V
start

S[start]V
end

S[end]span
support|query

fusion([V
start

V
end
])
其中,
S
表示句子嵌入矩阵,
start
表示跨度矩阵的起始位置,
end
表示跨度矩阵的结束
位置,
V
start
、V
end
分别表示跨度起始和结束位置的向量表示,通过
fusion
融合层最终得到跨度向量表示和
span
support

span
query
。5.
根据权利要求4所述的一种基于标签语义信息感知的少样本命名实体识别方法,其特征在于,所述步骤2中跨度增强层具体为:对于初始化的跨度向量对其进行增强,过程如下所示:其中,
MHA
表示多头注意力机制,将
span
supportquery
作为
...

【专利技术属性】
技术研发人员:李茹高俊杰张越谭红叶张虎闫智超苏雪峰邵文远梁吉业
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1