一种基于边界和互信息增强的小样本医学实体识别方法技术

技术编号:39295808 阅读:14 留言:0更新日期:2023-11-07 11:03
本发明专利技术涉及一种基于边界和互信息增强的小样本医学实体识别方法,属于信息抽取和人工智能技术领域。本方法针对小样本医学实体识别任务中的实体语段识别错误,引入可训练的实体边界特征矩阵对实体语段识别进行增强,将预训练语言模型生成的语段表示和实体边界特征矩阵中的特征向量进行相似度匹配以增强实体语段检测;显式地增加实体和上下文的互信息,提高文本表示的泛化性,充分利用文本中实体和上下文的关联关系。本发明专利技术有效解决了小样本医学实体识别任务中的边界识别错误、实体和上下文关联关系利用不足等问题,提高了小样本医学实体识别模型的知识迁移能力,从而提高小样本医学实体识别准确度。学实体识别准确度。学实体识别准确度。

【技术实现步骤摘要】
一种基于边界和互信息增强的小样本医学实体识别方法


[0001]本专利技术涉及一种基于边界和互信息增强的小样本医学实体识别方法,属于信息抽取和人工智能


技术介绍

[0002]命名实体识别是识别文本中具有特定意义的命名实体,并将命名实体分类为预定义的类别。当前,命名实体识别任务主要基于神经网络模型,其需要大量的标注数据。小样本命名实体识别,是指在目标领域内只有少量的标注样本的情况下进行命名实体识别。当进行小样本命名实体识别时,因为目标领域的标注样本较少,需要在有大量标注样本的源领域数据上进行训练,再使用知识迁移技术在目标领域中进行小样本命名实体识别。
[0003]小样本医学实体识别,是指目标领域为医学领域、源领域为其它领域的小样本命名实体识别。小样本医学实体识别技术能够在标注样本不足的情况下进行医学实体识别,对医学知识抽取、医学问答系统、智能搜索下游任务具有重要意义。
[0004]目前,现有的小样本医学实体识别方法,主要是基于标记级度量学习和语段级度量学习。基于神经网络模型学习文本中的标记和语段的表示,根据它们的表示和实体类别原型表示的距离,识别文本中的命名实体并分配实体类型标签。例如,在文献《面向小样本命名实体识别的数据增强算法改进策略研究》(数据分析与知识发现,2022)中,刘兴丽等人在考虑语义和语法的前提下,将简单数据增强(Easy Data Augmentation,EDA)策略进行多维度地改进,从而验证了适当的数据增强策略可以有效提高小样本命名实体识别的性能。在文献《Simple and Effective Few

Shot Named Entity Recognition with Structured Nearest Neighbor Learning》(Conference on Empirical Methods in Natural Language Processing,2020)中,Yang等人提出了基于最近邻学习和结构化推理的小样本命名实体识别方法,将结构化解码和最近邻学习相结合,能够捕获实体标签之间的标签依赖。在文献《Few

shot Named Entity Recognition with Self

describing Networks》(Annual Meeting of the Association for Computational Linguistics,2022)中,Chen等人提出了用于小样本命名实体识别的自描述网络,有效地利用说明性实例,使用通用概念集合描述实体类型和提及,从而精确地迁移外部知识。在文献《Decomposed Meta

Learning for Few

Shot Named Entity Recognition》(Findings of the Association for Computational Linguistics,2022)中,Ma等人使用元学习首先进行小样本语段检测,识别出文本中的实体语段,然后对实体语段进行实体分类,提出了模型无关和元学习增强的原型网络,从而找到能够区分不同实体类型的文本语段表示。在文献《MINER:Improving Out

of

Vocabulary Named Entity Recognition from an Information Theoretic Perspective》(Annual Meeting of the Association for Computational Linguistics,2022)中,Wang等人从信息论的角度,消除特定于实体的信息和最大化泛化信息,从而提高未登录命名实体识别任务中实体变化的鲁棒性。
[0005]然而,现有方法在进行小样本医学实体识别时,存在实体语段识别错误问题,命名
实体是文本中的一个或多个词语,在命名实体识别的结果中出现实体语段边界检测错误。此外,现有方法未能充分利用文本中实体和上下文的关联关系,直接利用文本的句子嵌入表示进行小样本医学实体识别。

技术实现思路

[0006]本专利技术的目的是针对现有技术存在的问题和不足,为了解决在小样本医学实体识别任务中面临的边界识别错误、实体和上下文关联关系利用不足等技术问题,创造性地提出一种基于边界和互信息增强的小样本医学实体识别方法,能够解决小样本医学实体识别任务中的边界识别错误、实体和上下文关联关系利用不足的问题,提高小样本医学实体识别模型的知识迁移能力,从而提高小样本医学实体识别准确度。
[0007]本专利技术的创新点包括:针对小样本医学实体识别任务中的实体语段识别错误,引入可训练的实体边界特征矩阵对实体语段识别进行增强,将预训练语言模型生成的语段表示和实体边界特征矩阵中的特征向量进行匹配以增强实体语段检测;显式地增加实体和上下文的互信息,提高文本表示的泛化性,充分利用文本中实体和上下文的关联关系。通过实体边界特征矩阵增强实体语段检测、充分利用实体和上下文的关联关系,提高了小样本医学实体识别的准确性。
[0008]本专利技术采用的技术方案如下。
[0009]一种基于边界和互信息增强的小样本医学实体识别方法,包括以下步骤:
[0010]步骤1:进行数据划分;
[0011]步骤1.1:构建源领域的支持集和查询集;
[0012]具体地,源领域的数据S
train
包括源领域的支持集、查询集、实体类型,即ε
train
={(S
train
,Q
train
,Y
train
)},S
train
表示源领域的支持集,Q
train
表示源领域的查询集、Y
train
表示源领域的实体类型。从源领域标注样本构建出源领域的支持集和查询集,其余样本设为训练集。训练集和支持集的实体类型不同。训练集包含大量的标注数据,用来训练初始小样本医学实体识别模型。支持集包含少量的标注数据,小样本医学实体识别模型在支持集进行迁移学习。查询集用来评测小样本医学实体识别模型迁移学习结果。训练集与查询集的实体类别不同,查询集和支持集的实体类别相同。
[0013]在训练时,支持集和查询集的实体类型相同。
[0014]源领域数据的来源是包含大量标注样本的实体识别数据。
[0015]步骤1.2:构建目标领域的支持集和查询集;
[0016]具体地,目标领域的数据包括目标领域的支持集、查询集、实体类型,即ε
new
={(S
new
,Q
new
,Y
new
)},S
new
表示目标领域的支持集、Q
new
表示目标领域的查询集、Y
new
表示目标领域的实体类型。
[0017]在目标领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于边界和互信息增强的小样本医学实体识别方法,其特征在于,包括以下步骤:步骤1:进行数据划分,构建源领域的支持集和查询集,以及目标领域的支持集和查询集;步骤2:引入实体边界特征矩阵进行边界增强,实现实体语段检测;在实体语段检测阶段,引入实体边界特征矩阵进行边界增强,判断文本中标记是否为实体;步骤3:最大化实体和上下文的互信息,进行实体类型分类;在实体类型分类阶段,显式地增加实体和上下文的互信息,将实体所包含的标记分类为对应的实体类型;步骤4:进行小样本医学实体识别模型训练和推理;首先使用源领域数据训练小样本医学实体识别模型,在目标领域的支持集再进行迁移学习,然后使用目标领域的查询集进行验证;以目标领域的查询集中的语段表示和实体类型原型表示的距离作为依据,对目标领域的查询集中的语段进行实体分类;实体语段检测阶段和实体类型分类阶段是两个独立的阶段;在源领域的支持集和查询集进行小样本医学实体识别模型训练后,将该模型在验证集的支持集进行迁移学习训练,最后在目标领域的查询集中进行验证,使该模型能够在目标领域进行命名实体识别,实现小样本医学实体识别。2.如权利要求1所述的一种基于边界和互信息增强的小样本医学实体识别方法,其特征在于,步骤1中,构建源领域的支持集和查询集,其中,源领域的数据S
train
包括源领域的支持集、查询集、实体类型,ε
train
={(S
train
,Q
train
,Y
train
)},S
train
表示源领域的支持集,Q
train
表示源领域的查询集、Y
train
表示源领域的实体类型;从源领域标注样本构建出源领域的支持集和查询集,其余样本设为训练集;在训练时,支持集和查询集的实体类型相同;源领域数据的来源是包含大量标注样本的实体识别数据;构建目标领域的支持集和查询集,其中,目标领域的数据包括目标领域的支持集、查询集、实体类型,ε
new
={(S
new
,Q
new
,Y
new
)},S
new
表示目标领域的支持集、Q
new
表示目标领域的查询集、Y
new
表示目标领域的实体类型;在目标领域验证小样本医学实体识别模型时,目标领域的支持集和查询集的实体类型相同,目标领域的实体类型和源领域的实体类型不同。3.如权利要求1所述的一种基于边界和互信息增强的小样本医学实体识别方法,其特征在于,步骤2包括以下步骤:步骤2.1:生成文本嵌入表示;输入文本x,使用预训练语言模型BERT处理输入文本,获得文本x中所有标记tokens的嵌入表示h={h1,h2,...,h
i
,...h
L
},L为标记的数量;使用BIOES标注法对标记进行分类,判断每个标记是否为实体,BIOES分别表示实体的开头Begin、实体的中间Inside、非实体Outside、实体的结尾End、单个标记的实体Single;步骤2.2:计算语段标记分类损失;将所有标记的嵌入表示h输入至线性分类层,判断每个标记的BIOES类别的概率分布p
(x),进行实体语段检测;其中,线性分类层由全连接层FC和归一化指数函数softmax构成,通过线性分类层计算得到所有标记的分布概率p(x):p(x)=softmax(FC(h))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)语段标记分类的损失函数L
s
计算为:其中,CrossEntropy表示交叉熵损失函数;λ为权重因子并且λ≥0;y
i
指每个标记的预期BIOES标签;max函数用来找出训练损失较大的标记;步骤2.3:计算分配损失;记步骤2.1和步骤2.2中的预训练语言模型和线性分类层为模型f;将实体语段的BIOES分类看作不同的边界分类类别,引入可训练的边界类别特征矩阵W={w1,w2,

,w
k
,

},w
k
表示边界类别的特征表示,w
k
={u1,u2,

,u
i
,

},其中w
k
由特征向量{u1,u2,

,u
i
,

}构成;对于模型f生成的标记表示h
i
,根据余弦相似度将h
i
分配至相似度最高的特征向量分配至相似度最高的特征向...

【专利技术属性】
技术研发人员:薛晓军张春霞牛振东
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1