【技术实现步骤摘要】
一种基于边界和互信息增强的小样本医学实体识别方法
[0001]本专利技术涉及一种基于边界和互信息增强的小样本医学实体识别方法,属于信息抽取和人工智能
技术介绍
[0002]命名实体识别是识别文本中具有特定意义的命名实体,并将命名实体分类为预定义的类别。当前,命名实体识别任务主要基于神经网络模型,其需要大量的标注数据。小样本命名实体识别,是指在目标领域内只有少量的标注样本的情况下进行命名实体识别。当进行小样本命名实体识别时,因为目标领域的标注样本较少,需要在有大量标注样本的源领域数据上进行训练,再使用知识迁移技术在目标领域中进行小样本命名实体识别。
[0003]小样本医学实体识别,是指目标领域为医学领域、源领域为其它领域的小样本命名实体识别。小样本医学实体识别技术能够在标注样本不足的情况下进行医学实体识别,对医学知识抽取、医学问答系统、智能搜索下游任务具有重要意义。
[0004]目前,现有的小样本医学实体识别方法,主要是基于标记级度量学习和语段级度量学习。基于神经网络模型学习文本中的标记和语段的表示,根据它们的表示和实体类别原型表示的距离,识别文本中的命名实体并分配实体类型标签。例如,在文献《面向小样本命名实体识别的数据增强算法改进策略研究》(数据分析与知识发现,2022)中,刘兴丽等人在考虑语义和语法的前提下,将简单数据增强(Easy Data Augmentation,EDA)策略进行多维度地改进,从而验证了适当的数据增强策略可以有效提高小样本命名实体识别的性能。在文献《Simple an ...
【技术保护点】
【技术特征摘要】
1.一种基于边界和互信息增强的小样本医学实体识别方法,其特征在于,包括以下步骤:步骤1:进行数据划分,构建源领域的支持集和查询集,以及目标领域的支持集和查询集;步骤2:引入实体边界特征矩阵进行边界增强,实现实体语段检测;在实体语段检测阶段,引入实体边界特征矩阵进行边界增强,判断文本中标记是否为实体;步骤3:最大化实体和上下文的互信息,进行实体类型分类;在实体类型分类阶段,显式地增加实体和上下文的互信息,将实体所包含的标记分类为对应的实体类型;步骤4:进行小样本医学实体识别模型训练和推理;首先使用源领域数据训练小样本医学实体识别模型,在目标领域的支持集再进行迁移学习,然后使用目标领域的查询集进行验证;以目标领域的查询集中的语段表示和实体类型原型表示的距离作为依据,对目标领域的查询集中的语段进行实体分类;实体语段检测阶段和实体类型分类阶段是两个独立的阶段;在源领域的支持集和查询集进行小样本医学实体识别模型训练后,将该模型在验证集的支持集进行迁移学习训练,最后在目标领域的查询集中进行验证,使该模型能够在目标领域进行命名实体识别,实现小样本医学实体识别。2.如权利要求1所述的一种基于边界和互信息增强的小样本医学实体识别方法,其特征在于,步骤1中,构建源领域的支持集和查询集,其中,源领域的数据S
train
包括源领域的支持集、查询集、实体类型,ε
train
={(S
train
,Q
train
,Y
train
)},S
train
表示源领域的支持集,Q
train
表示源领域的查询集、Y
train
表示源领域的实体类型;从源领域标注样本构建出源领域的支持集和查询集,其余样本设为训练集;在训练时,支持集和查询集的实体类型相同;源领域数据的来源是包含大量标注样本的实体识别数据;构建目标领域的支持集和查询集,其中,目标领域的数据包括目标领域的支持集、查询集、实体类型,ε
new
={(S
new
,Q
new
,Y
new
)},S
new
表示目标领域的支持集、Q
new
表示目标领域的查询集、Y
new
表示目标领域的实体类型;在目标领域验证小样本医学实体识别模型时,目标领域的支持集和查询集的实体类型相同,目标领域的实体类型和源领域的实体类型不同。3.如权利要求1所述的一种基于边界和互信息增强的小样本医学实体识别方法,其特征在于,步骤2包括以下步骤:步骤2.1:生成文本嵌入表示;输入文本x,使用预训练语言模型BERT处理输入文本,获得文本x中所有标记tokens的嵌入表示h={h1,h2,...,h
i
,...h
L
},L为标记的数量;使用BIOES标注法对标记进行分类,判断每个标记是否为实体,BIOES分别表示实体的开头Begin、实体的中间Inside、非实体Outside、实体的结尾End、单个标记的实体Single;步骤2.2:计算语段标记分类损失;将所有标记的嵌入表示h输入至线性分类层,判断每个标记的BIOES类别的概率分布p
(x),进行实体语段检测;其中,线性分类层由全连接层FC和归一化指数函数softmax构成,通过线性分类层计算得到所有标记的分布概率p(x):p(x)=softmax(FC(h))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)语段标记分类的损失函数L
s
计算为:其中,CrossEntropy表示交叉熵损失函数;λ为权重因子并且λ≥0;y
i
指每个标记的预期BIOES标签;max函数用来找出训练损失较大的标记;步骤2.3:计算分配损失;记步骤2.1和步骤2.2中的预训练语言模型和线性分类层为模型f;将实体语段的BIOES分类看作不同的边界分类类别,引入可训练的边界类别特征矩阵W={w1,w2,
…
,w
k
,
…
},w
k
表示边界类别的特征表示,w
k
={u1,u2,
…
,u
i
,
…
},其中w
k
由特征向量{u1,u2,
…
,u
i
,
…
}构成;对于模型f生成的标记表示h
i
,根据余弦相似度将h
i
分配至相似度最高的特征向量分配至相似度最高的特征向...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。