一种基于主动学习的中文电子病历命名实体识别方法技术

技术编号:35866177 阅读:70 留言:0更新日期:2022-12-07 10:58
本发明专利技术属于文本标注领域,具体涉及一种基于主动学习的中文电子病历命名实体识别方法,包括:获取已标记实体的初始训练集和未标记实体的待打标数据;以该训练集,训练基于深度学习的命名实体识别模型,得到中间命名实体识别模型,该中间命名实体识别模型评估该未标记数据中每个实例的价值,将该未标记数据中价值最高的实例进行命名实体标注后加入该训练集;重复训练直到满足预设条件,将待命名实体识别的文本数据输入该最终命名实体识别模型,得到命名实体识别结果。本发明专利技术通过让模型预测自己的损失,从而找到能让自己改变最大的样本,满足了中文电子病历这一场景下对于句子级的命名实体识别准确率的高要求,提高了识别的准确率。率。率。

【技术实现步骤摘要】
一种基于主动学习的中文电子病历命名实体识别方法


[0001]本专利技术属于文本标注领域,具体涉及一种基于主动学习的中文电子病历命名实体识别方法。

技术介绍

[0002]随着医疗领域检测技术和疾病诊断方式的发展,医生们越来越多地使用电子文档记录病人的相关信息以及疾病的各项表征数据。因此产生了大量的电子病历文本,如何有效地从大量电子病历文本数据中抽取出有效信息,从而使得医护人员能够方便快捷地使用医疗数据分析系统,使现在人工智能在医疗领域面临的问题。面对信息量庞大的电子病历文本信息,医生必须快速有效地提取出对于病情诊断来说最为有效的信息,例如,疾病名称、发病的部位、对应的症状等内容。但是在医疗电子报告中通常会包含一些相关度较低的信息,所以开发有关技术帮助医生们快速地排除无关信息的干扰以及抽取有效信息是十分必要的。
[0003]其中,中文电子病历的命名实体识别工作是医疗信息处理的上游工作。命名实体识别是指识别出文本中具有特定意义的实体。但是经过标注的中文电子病历资源目前十分稀缺,如何获得有效的、高质量的标注数据成为了急需解决的问题。主动学习是机器学习的一个子领域,主动学习的思想是通过未标注数据基于某一种筛选策略有选择地选取样本进行人工标注,从而达到减少人工标注工作量,同时最大限度的提升模型表现。现有的广泛使用的主动学习策略大致可分为一下几种:
[0004](1)基于不确定性的主动学习策略:不确定性抽样可以用于识别当前机器学习模型中的决策边界附近的未标记样本。这里信息最丰富的例子是分类器最不确定的例子。模型最不确定性的样本可能是在分类边界附近的数据。而我们模型学习的算法将通过观察这些分类最困难的样本来获得有关类边界的更多的信息。
[0005](2)基于代表性的主动学习策略:代表性抽样是从数据的分布考虑的常用策略。算法根据数据分布确保查询的样本能够覆盖整个数据分布以保证标注数据的多样性。
[0006]然而,基于不确定性的主动学习策略有一个非常强的假设就是所有样本独立同分布,现实世界中并不总是如此。基于代表性的主动学习策略相比于基于不确定性的主动学习策略能够更有效的选择具有不同特征的样本,但是却并不能有效识别对于模型来说信息量最丰富的样本;并且在中文电子病历命名实体识别这一场景下,对于句子级准确率有着相当高的要求。

技术实现思路

[0007]为解决上述技术问题,本专利技术提出一种基于主动学习的中文电子病历命名实体识别方法,包括:
[0008]将待识别的中文电子病历文本输入训练好的命名实体识别模型的主网络进行识别,并得到识别结果;
[0009]所述命名实体识别模型包括:主网络和子网络;
[0010]所述命名实体识别模型的训练过程包括:
[0011]S1:获取未标记的中文电子病历文本,从中选取部分进行人工标注,以4:1的比例划分训练集和验证集;
[0012]S2:将训练集中的文本输入命名实体识别模型的主网络,对主网络进行训练,根据训练完成后的主网络在验证集上的识别结果获得F1值,保存F1最大的模型参数,并固定主网络的参数;
[0013]S3:计算训练集中的文本的token的交叉熵损失;
[0014]S4:将文本的token的交叉熵损失作为训练集和验证集的新标签,将带交叉熵损失标签的训练集输入命名实体识别模型的子网络,训练子网络,根据训练完成后的子网络在验证集上的损失,保存验证集上损失最小的子网络模型的参数,并固定子网络的参数;
[0015]S5:将未标注的文本输入固定参数后的命名实体识别模型的子网络,得到文本每个token的损失预测值,选取文本损失预测值最大的文本,将文本损失预测值的文本进行标注,并加入训练集和验证集,重复上述过程,直到命名实体识别模型的主网络在验证集上的F1值达到模型的预设条件,完成模型的训练。
[0016]优选的,将待识别的中文电子病历文本输入训练好的命名实体识别模型进行识别,得到识别结果,具体包括:
[0017]步骤一:将待识别的中文电子病历文本进行文本划分,得到文本长度小于等于256,若文本长度小于256的序列用padding的方式补齐;
[0018]步骤二:将划分好的文本进行词编码(token embedding)、句子编码(sentence embedding)、位置编码(position embedding);
[0019]步骤三:将编码后的文本输入到命名实体识别模型中,得到命名实体识别模型主网络的输出,进行维特比解码,得到最终识别结果。
[0020]优选的,所述命名实体识别模型主网络结构为bert+bilstm+crf,所述子网络结构为bert+bilstm+linear,其中bert+lstm的权重与主网络共享。
[0021]优选的,其特征在于,对主网络进行训练,具体包括:
[0022]将训练集中的文本输入主网络的bert层进行文本划分,将划分后的文本通过bilstm层进行编码处理,得到文本中每个单词的编码向量,将文本中每个单词的编码向量输入crf层,得到文本中所有单词对应的预测标签,并计算文本中所有单词的预测标签得分,根据预测标签得分采用softmax计算正确标签文本的概率,并最大化正确标签文本的概率,根据最大化后的正确标签文本的概率解码文本中每个单词的编码向量,得到最优的文本序列,将输出最优序列下的主网络作为训练得到的最优主网络。
[0023]进一步的,计算文本中单词的预测标签得分,表示为:
[0024][0025]其中,s(x,y)表示文本中单词的预测标签得分,x表示文本序列,y表示预测的标签序列,n为序列长度,表示输入序列中第i个字符预测为第y
i
个标签得分,A表示转移矩
阵。
[0026]进一步的,根据预测标签得分采用softmax计算正确标签文本的概率,并最大化正确标签文本的概率,表示为:
[0027][0028]其中,P(y|x)表示正确标签文本的概率,s(x,y)表示示文本中单词的预测标签得分,s(x,y

)表示正确标签得分,表示所有可能标签得分指数和,x表示文本序列,y表示预测的标签序列,Y
x
表示所有可能的标签序列集合,y

表示所有可能的标签序列集合中的标签序列。
[0029]优选的,根据训练完成后的主网络在验证集上的识别结果获得F1值,表示为:
[0030][0031]其中,c表示实体类别总数,F
1k
表示第k个实体的F1值。
[0032]优选的,计算文本的token的交叉熵损失,表示为:
[0033][0034]其中,t
i
为一个样本中第i个token的交叉熵损失,y
ij
表示第i个token是否属于第j类,若是则为1,不是则等于0,q
ij
表示第i个token属于第j个类别的概率,P表示bilstm的输出矩阵,c为标签数量,P
...

【技术保护点】

【技术特征摘要】
1.一种基于主动学习的中文电子病历命名实体识别方法,其特征在于,包括:将待识别的中文电子病历文本输入训练好的命名实体识别模型的主网络进行识别,并得到识别结果;所述命名实体识别模型包括:主网络和子网络;所述命名实体识别模型的训练过程包括:S1:获取未标记的中文电子病历文本,从中选取部分进行人工标注,以4:1的比例划分训练集和验证集;S2:将训练集中的文本输入命名实体识别模型的主网络,对主网络进行训练,根据训练完成后的主网络在验证集上的识别结果获得F1值,保存F1最大的模型参数,并固定主网络的参数;S3:计算训练集中的文本的token的交叉熵损失;S4:将文本的token的交叉熵损失作为训练集和验证集的新标签,将带交叉熵损失标签的训练集输入命名实体识别模型的子网络,训练子网络,根据训练完成后的子网络在验证集上的损失,保存验证集上损失最小的子网络模型的参数,并固定子网络的参数;S5:将未标注的文本输入固定参数后的命名实体识别模型的子网络,得到文本每个token的损失预测值,选取文本损失预测值最大的文本,将文本损失预测值的文本进行标注,并加入训练集和验证集,重复上述过程,直到命名实体识别模型的主网络在验证集上的F1值达到模型的预设条件,完成模型的训练。2.根据权利要求1所述的一种基于主动学习的中文电子病历命名实体识别方法,其特征在于,将待识别的中文电子病历文本输入训练好的命名实体识别模型进行识别,得到识别结果,具体包括:步骤一:将待识别的中文电子病历文本进行文本划分,得到文本长度小于等于256,若文本长度小于256的序列用padding的方式补齐;步骤二:将划分好的文本进行词编码(token embedding)、句子编码(sentence embedding)、位置编码(position embedding);步骤三:将编码后的文本输入到命名实体识别模型中,得到命名实体识别模型主网络的输出,进行维特比解码,得到最终识别结果。3.根据权利要求1所述的一种基于主动学习的中文电子病历命名实体识别方法,其特征在于,所述命名实体识别模型主网络结构为bert+bilstm+crf,所述子网络结构为bert+bilstm+linear,其中bert+lstm的权重与主网络共享。4.根据权利要求1所述的一种基于主动学习的中文电子病历命名实体识别方法,其特征在于,对主网络进行训练,具体包括:将训练集中的文本输入主网络的bert层进行文本划分,将划分后的文本通过bilstm层进行编码处理,得到文本中每个单词的编码向量,将文本中每个单词的编码向量输入crf层,得到文本中所有单词对应的预测标签,并计算文本中所有单词的预测标签得分...

【专利技术属性】
技术研发人员:雷大江卢文糠王烨于洪王国胤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1