一种基于主动学习的中文电子病历命名实体识别方法技术

技术编号：35866177 阅读：70 留言：0更新日期：2022-12-07 10:58

本发明专利技术属于文本标注领域，具体涉及一种基于主动学习的中文电子病历命名实体识别方法，包括：获取已标记实体的初始训练集和未标记实体的待打标数据；以该训练集，训练基于深度学习的命名实体识别模型，得到中间命名实体识别模型，该中间命名实体识别模型评估该未标记数据中每个实例的价值，将该未标记数据中价值最高的实例进行命名实体标注后加入该训练集；重复训练直到满足预设条件，将待命名实体识别的文本数据输入该最终命名实体识别模型，得到命名实体识别结果。本发明专利技术通过让模型预测自己的损失，从而找到能让自己改变最大的样本，满足了中文电子病历这一场景下对于句子级的命名实体识别准确率的高要求，提高了识别的准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主动学习的中文电子病历命名实体识别方法

[0001]本专利技术属于文本标注领域，具体涉及一种基于主动学习的中文电子病历命名实体识别方法。

技术介绍

[0002]随着医疗领域检测技术和疾病诊断方式的发展,医生们越来越多地使用电子文档记录病人的相关信息以及疾病的各项表征数据。因此产生了大量的电子病历文本，如何有效地从大量电子病历文本数据中抽取出有效信息,从而使得医护人员能够方便快捷地使用医疗数据分析系统,使现在人工智能在医疗领域面临的问题。面对信息量庞大的电子病历文本信息,医生必须快速有效地提取出对于病情诊断来说最为有效的信息，例如,疾病名称、发病的部位、对应的症状等内容。但是在医疗电子报告中通常会包含一些相关度较低的信息,所以开发有关技术帮助医生们快速地排除无关信息的干扰以及抽取有效信息是十分必要的。
[0003]其中,中文电子病历的命名实体识别工作是医疗信息处理的上游工作。命名实体识别是指识别出文本中具有特定意义的实体。但是经过标注的中文电子病历资源目前十分稀缺,如何获得有效的、高质量的标注数据成为了急需解决的问题。主动学习是机器学习的一个子领域，主动学习的思想是通过未标注数据基于某一种筛选策略有选择地选取样本进行人工标注，从而达到减少人工标注工作量，同时最大限度的提升模型表现。现有的广泛使用的主动学习策略大致可分为一下几种：
[0004](1)基于不确定性的主动学习策略：不确定性抽样可以用于识别当前机器学习模型中的决策边界附近的未标记样本。这里信息最丰富的例子是分类器最不确定的例子。模型最不

【技术保护点】

【技术特征摘要】
1.一种基于主动学习的中文电子病历命名实体识别方法，其特征在于，包括：将待识别的中文电子病历文本输入训练好的命名实体识别模型的主网络进行识别，并得到识别结果；所述命名实体识别模型包括：主网络和子网络；所述命名实体识别模型的训练过程包括：S1：获取未标记的中文电子病历文本，从中选取部分进行人工标注，以4:1的比例划分训练集和验证集；S2：将训练集中的文本输入命名实体识别模型的主网络，对主网络进行训练，根据训练完成后的主网络在验证集上的识别结果获得F1值，保存F1最大的模型参数，并固定主网络的参数；S3：计算训练集中的文本的token的交叉熵损失；S4：将文本的token的交叉熵损失作为训练集和验证集的新标签，将带交叉熵损失标签的训练集输入命名实体识别模型的子网络，训练子网络，根据训练完成后的子网络在验证集上的损失，保存验证集上损失最小的子网络模型的参数，并固定子网络的参数；S5：将未标注的文本输入固定参数后的命名实体识别模型的子网络，得到文本每个token的损失预测值，选取文本损失预测值最大的文本，将文本损失预测值的文本进行标注，并加入训练集和验证集,重复上述过程，直到命名实体识别模型的主网络在验证集上的F1值达到模型的预设条件，完成模型的训练。2.根据权利要求1所述的一种基于主动学习的中文电子病历命名实体识别方法，其特征在于，将待识别的中文电子病历文本输入训练好的命名实体识别模型进行识别，得到识别结果，具体包括：步骤一：将待识别的中文电子病历文本进行文本划分，得到文本长度小于等于256，若文本长度小于256的序列用padding的方式补齐；步骤二：将划分好的文本进行词编码(token embedding)、句子编码(sentence embedding)、位置编码(position embedding)；步骤三：将编码后的文本输入到命名实体识别模型中，得到命名实体识别模型主网络的输出，进行维特比解码，得到最终识别结果。3.根据权利要求1所述的一种基于主动学习的中文电子病历命名实体识别方法，其特征在于，所述命名实体识别模型主网络结构为bert+bilstm+crf，所述子网络结构为bert+bilstm+linear，其中bert+lstm的权重与主网络共享。4.根据权利要求1所述的一种基于主动学习的中文电子病历命名实体识别方法，其特征在于，对主网络进行训练，具体包括：将训练集中的文本输入主网络的bert层进行文本划分，将划分后的文本通过bilstm层进行编码处理，得到文本中每个单词的编码向量，将文本中每个单词的编码向量输入crf层，得到文本中所有单词对应的预测标签，并计算文本中所有单词的预测标签得分...

【专利技术属性】
技术研发人员：雷大江，卢文糠，王烨，于洪，王国胤，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人