一种医疗领域命名实体识别方法及系统技术方案

技术编号:26069547 阅读:38 留言:0更新日期:2020-10-28 16:42
本发明专利技术实施例提供一种医疗领域命名实体识别方法及系统,包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。本发明专利技术实施例提供的医疗领域命名实体识别方法及系统,利用一种结合监督学习与无监督学习的半监督网络模型,实现医疗领域的命名实体识别,解决了医疗领域缺少标记数据、训练样本集构建困难的问题。有效的提升了模型训练和预测的能力,节省了人力、物力。

【技术实现步骤摘要】
一种医疗领域命名实体识别方法及系统
本专利技术涉及计算机人工智能
,尤其涉及一种医疗领域命名实体识别方法及系统。
技术介绍
近年来,互联网计算机技术的普及和发展,推动了各大医院的信息化建设工作。随着各医疗系统相继建立,所产生的医疗相关的数据更不计其数。其中,电子病历数据是医疗机构对患者诊疗过程中的全面记录,蕴涵着大量信息。人们开始通过自然语言处理技术将这些非结构化电子病历的信息进行挖掘,从而得到结构化的与患者密切相关的医疗知识。命名实体识别(NamedEntityRecognition,简称NER)是指识别文本中特定的实体,例如:人名、地名等。在电子病历领域,旨在自动识别和分类病例中医学实体,例如治疗手段、疾病等。NER是电子病历结构化的基础,是开展电子病历文本研究的前提。由于中文文本处理的复杂性,中文文本的NER难度更大。目前常用电子病历命名实体识别的方法主要有:基于词典和规则的方法、基于传统机器学习的方法与基于深度学习的方法。基于字典的方法通过字符串模糊查找或者完全匹配,但是无法检索字典中不存在的实体。基于规则的方法根据实体特征和其常见搭配,人为制定规则集,但是耗时长,需要领域专家编写规则,并且不能应用新的领域。近年来,随着机器学习技术的发展和应用,基于机器学习的方法逐渐成为主流方法。虽然该方法的可移植性强,但其依赖标注数据的质量和规模,特征工程复杂。随着机器学习的进一步发展,基于深度学习的方法得到了大家的进一步关注。虽然这种方法不再需要像传统机器学习方法那样人为选取复杂的特征集合作为模型训练集,但需要更大规模的语料集。由于现有的监督学习方法需要大规模的语料集,但在中文电子病历识别方面标注语料缺乏,没有公开的电子病历语料标注集。且由于电子病历专业性强,需要医生或者相关领域专家进行数据标注,因此比通用领域投入的人力物力更大。因此,在没有充足的已标注数据的情况下,传统的监督学习方法的效果受到限制。
技术实现思路
本专利技术实施例提供一种医疗领域命名实体识别方法及系统,用以解决现有技术中,特别是在医疗领域中基于深度学习方法进行命名实体识别时,中文电子病历识别方面标注语料缺乏,以及没有公开的电子病历语料标注集等不足,导致在没有充足的已标注数据的情况下,传统的监督学习方法的效果受限制的缺陷,实现利用大量的未标注数据完成识别网络模型的训练,进而提高识别网络模型的识别精度。第一方面,本专利技术实施例提供一种医疗领域命名实体识别方法,主要包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。作为可选地,在将电子病历数据输入至命名实体识别模型之前,对所述命名实体识别模型进行预训练,主要包括以下步骤:S11,对病历样本数据进行预处理,构建带有命名实体识别标签的病历样本数据集和无标签病历样本数据集;S12,利用带有命名实体识别标签的病历样本数据集对预设的命名实体识别模型进行初步训练;S13,将无标签病历样本数据集中的未标记数据输入至初步训练后的命名实体识别模型中,基于双重筛选策略对每个所述无标签病历样本数据进行筛选,以获取与每个合格的无标签病历样本数据对应的模型输出结果;S14,将模型输出结果作为合格的病历样本数据的命名实体识别标签后,置于带有命名实体识别标签的病历样本数据集中;S15,迭代执行步骤S12-S14直至无标签病历样本数据集为空或者命名实体识别模型收敛时,完成对命名实体识别模型的预训练。作为可选地,上述步骤S11具体包括但不限于以下步骤:利用python中的beautifulsoup模块和正则表达式方式,对病历样本数据进行解析,以获取纯文本病历样本数据;对部分纯文本病历样本数据进行实体识别分类标注;基于BIOES标签标记法对每个类型标签进行转换,生成标注信息;将与每个纯文本病历样本数据对应的标注信息作为所述纯文本病历样本数据的命名实体识别标签,构建所述带有命名实体识别标签的病历样本数据集;将未被实体识别分类标注的纯文本病历样本数据组建无标签病历样本数据集。作为可选地,命名实体识别模型为半监督学习模型,主要包括依次连接的训练语言模型层、长短期记忆模型层和条件概率模型层。作为可选地,上述步骤S13具体包括但不限于以下步骤:利用训练语言模型层对输入的未标记数据进行字符向量化转换;利用长短期记忆模型层对字符向量化转换的结果进行特征提取,获取与未标记数据相对应的命名实体识别标签以及标签概率;若标签概率大于第一预设阈值,则利用条件概率模型层对双向长短期记忆模型层的输出结果进行解码,获取未标记数据中每个字的置信度;若置信度最小的字的置信度大于第二预设阈值,则将未标记数据作为合格的无标签病历样本数据。作为可选地,长短期记忆模型层为双向长短期记忆模型层。作为可选地,命名实体识别结果可以包括症状体征、检查检验、疾病诊断、治疗和身体部位这五个类型。第二方面,本专利技术实施例还提供一种医疗领域命名实体识别系统,主要包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。第三方面,本专利技术实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述医疗领域命名实体识别方法的步骤。第四方面,本专利技术实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述医疗领域命名实体识别方法的步骤。本专利技术实施例提供的医疗领域命名实体识别方法及系统,利用一种结合监督学习与无监督学习的半监督网络模型,实现医疗领域的命名实体识别,解决了医疗领域缺少标记数据、训练样本集构建困难的问题。有效的提升了模型训练和预测的能力,节省了人力、物力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种医疗领域命名实体识别方法的流程示意图;图2为本专利技术实施例提供的一种模型训练方法的整体流程示意图;图3为本专利技术实施例提供的对模型进行预训练的详细流程示意图;图4为本专利技术实施例提供的数据预处理的流程示意图;图5为本专利技术实施例提供的命名实体识别模型的内部示意图;图6为采用不同筛选策略的结果对比示意图;图7为基于ALBERT和word2vec的BiLSTM-C本文档来自技高网
...

【技术保护点】
1.一种医疗领域命名实体识别方法,其特征在于,包括:/n获取电子病历数据;/n将所述电子病历数据输入至命名实体识别模型,根据所述命名实体识别模型的输出结果,获取与所述电子病历数据对应的命名实体识别结果;/n其中,所述命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。/n

【技术特征摘要】
1.一种医疗领域命名实体识别方法,其特征在于,包括:
获取电子病历数据;
将所述电子病历数据输入至命名实体识别模型,根据所述命名实体识别模型的输出结果,获取与所述电子病历数据对应的命名实体识别结果;
其中,所述命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。


2.根据权利要求1所述的医疗领域命名实体识别方法,其特征在于,在将所述电子病历数据输入至命名实体识别模型之前,对所述命名实体识别模型进行预训练,包括:
S11,对病历样本数据进行预处理,构建所述带有命名实体识别标签的病历样本数据集和无标签病历样本数据集;
S12,利用所述带有命名实体识别标签的病历样本数据集对预设的命名实体识别模型进行初步训练;
S13,将所述无标签病历样本数据集中的未标记数据输入至初步训练后的命名实体识别模型中,基于双重筛选策略对每个所述无标签病历样本数据进行筛选,以获取与每个合格的无标签病历样本数据对应的模型输出结果;
S14,将所述模型输出结果作为所述合格的病历样本数据的命名实体识别标签后,置于所述带有命名实体识别标签的病历样本数据集中;
S15,迭代执行步骤S12-S14直至所述无标签病历样本数据集为空或者所述命名实体识别模型收敛时,完成对所述命名实体识别模型的预训练。


3.根据权利要求2所述的医疗领域命名实体识别方法,其特征在于,步骤S11具体包括:
利用python中的beautifulsoup模块和正则表达式,对病历样本数据进行解析,以获取纯文本病历样本数据;
对部分纯文本病历样本数据进行实体识别分类标注,生成样本数据中每个词的类型标签;
基于BIOES标签标记法对每个所述类型标签进行转换,生成标注信息;
将与每个所述纯文本病历样本数据对应的标注信息作为所述纯文本病历样本数据的命名实体识别标签,构建所述带有命名实体识别标签的病历样本数据集;
将未被实体识别分类标注的纯文本病历样本数据组建所述无标签病历样本数据集。

【专利技术属性】
技术研发人员:闫健卓耿亚男许红霞谭绍峰贺东东
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1