一种医疗领域命名实体识别方法及系统技术方案

技术编号：26069547 阅读：38 留言：0更新日期：2020-10-28 16:42

本发明专利技术实施例提供一种医疗领域命名实体识别方法及系统，包括：获取电子病历数据；将电子病历数据输入至命名实体识别模型，根据命名实体识别模型的输出结果，获取与电子病历数据对应的命名实体识别结果；其中，命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。本发明专利技术实施例提供的医疗领域命名实体识别方法及系统，利用一种结合监督学习与无监督学习的半监督网络模型，实现医疗领域的命名实体识别，解决了医疗领域缺少标记数据、训练样本集构建困难的问题。有效的提升了模型训练和预测的能力，节省了人力、物力。

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗领域命名实体识别方法及系统
本专利技术涉及计算机人工智能
，尤其涉及一种医疗领域命名实体识别方法及系统。
技术介绍
近年来，互联网计算机技术的普及和发展，推动了各大医院的信息化建设工作。随着各医疗系统相继建立，所产生的医疗相关的数据更不计其数。其中，电子病历数据是医疗机构对患者诊疗过程中的全面记录，蕴涵着大量信息。人们开始通过自然语言处理技术将这些非结构化电子病历的信息进行挖掘，从而得到结构化的与患者密切相关的医疗知识。命名实体识别(NamedEntityRecognition，简称NER)是指识别文本中特定的实体，例如：人名、地名等。在电子病历领域，旨在自动识别和分类病例中医学实体，例如治疗手段、疾病等。NER是电子病历结构化的基础，是开展电子病历文本研究的前提。由于中文文本处理的复杂性，中文文本的NER难度更大。目前常用电子病历命名实体识别的方法主要有：基于词典和规则的方法、基于传统机器学习的方法与基于深度学习的方法。基于字典的方法通过字符串模糊查找或者完全匹配，但是无法检索字典中不存在的实体。基于规则的方法根据实体特征和其常见搭配，人为制定规则集，但是耗时长，需要领域专家编写规则，并且不能应用新的领域。近年来，随着机器学习技术的发展和应用，基于机器学习的方法逐渐成为主流方法。虽然该方法的可移植性强，但其依赖标注数据的质量和规模，特征工程复杂。随着机器学习的进一步发展，基于深度学习的方法得到了大家的进一步关注。虽然这种方法不再需要像传统机器学习方法那样人为选取复杂的特征集合作...

【技术保护点】
1.一种医疗领域命名实体识别方法，其特征在于，包括：/n获取电子病历数据；/n将所述电子病历数据输入至命名实体识别模型，根据所述命名实体识别模型的输出结果，获取与所述电子病历数据对应的命名实体识别结果；/n其中，所述命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。/n

【技术特征摘要】
1.一种医疗领域命名实体识别方法，其特征在于，包括：
获取电子病历数据；
将所述电子病历数据输入至命名实体识别模型，根据所述命名实体识别模型的输出结果，获取与所述电子病历数据对应的命名实体识别结果；
其中，所述命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。

2.根据权利要求1所述的医疗领域命名实体识别方法，其特征在于，在将所述电子病历数据输入至命名实体识别模型之前，对所述命名实体识别模型进行预训练，包括：
S11，对病历样本数据进行预处理，构建所述带有命名实体识别标签的病历样本数据集和无标签病历样本数据集；
S12，利用所述带有命名实体识别标签的病历样本数据集对预设的命名实体识别模型进行初步训练；
S13，将所述无标签病历样本数据集中的未标记数据输入至初步训练后的命名实体识别模型中，基于双重筛选策略对每个所述无标签病历样本数据进行筛选，以获取与每个合格的无标签病历样本数据对应的模型输出结果；
S14，将所述模型输出结果作为所述合格的病历样本数据的命名实体识别标签后，置于所述带有命名实体识别标签的病历样本数据集中；
S15，迭代执行步骤S12-S14直至所述无标签病历样本数据集为空或者所述命名实体识别模型收敛时，完成对所述命名实体识别模型的预训练。

3.根据权利要求2所述的医疗领域命名实体识别方法，其特征在于，步骤S11具体包括：
利用python中的beautifulsoup模块和正则表达式，对病历样本数据进行解析，以获取纯文本病历样本数据；
对部分纯文本病历样本数据进行实体识别分类标注，生成样本数据中每个词的类型标签；
基于BIOES标签标记法对每个所述类型标签进行转换，生成标注信息；
将与每个所述纯文本病历样本数据对应的标注信息作为所述纯文本病历样本数据的命名实体识别标签，构建所述带有命名实体识别标签的病历样本数据集；
将未被实体识别分类标注的纯文本病历样本数据组建所述无标签病历样本数据集。

【专利技术属性】
技术研发人员：闫健卓，耿亚男，许红霞，谭绍峰，贺东东，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人