电子病历表型抽取、表型名称规范化方法及系统技术方案

技术编号：20588875 阅读：37 留言：0更新日期：2019-03-16 07:09

本发明专利技术公开了一种电子病历表型抽取、表型名称规范化方法。该方法包括：表型抽取，将病历文本自然语句作为原始数据，采用Bi‑LSTM模型和CRF模型做命名实体识别，抽取出表型实体类；以及表型规范化，采用LSTM编码器对每个表型进行编码，计算病历中非标准表型的编码与标准表型编码的余弦相似度，将非标准表型映射到余弦相似度最高的表型。本发明专利技术还公开了一种电子病历表型抽取、表型名称规范化系统。本发明专利技术提高了电子病历中命名实体识别的准确率、召回正确率、以及对表型映射的准确率；免去了病历结构化过程中人工消耗，提高了病历结构化的效率；能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。

全部详细技术资料下载

【技术实现步骤摘要】
电子病历表型抽取、表型名称规范化方法及系统
本专利技术涉及医疗文本数据处理
，特别是涉及一种基于深度学习的电子病历表型抽取、表型名称规范化方法及系统。
技术介绍
常规的医疗电子记录中，信息的主要载体是自然语言，比如，影像报告、用药记录、病程报告和病历检查报告等。可以说，这些自然语言文本蕴含着患者诊疗过程中的主要临床信息。一方面，近年来我国各级医院逐渐采用电子病案管理系统代替传统的手写病历，从而累积了越来越多的医疗电子记录。另一方面，随着以大数据、人工智能为代表的信息技术与医学的深度融合，催生了诸如精准医疗、临床决策支持、医学数据挖掘、疾病风险评估等一系列新的概念和方法。但是，这些新概念、新方法的实现高度依赖巨量的真实、准确、可靠的结构化的诊疗数据。遗憾的是，现实中的病历数据大都是非结构化的。正因为如此，将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大，若依靠人工来进行结构化，其经济成本无疑将十分高昂。所以，利用计算机自动的从电子病历中提取结构化的临床信息是一种理性的选择。在电子病历结构化过程中，从病历文本提取并规范化患者的表型名称是一个关键问题。实际病历中一个表型或症状都可能有多个不同的同义词。比如“行走不稳”表型，它的规范名称是行走不稳，但是在真实病历中这一表型可能表述为：“行走晃动”、“走路不稳”、“走路摇晃”、“行走摇摆”等。将真实病历中出现的这些不规范的表型描述(“行走晃动”、“走路不稳”、“走路摇晃”，“行走摇摆”)映射到规范的表型名称(“行走不稳”)是病历结构化中必须解决的问题。表型提取和映射的准确性对于后续医疗数...

【技术保护点】
1.一种电子病历表型抽取、表型名称规范化方法，其特征在于，包括：表型抽取，将病历文本自然语句作为原始数据，采用Bi‑LSTM模型和CRF模型做命名实体识别，抽取出病历文本中的表型实体类；表型名称规范化，采用LSTM编码器对每个表型进行编码，计算非标准表型编码与标准表型编码的余弦相似度，将非标准表型映射到余弦相似度最高的标准表型。

【技术特征摘要】
1.一种电子病历表型抽取、表型名称规范化方法，其特征在于，包括：表型抽取，将病历文本自然语句作为原始数据，采用Bi-LSTM模型和CRF模型做命名实体识别，抽取出病历文本中的表型实体类；表型名称规范化，采用LSTM编码器对每个表型进行编码，计算非标准表型编码与标准表型编码的余弦相似度，将非标准表型映射到余弦相似度最高的标准表型。2.如权利要求1所述的电子病历表型抽取、表型名称规范化方法，其特征在于，在表型抽取中，包括：通过Embedding层初始化，得到每个字符的字向量；将字向量输入Bi-LSTM模型，堆叠三层Bi-LSTM网络，得到输出值；采用CRF模型，根据所述输出值和预测标注，定义正确性分数，对所有可能的预测序列的正确分值做softmax变换，得到相应的概率分布。3.如权利要求2所述的电子病历表型抽取、表型名称规范化方法，其特征在于，训练集中，采用IOBES标注格式进行表型实体标注，其中，每个表型命名实体开始的词标注为B；每个表型命名实体的中间和结尾分别标注为I和E；若表型实体为单个字符则标记为S；非表型实体的字符标记为O。4.如权利要求2所述的电子病历表型抽取、表型名称规范化方法，其特征在于，所述将字向量输入Bi-LSTM模型的步骤中，包括：按照一个方向的顺序，LSTM模型将字向量的每个元素输入，得到隐藏状态一，再按照与所述方向相反的方向的顺序，将字向量的每个元素输入，得到隐藏状态二，输出第一个Bi-LSTM层；其中，LSTM模型如下：it＝σ(Wxixt+Whiht-1+Wcict-1+bi)it＝(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)Ot＝σ(Wxoxt+Whoht-1+Wcoct+bo)it＝ot⊙tanh(ct)其中，σ是按元素的sigmoid函数，⊙是按元素乘法，tanh是双曲正切函数，it，ct，ot，ht分别代表t时刻的输入门参数，状态参数，输出门参数，输出值，xt是第t个时间步...

【专利技术属性】
技术研发人员：江瑞，黄浩，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人