当前位置: 首页 > 专利查询>清华大学专利>正文

电子病历表型抽取、表型名称规范化方法及系统技术方案

技术编号:20588875 阅读:37 留言:0更新日期:2019-03-16 07:09
本发明专利技术公开了一种电子病历表型抽取、表型名称规范化方法。该方法包括:表型抽取,将病历文本自然语句作为原始数据,采用Bi‑LSTM模型和CRF模型做命名实体识别,抽取出表型实体类;以及表型规范化,采用LSTM编码器对每个表型进行编码,计算病历中非标准表型的编码与标准表型编码的余弦相似度,将非标准表型映射到余弦相似度最高的表型。本发明专利技术还公开了一种电子病历表型抽取、表型名称规范化系统。本发明专利技术提高了电子病历中命名实体识别的准确率、召回正确率、以及对表型映射的准确率;免去了病历结构化过程中人工消耗,提高了病历结构化的效率;能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。

【技术实现步骤摘要】
电子病历表型抽取、表型名称规范化方法及系统
本专利技术涉及医疗文本数据处理
,特别是涉及一种基于深度学习的电子病历表型抽取、表型名称规范化方法及系统。
技术介绍
常规的医疗电子记录中,信息的主要载体是自然语言,比如,影像报告、用药记录、病程报告和病历检查报告等。可以说,这些自然语言文本蕴含着患者诊疗过程中的主要临床信息。一方面,近年来我国各级医院逐渐采用电子病案管理系统代替传统的手写病历,从而累积了越来越多的医疗电子记录。另一方面,随着以大数据、人工智能为代表的信息技术与医学的深度融合,催生了诸如精准医疗、临床决策支持、医学数据挖掘、疾病风险评估等一系列新的概念和方法。但是,这些新概念、新方法的实现高度依赖巨量的真实、准确、可靠的结构化的诊疗数据。遗憾的是,现实中的病历数据大都是非结构化的。正因为如此,将非结构化的医疗数据进行结构化成为一个必要而关键的步骤。考虑到数据量巨大,若依靠人工来进行结构化,其经济成本无疑将十分高昂。所以,利用计算机自动的从电子病历中提取结构化的临床信息是一种理性的选择。在电子病历结构化过程中,从病历文本提取并规范化患者的表型名称是一个关键问题。实际病历中一个表型或症状都可能有多个不同的同义词。比如“行走不稳”表型,它的规范名称是行走不稳,但是在真实病历中这一表型可能表述为:“行走晃动”、“走路不稳”、“走路摇晃”、“行走摇摆”等。将真实病历中出现的这些不规范的表型描述(“行走晃动”、“走路不稳”、“走路摇晃”,“行走摇摆”)映射到规范的表型名称(“行走不稳”)是病历结构化中必须解决的问题。表型提取和映射的准确性对于后续医疗数据分析流程有着基础性的影响。
技术实现思路
基于上述问题,本专利技术的目的在于提供一种基于深度学习的、电子病历电子病历表型抽取、表型名称规范化方法,可以自动的将病历中的表型或症状提取出来,并自动的映射到规范的表型名称,以提高病历结构化的准确性,免去了病历结构化过程中人工消耗,从而更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。本专利技术的另一目在于提供一种电子病历电子病历表型抽取、表型名称规范化系统。上述目的是通过以下技术方案实现的:根据本专利技术的一个方面,本专利技术提供的一种电子病历表型抽取、表型名称规范化方法,包括:表型抽取,将病历文本自然语句作为原始数据,采用Bi-LSTM(双向循环神经网络)模型和CRF(条件随机场)模型做命名实体识别,抽取出病历文本中的表型实体类;表型名称规范化,采用LSTM编码器对每个表型进行编码,计算待映射非标准表型编码与标准表型编码的余弦相似度,将待映射非标准表型映射到余弦相似度最高的表型。优选地,在表型抽取中,包括:通过Embedding(嵌入)层初始化,得到每个字符的字向量;将字向量输入Bi-LSTM模型,堆叠三层Bi-LSTM网络,得到输出值;采用CRF模型,根据所述输出值和预测标注,定义正确性分数,对所有可能的预测序列的正确分值做softmax变换,得到相应的概率分布。其中,训练集中,采用IOBES标注格式进行表型实体标注,每个表型命名实体开始的词标注为B;每个表型命名实体的中间和结尾分别标注为I和E;若表型实体为单个字符则标记为S;非表型实体的字符标记为O。优选地,所述将字向量输入Bi-LSTM模型的步骤中,包括:按照一个方向的顺序,LSTM模型将字向量的每个元素输入,得到隐藏状态一,再按照与所述方向相反的方向的顺序,将字向量的每个元素输入,得到隐藏状态二,输出第一个Bi-LSTM层;其中,LSTM模型如下:it=σ(Wxixt+Whiht-1+Wcict-1+bi)it=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)ot=σ(Wxoxt+Whoht-1+Wcoct+bo)it=ot⊙tanh(ct)其中,σ是按元素的sigmoid函数,⊙是按元素乘法,tanh是双曲正切函数,it,ct,Ot,ht分别代表t时刻的输入门参数,状态参数,输出门参数,输出值,xt是第t个时间步输入到模型的字向量。优选地,在CRF模型中,包括:将所述输出值变换为维度p×n的矩阵P的步骤,其中,p是不同种类标注的数量,n是输入句子的长度;所述矩阵P的第i行、第j列元素Pi,i为对单词xi的真实标签是j的可能性的估计。优选地,在CRF模型中,所述正确性分数s如下:其中,A是状态转移矩阵,Ayi,yi+1代表标注为yi的单词后面紧接着标注为yi+1的单词的转移值;yi是第i个字符的标注,yi+1是第i+1个字符的标注。所述概率分布如下:其中,YX代表,对于给定的输入序列X,所有可能的标注的序列的集合;训练CRF模型,为最大化正确序列的概率的对数;解码时,将得到最大正确性分值序列y*作为猜测输出:优选地,在表型名称规范化中,所述采用LSTM编码器对每个表型进行编码,包括:编码器训练步骤,所述编码器采用三层LSTM模型堆叠,且训练编码器时,模型的输出是输入语句向右侧滑动一个字符得到;以及表型编码步骤,将带编码的表型字符串,依次输入到编码器中,得到所述表型字符串所映射的目标向量。根据本专利技术的另一个方面,本专利技术提供的一种电子病历表型抽取、表型名称规范化系统,包括:表型抽取模块,通过Bi-LSTM模型和CRF模型,做命名实体识别,抽取得到表型实体类;编码模块,通过LSTM编码器对抽取出的每个表型进行编码;计算模块,用于计算待映射非标准表型编码和标准表型编码的余弦相似度;映射模块,用于将非标准表型映射到余弦相似度最高的表型,完成表型名称的规范化。优选地,所述编码模块,包括:编码器训练子模块:通过三层LSTM模型完成编码器的训练;表型的编码子模块:用于将带编码的表型字符串输入到编码器中,完成表型编码。有益效果:本专利技术基于深度学习的电子病历表型抽取、表型名称规范化方法及系统,通过采用Bi-LSTM模型和CRF模型做命名实体识别,进行表型实体类的抽取,提高了电子病历中命名实体识别的准确率以及召回正确率,经计算,对实体识别的准确率可达91.04%,召回正确率可以达到96.65%,f1=93.86%,f1表示准确率和召回率的调和平均数;通过采用LSTM编码器对每个表型进行编码,计算待映射非标准表型编码与标准表型编码的余弦相似度,将其待映射表型映射到余弦相似度最高的表型,完成表型名称的规范化,提高了对表型映射的准确率,经计算,对表型映射的准确率可达83.37%,MRR=0.9432,MRR即为平均倒数排名。本专利技术大大提高了病历结构化的效率,免去了病历结构化过程中人工消耗,从而能更高效和准确地服务于医学数据挖掘、临床决策支持、临床风险评估等。附图说明图1是本专利技术电子病历表型抽取、表型名称规范化方法的流程示意图;图2是本专利技术的一个实施例的表型规范化流程示意图;图3是本专利技术表型抽取的流程示意图;图4是本专利技术表型实体标注的流程示意图;图5是本专利技术表型规范化映射的结构示意图;图6是本专利技术编码器训练的流程示意图;图7是本专利技术表型编码的流程示意图;图8是本专利技术电子病历表型抽取、表型名称规范化系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述:如图8所示,本专利技术电子病历表型抽取、表型本文档来自技高网
...

【技术保护点】
1.一种电子病历表型抽取、表型名称规范化方法,其特征在于,包括:表型抽取,将病历文本自然语句作为原始数据,采用Bi‑LSTM模型和CRF模型做命名实体识别,抽取出病历文本中的表型实体类;表型名称规范化,采用LSTM编码器对每个表型进行编码,计算非标准表型编码与标准表型编码的余弦相似度,将非标准表型映射到余弦相似度最高的标准表型。

【技术特征摘要】
1.一种电子病历表型抽取、表型名称规范化方法,其特征在于,包括:表型抽取,将病历文本自然语句作为原始数据,采用Bi-LSTM模型和CRF模型做命名实体识别,抽取出病历文本中的表型实体类;表型名称规范化,采用LSTM编码器对每个表型进行编码,计算非标准表型编码与标准表型编码的余弦相似度,将非标准表型映射到余弦相似度最高的标准表型。2.如权利要求1所述的电子病历表型抽取、表型名称规范化方法,其特征在于,在表型抽取中,包括:通过Embedding层初始化,得到每个字符的字向量;将字向量输入Bi-LSTM模型,堆叠三层Bi-LSTM网络,得到输出值;采用CRF模型,根据所述输出值和预测标注,定义正确性分数,对所有可能的预测序列的正确分值做softmax变换,得到相应的概率分布。3.如权利要求2所述的电子病历表型抽取、表型名称规范化方法,其特征在于,训练集中,采用IOBES标注格式进行表型实体标注,其中,每个表型命名实体开始的词标注为B;每个表型命名实体的中间和结尾分别标注为I和E;若表型实体为单个字符则标记为S;非表型实体的字符标记为O。4.如权利要求2所述的电子病历表型抽取、表型名称规范化方法,其特征在于,所述将字向量输入Bi-LSTM模型的步骤中,包括:按照一个方向的顺序,LSTM模型将字向量的每个元素输入,得到隐藏状态一,再按照与所述方向相反的方向的顺序,将字向量的每个元素输入,得到隐藏状态二,输出第一个Bi-LSTM层;其中,LSTM模型如下:it=σ(Wxixt+Whiht-1+Wcict-1+bi)it=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)Ot=σ(Wxoxt+Whoht-1+Wcoct+bo)it=ot⊙tanh(ct)其中,σ是按元素的sigmoid函数,⊙是按元素乘法,tanh是双曲正切函数,it,ct,ot,ht分别代表t时刻的输入门参数,状态参数,输出门参数,输出值,xt是第t个时间步...

【专利技术属性】
技术研发人员:江瑞黄浩
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1