当前位置: 首页 > 专利查询>中南大学专利>正文

基于症状提取和特征表示的电子病历多标签分类方法技术

技术编号:20566672 阅读:15 留言:0更新日期:2019-03-14 09:28
本发明专利技术提供了一种基于症状提取和特征表示的电子病历多标签分类方法,考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响,采用两种不同的症状表征方法:使用TF‑IDF构建症状向量以及使用word2vec学习症状向量。将从电子病历中抽取的两种症状向量序列分别作为所述两个双向LSTM模型的输入序列,训练两个双向LSTM模型;对于未知疾病标签的电子病历,将从其中提取的症状对应的两种症状向量构成两种症状向量序列,分别输入两个训练好的双向LSTM模型,得到两个概率向量;对两个概率向量进行加权组合,得到最终的分类向量。本方法分类效果和适用性好。

Multi-label classification of electronic medical records based on symptom extraction and feature representation

The present invention provides a multi-label classification method for electronic medical records based on symptom extraction and feature representation. Considering the influence of the relationship between disease and symptoms and symptoms on the multi-label classification of electronic medical records, two different symptoms representation methods are adopted: using TF IDF to construct symptoms vector and using Word2vec to learn symptoms vector. Two symptoms vector sequences extracted from electronic medical records are used as input sequences of the two bidirectional LSTM models, and two bidirectional LSTM models are trained. For electronic medical records with unknown disease labels, two symptoms vector sequences corresponding to the symptoms extracted from them are constructed, and two trained bidirectional LSTM models are input to obtain two probability vectors. The final classification vectors are obtained by weighting the two probability vectors. This method has good classification effect and applicability.

【技术实现步骤摘要】
基于症状提取和特征表示的电子病历多标签分类方法
本专利技术属于医疗大数据分析领域,具体涉及一种基于症状提取和特征表示的电子病历多标签分类方法。
技术介绍
电子病历(ElectronicMedicalRecord,EMR)的多标签分类是医学应用领域中的一项重要任务,其目的是基于电子病历中的症状、检验检测指标、药物、文本等信息自动为电子病历生成疾病标签,不仅可以节省大规模电子病历管理维护的成本,还可以为医学知识挖掘及应用提供便利。基于电子病历的多标签分类也可用于辅助诊断系统、医院导诊系统,极大的提高医生工作效率和缩短病人就诊时间。电子病历的多标签分类依赖于从病历文本中提取的特征,目前存在的方法有基于整个文本信息的,但全文本数据存在大量冗余信息影响分类效果;也有基于文本中记录的检验检测指标、临床数据、医疗编码以及药物等指标信息,但是由于部分电子病历缺乏相关信息,使得这些方法无法使用。因此,有必要提供一种分类效果和适用性好的电子病历分类方法。
技术实现思路
本专利技术所解决的技术问题是,针对现有技术的不足,提供一种基于症状提取和特征表示的电子病历多标签分类方法,分类效果和适用性好。本专利技术的技术方案为:基于症状提取和特征表示的电子病历多标签分类方法,包括以下步骤:步骤1、获取已知疾病标签的电子病历集合作为样本集;步骤2、从样本集中提取症状序列(所有的症状构成的序列);将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数(若从一个样本中提取出了症状i,且该样本带有疾病标签j,则认为症状i与疾病标签j存在一次映射关系),并根据统计数据使用TF-IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;步骤5、训练两个双向LSTM(LongShort-TermMemory,长短期记忆)模型;训练过程为:将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;每一个训练好的双向LSTM模型的输出都是一个概率向量,表示与输入的症状向量序列相应的电子病历与各种疾病标签相关的概率;步骤6、对于未知疾病标签的电子病历,首先构建其对应的第一症状向量序列和第二症状向量序列(按步骤4中的方法);再将其对应的第一症状向量序列和第二症状向量序列分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后,对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病标签相关的概率。进一步地,所述步骤1中,从MIMIC-III数据集中获取出院总结作为样本。进一步地,所述步骤2和步骤5中,基于Metamap工具从电子病历中提取症状序列。进一步地,基于Metamap工具从电子病历中提取症状序列前,先根据电子病历各部分的标题过滤掉不包含症状信息的部分,然后使用MetaMap处理,方法为:首先根据语义类型过滤掉与症状无关的实体,筛选出症状实体,再根据上下文环境从筛选出的症状实体中过滤掉在否定语境中的症状实体,从而提取出症状序列。进一步地,所述步骤2中,第一症状向量x1i=(Wi,1,Wi,2,...,Wi,N),其中Wi,j表示症状i和疾病标签j之间的关联强度,N为所有疾病标签的数量,Di为与症状i存在映射关系的疾病标签数量,TFi,j为带有疾病标签j的电子病历中症状i出现的次数。进一步地,所述步骤3中,先对电子病历文本进行预处理,去除文本中的停用词,再基于预处理后的文本训练word2vec模型。进一步地,所述步骤6中,对两个概率向量进行加权组合计算最终的分类向量时,两个概率向量的权重均设置为0.5。本专利技术基于从电子病历中抽取的症状序列并结合两种症状表示方法进行病历的多标签分类。该方法考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响采用两种不同的症状表征方法:使用TF-IDF构建症状向量以及使用word2vec学习症状向量。为了更好的从症状序列中提取特征,本专利技术结合两种症状向量构建方法使用双向LSTM对症状序列建模,LSTM模型能够处理不同长度的症状序列。本方法不仅避免了文本数据的冗余信息对多标签分类的影响,还解决了在检验检测信息等指标缺失的情况下将多标签分类方法应用于疾病辅助诊断的问题。以下对各主要步骤进行详细说明。一、症状的提取临床记录中文本记录了患者病情,然而,由于文本中语句的多样性和句法的多样性,很难从语料库中准确提取症状。比如,“breathwithdifficulty”、“difficultbreathing”和“dyspnea”均为呼吸困难的意思。书写表达的不规范也给症状的识别带来了困难。在抽取症状时,应注意症状的不规则性和陈诉的多样性。为了提高抽取症状实体的效率和准确率,使用现有的技术,如NLTK和MetaMap。NLTK是一个用于符号统计和自然语言处理的工具包。MetaMap则用于在文本中识别统一医学语言系统(UMLS)中所包含的实体。UMLS包含超过100万个生物医学实体和500万个实体名称,每个实体都有语义类型,如临床属性、符号或症状、临床药物等。MetaMap的重要特性是它可以识别UMLS中实体的变体和首字母缩写。为了提高MetaMap的正确性和有效性,本专利技术对医学文本中没有症状实体的部分以及在否定语境中的症状实体进行了过滤。在MIMIC-III中电子病历分为护士笔记、出院总结等不同类型,本专利技术使用了出院总结。MIMIC-III中每个出院总结都有其对应的疾病标签即ICD-9标签。从MIMIC-III数据集中的出院总结中提取所有症状实体。虽然电子病历是无结构的文本,但是MIMIC-III的出院总结被划分为不同的部分,每个部分都有相关的标题,如本文档来自技高网...

【技术保护点】
1.基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,包括以下步骤:步骤1、获取已知疾病标签的电子病历集合作为样本集;步骤2、从样本集中提取症状序列;将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数,并根据统计数据使用TF‑IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;步骤5、训练两个双向LSTM模型;训练过程为:将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;每一个训练好的双向LSTM模型的输出都是一个概率向量,表示与输入的症状向量序列相应的电子病历与各种疾病标签相关的概率;步骤6、对于未知疾病标签的电子病历,首先构建其对应的第一症状向量序列和第二症状向量序列;再将其对应的第一症状向量序列和第二症状向量序列分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后,对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病标签相关的概率。...

【技术特征摘要】
1.基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,包括以下步骤:步骤1、获取已知疾病标签的电子病历集合作为样本集;步骤2、从样本集中提取症状序列;将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数,并根据统计数据使用TF-IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;步骤5、训练两个双向LSTM模型;训练过程为:将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;...

【专利技术属性】
技术研发人员:李敏郭东霖卢长利
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1