The present invention provides a multi-label classification method for electronic medical records based on symptom extraction and feature representation. Considering the influence of the relationship between disease and symptoms and symptoms on the multi-label classification of electronic medical records, two different symptoms representation methods are adopted: using TF IDF to construct symptoms vector and using Word2vec to learn symptoms vector. Two symptoms vector sequences extracted from electronic medical records are used as input sequences of the two bidirectional LSTM models, and two bidirectional LSTM models are trained. For electronic medical records with unknown disease labels, two symptoms vector sequences corresponding to the symptoms extracted from them are constructed, and two trained bidirectional LSTM models are input to obtain two probability vectors. The final classification vectors are obtained by weighting the two probability vectors. This method has good classification effect and applicability.
【技术实现步骤摘要】
基于症状提取和特征表示的电子病历多标签分类方法
本专利技术属于医疗大数据分析领域,具体涉及一种基于症状提取和特征表示的电子病历多标签分类方法。
技术介绍
电子病历(ElectronicMedicalRecord,EMR)的多标签分类是医学应用领域中的一项重要任务,其目的是基于电子病历中的症状、检验检测指标、药物、文本等信息自动为电子病历生成疾病标签,不仅可以节省大规模电子病历管理维护的成本,还可以为医学知识挖掘及应用提供便利。基于电子病历的多标签分类也可用于辅助诊断系统、医院导诊系统,极大的提高医生工作效率和缩短病人就诊时间。电子病历的多标签分类依赖于从病历文本中提取的特征,目前存在的方法有基于整个文本信息的,但全文本数据存在大量冗余信息影响分类效果;也有基于文本中记录的检验检测指标、临床数据、医疗编码以及药物等指标信息,但是由于部分电子病历缺乏相关信息,使得这些方法无法使用。因此,有必要提供一种分类效果和适用性好的电子病历分类方法。
技术实现思路
本专利技术所解决的技术问题是,针对现有技术的不足,提供一种基于症状提取和特征表示的电子病历多标签分类方法,分类效果和适用性好。本专利技术的技术方案为:基于症状提取和特征表示的电子病历多标签分类方法,包括以下步骤:步骤1、获取已知疾病标签的电子病历集合作为样本集;步骤2、从样本集中提取症状序列(所有的症状构成的序列);将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数(若从一个样本中提取出了症状i,且该样本带有疾病标 ...
【技术保护点】
1.基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,包括以下步骤:步骤1、获取已知疾病标签的电子病历集合作为样本集;步骤2、从样本集中提取症状序列;将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数,并根据统计数据使用TF‑IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:首先从其中提取症状序列;然后对 ...
【技术特征摘要】
1.基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,包括以下步骤:步骤1、获取已知疾病标签的电子病历集合作为样本集;步骤2、从样本集中提取症状序列;将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数,并根据统计数据使用TF-IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;步骤5、训练两个双向LSTM模型;训练过程为:将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。