一种基于迁移学习的医学数据处理和系统技术方案

技术编号:18914767 阅读:27 留言:0更新日期:2018-09-12 03:22
本发明专利技术公开了一种基于迁移学习的医学数据处理和系统,包括:获取医学领域外的本文数据,训练得到文本分类模型;获取医学领域内的病例集合,其中病例集合包含症状和标签,标签为症状对应的病症;使用文本分类模型提取症状的特征向量作为症状向量,并根据症状对应的病症类型,将标签转化为标签向量;通过集合症状向量及其对应的标签向量,构建多标签训练样本集,根据多标签训练样本集,训练得到多标签分类模型;将待分析的医学样本输入至多标签分类模型,判断医学样本属于每一种标签的概率值,并根据概率值得到分析标签集合,作为医学样本的分析结果。由此本发明专利技术通过迁移学习避免了人工选择特征的缺点,提高了基于门诊病例的医学疾病预测准确率。

A medical data processing and system based on Transfer Learning

The invention discloses a medical data processing and system based on transfer learning, which includes: acquiring the text data outside the medical field, training to obtain a text classification model; acquiring a case set in the medical field, in which the case set contains symptoms and labels, labeled as symptoms corresponding to the disease; and using a text classification model to extract The feature vectors of symptoms are taken as the symptom vectors, and the labels are transformed into label vectors according to the corresponding symptoms. A multi-label training sample set is constructed by collecting the symptom vectors and corresponding label vectors, and the multi-label classification model is trained according to the multi-label training sample set. In this model, the probability value of medical samples belonging to each kind of label is judged, and the set of analysis labels is obtained according to the probability value as the analysis result of medical samples. The invention avoids the disadvantage of artificially selecting features by migration learning, and improves the accuracy of medical disease prediction based on outpatient cases.

【技术实现步骤摘要】
一种基于迁移学习的医学数据处理和系统
本专利技术涉及医学疾病分析及机器学习领域,特别涉及一种基于迁移学习的医学数据处理和系统。
技术介绍
随着人工智能和机器学习的不断发展和广泛应用,临床辅助决策支持系统被提出用于,根据患者信息,依靠机器学习分析模型对病情进行预测分析,可以帮助医生在临床分析决策过程中更高效、更快捷地运用复杂医学知识处理各种医学问题。医学疾病预测模型是智能辅助分析系统的核心挑战之一,可分为基于规则的专家模型、基于统计知识的统计分析模型和基于机器学习的预测模型。论文(ShortliffeE.H.Computer-basedmedicalconsultations:MYCIN.Elsevier.1976,85(6):iii.)提出了基于规则的辅助医疗分析系统MYCIN,总结了400多种体现专家分析疾病的规则,用于鉴别细菌感染并提供治疗方案,虽然具有一定的效果,但是基于规则的专家模型需要大量的专家构建规则库,维护成本高且拓展性不好。IBMWatson医疗辅助分析系统通过对医学文献进行统计分析以帮助医生进行决策,统计学习知识被运用到医学数据处理中,从而解决专家系统存在的问题。但是基于统计知识的统计分析模型依赖大量的数据支持,导致模型在某些数据量小的疾病上效果不理想。基于机器学习的预测模型将疾病分析看作是分类预测问题,提高了医学疾病分析模型的准确度,另一方面,基于大量样本的深度神经网络(DeepNeuralNetworks,DNN)的提出更加提高了某些疾病的预测准确率。然而,一些医学疾病具有样本数量少的特点,即疾病的病例数量相对很少,或者收集非常困难,以至于很难训练出理想的机器学习模型。某些医学疾病具有收集困难和发病率小的问题,导致很难有大量的样本用于深度神经网络训练,从而很难训练得到本领域内具有很强分析性能的模型。近些年,深度卷积神经网络模型(DeepConvolutionalNeuralNetwork,DCNN)在图像分类、人脸识别取得了十分高的精确度,其中一个重要的手段就是迁移学习,目的是将在源领域数据集上训练的模型运用到新的目标领域中,从而提高目标领域任务的准确度。迁移学习通过将源领域训练过程中产生的知识(模型,参数等)保存下来,从而将源领域知识运用到目标领域任务中。
技术实现思路
本专利技术针对目前医学疾病分析模型存在的样本不足特点,设计了一种基于迁移学习的医学数据处理和系统,包括构建基于迁移学习的医学疾病分析模型,首先在大规模源数据集上训练具有多标签的文本分类模型,将模型作为特征提取器用于医学病例的文本语义特征提取,从而构建具有源领域语义特征的训练集,进而根据训练集训练多标签分类器,实现目标领域的医学疾病分析预测。具体地说,本专利技术公开了一种基于迁移学习的医学数据处理,其中包括:步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。该迁移学习的医学数据处理,其中该步骤4具体包括:将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。该迁移学习的医学数据处理,其中该步骤4还包括:针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。该迁移学习的医学数据处理,其中该步骤4还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该步骤5包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。该迁移学习的医学数据处理,其中该单标签分类模型为二分类模型。本专利技术还提出了一种基于迁移学习的医学分析系统,其中包括:第一训练模块,用于获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;病例获取模块,用于获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;特征向量提取模块,使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;第二训练模块,用于通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;分析模块,用于将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。该迁移学习的医学分析系统,其中该第二训练模块具体包括:将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。该迁移学习的医学分析系统,其中该第二训练模块还包括:针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。该迁移学习的医学分析系统,其中该第二训练模块还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该分析模块包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。该迁移学习的医学分析系统,其中该单标签分类模型为二分类模型。由此本专利技术针对医学疾病预测问题,提出基于迁移学习的医学数据处理与系统,目标是提取医学门诊病例的语义特征表示,以避免人工选择特征的缺点,提高基于门诊病例的医学疾病预测准确率。附图说明图1为本专利技术抽取门诊病例语义特征表示示意图。具体实施方式为让本专利技术的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。本专利技术提出的医学数据处理方法和系统可应用于医学教育领域,输入医学病例或者症状,便可知其对应的病症,本专利技术具体包括:步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。其中步骤2还包括获取医学门诊病例的语义特征表示,构造样本数据集,其实现方法如下:步骤21.给定真实医学门诊病例集合Case={(S1,L1),(S2,L2),…,(SN,LN)},Si是第本文档来自技高网
...

【技术保护点】
1.一种基于迁移学习的医学数据处理,其特征在于,包括:步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。

【技术特征摘要】
1.一种基于迁移学习的医学数据处理,其特征在于,包括:步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。2.如权利要求1所述的迁移学习的医学数据处理,其特征在于,该步骤4具体包括:将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。3.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该步骤4还包括:针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。4.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该步骤4还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该步骤5包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。5.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该单标签分类模型为二分类模型。6.一种基于迁移学习的医学分析系统...

【专利技术属性】
技术研发人员:陈旭胡满满商显震孙毓忠
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1