The invention discloses a medical data processing and system based on transfer learning, which includes: acquiring the text data outside the medical field, training to obtain a text classification model; acquiring a case set in the medical field, in which the case set contains symptoms and labels, labeled as symptoms corresponding to the disease; and using a text classification model to extract The feature vectors of symptoms are taken as the symptom vectors, and the labels are transformed into label vectors according to the corresponding symptoms. A multi-label training sample set is constructed by collecting the symptom vectors and corresponding label vectors, and the multi-label classification model is trained according to the multi-label training sample set. In this model, the probability value of medical samples belonging to each kind of label is judged, and the set of analysis labels is obtained according to the probability value as the analysis result of medical samples. The invention avoids the disadvantage of artificially selecting features by migration learning, and improves the accuracy of medical disease prediction based on outpatient cases.
【技术实现步骤摘要】
一种基于迁移学习的医学数据处理和系统
本专利技术涉及医学疾病分析及机器学习领域,特别涉及一种基于迁移学习的医学数据处理和系统。
技术介绍
随着人工智能和机器学习的不断发展和广泛应用,临床辅助决策支持系统被提出用于,根据患者信息,依靠机器学习分析模型对病情进行预测分析,可以帮助医生在临床分析决策过程中更高效、更快捷地运用复杂医学知识处理各种医学问题。医学疾病预测模型是智能辅助分析系统的核心挑战之一,可分为基于规则的专家模型、基于统计知识的统计分析模型和基于机器学习的预测模型。论文(ShortliffeE.H.Computer-basedmedicalconsultations:MYCIN.Elsevier.1976,85(6):iii.)提出了基于规则的辅助医疗分析系统MYCIN,总结了400多种体现专家分析疾病的规则,用于鉴别细菌感染并提供治疗方案,虽然具有一定的效果,但是基于规则的专家模型需要大量的专家构建规则库,维护成本高且拓展性不好。IBMWatson医疗辅助分析系统通过对医学文献进行统计分析以帮助医生进行决策,统计学习知识被运用到医学数据处理中,从而解决专家系统存在的问题。但是基于统计知识的统计分析模型依赖大量的数据支持,导致模型在某些数据量小的疾病上效果不理想。基于机器学习的预测模型将疾病分析看作是分类预测问题,提高了医学疾病分析模型的准确度,另一方面,基于大量样本的深度神经网络(DeepNeuralNetworks,DNN)的提出更加提高了某些疾病的预测准确率。然而,一些医学疾病具有样本数量少的特点,即疾病的病例数量相对很少,或者收集非常困难, ...
【技术保护点】
1.一种基于迁移学习的医学数据处理,其特征在于,包括:步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。
【技术特征摘要】
1.一种基于迁移学习的医学数据处理,其特征在于,包括:步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。2.如权利要求1所述的迁移学习的医学数据处理,其特征在于,该步骤4具体包括:将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。3.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该步骤4还包括:针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。4.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该步骤4还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该步骤5包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。5.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该单标签分类模型为二分类模型。6.一种基于迁移学习的医学分析系统...
【专利技术属性】
技术研发人员:陈旭,胡满满,商显震,孙毓忠,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。