一种基于机器学习的新冠肺炎数据处理方法及预测系统技术方案

技术编号:25227455 阅读:98 留言:0更新日期:2020-08-11 23:15
本发明专利技术属于医学疾病预测技术领域,公开了一种基于机器学习的新冠肺炎数据处理方法及预测系统,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;采用得到的特征数据以及原始病例数据中的轻重症情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利在训练数据上进行训练;利用测试数据对训练后的方法进行测试,最终得到新冠肺炎症状数据处理方法,并与其他机器学习预测方法进行比较。本发明专利技术提供的新冠肺炎数据处理方法可以筛选出与新冠肺炎病情相关性较大的属性,具有较好的准确性和有效性。

【技术实现步骤摘要】
一种基于机器学习的新冠肺炎数据处理方法及预测系统
本专利技术属于医学疾病预测
,尤其涉及一种基于机器学习的新冠肺炎数据处理方法及预测系统。
技术介绍
以计算机技术为依托,采用机器学习方法对新型冠状病毒肺炎病例数据进行预测分析,可以帮助医护人员快速准确地分辨病例的轻重症,发挥计算机技术战“疫”价值。朴素贝叶斯(NaiveBayes)分类器发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时所需估计的参数很少,对缺失数据不太敏感,也比较简单。理论上,朴素贝叶斯方法与其他分类方法相比具有最小的误差率。朴素贝叶斯方法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类方法会有较好的效果。通过上述分析,现有技术存在的问题及缺陷为:(1)现有技术,结合计算机对新冠肺炎轻重症数据进行预测准确性差。目前新冠肺炎病例数据样本不多,病情复杂,人们对其认识不够充分,经验不足,现有技术大多依赖已有经验,因此难以对其进行准确的预测。(2)现有技术,结合计算机对新冠肺炎轻重症数据本文档来自技高网...

【技术保护点】
1.一种新冠肺炎症状轻重预测系统,其特征在于,所述新冠肺炎症状轻重预测系统包括:/n病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;/n数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;/n新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,得到新冠肺炎症状预测数据,并与其他机器学习预测方法进行比较。/n

【技术特征摘要】
1.一种新冠肺炎症状轻重预测系统,其特征在于,所述新冠肺炎症状轻重预测系统包括:
病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用NaiveBayes方法在训练数据上进行训练;
新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,得到新冠肺炎症状预测数据,并与其他机器学习预测方法进行比较。


2.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述病例数据特征获取模块包括:
填充缺失值模块,用于对新冠肺炎的医学病例数据集中的部分缺失值使用气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据的平均值作为填充数据进行填充;
特征选择模块,用于计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。


3.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述数据训练模块包括:
类别条件概率估计模块,通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计;
特征属性条件概率估计模块,用于计算各类别下每个特征属性的条件概率估计;
类别条件概率计算模块,用于计算每个类别;
预测类别模块,用于概率值最大的类别即为预测样本的预测类别。


4.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述新冠肺炎症状预测数据获取模块包括:
测试模块,利用训练后的NaiveBayes预测方法在测试数据上进行测试,并计算精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为评价指标;
预测结果比较模块,用于对KNN、XGB、MLP、DecisionTree机器学习预测方法得到的训练数据,与NaiveBayes方法的预测结果进行比较。


5.一种基于机器学习的新冠肺炎数据处理方法,其特征在于,所述基于机器学习的新冠肺炎数据处理方法包括以下步骤:
步骤一,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤二,采用步骤一得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用NaiveBayes方法在训练数据上进行训练;
步骤三,利用测试数据对训练后的NaiveBayes预测方法进行测试,并与其他机器学习预测方法进行比较。


6.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法,其特征在于,所述步骤一中,新冠肺炎的医学病例数据集的属性特征包括气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据;
所述填充缺失值的方法为:
对缺失值使用该属...

【专利技术属性】
技术研发人员:樊俊青曹元奎李婕陈云亮刘传礼杨红丽芮法娟张思敏李建新
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1