本发明专利技术公开了一种基于集成学习的癌症预测系统,属于生物科学领域,包括:特征提取模块,用于对研究数据集中的样本进行特征提取,研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本;训练优化模块,用于对分类器进行训练,并在模型训练过程中对支持向量机参数进行优化,进而得到基分类器;集成模块,用于将完成训练的多个基分类器进行集成,得到用于对癌症发病风险进行预测的异态分类器。本发明专利技术对研究数据集中样本特征进行提取,提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系,并进行基分类器的优化,最终搭建用于对癌症发病风险进行预测的异态分类器,以此大大提升分类器的预测准确度。提升分类器的预测准确度。提升分类器的预测准确度。
【技术实现步骤摘要】
基于集成学习的癌症预测系统
[0001]本专利技术涉及生物科学领域,尤其涉及一种基于集成学习的癌症预测系统。
技术介绍
[0002]癌症作为当前医学领域最难克服的疾病之一,已经有了很长的研究历史。而随着计算机科学技术的不断发展,采用大数据来分析当前医学领域的大量病患数据已经成为了当前研究的主流。而在如今的数据挖掘研究当中,采用各类机器学习算法对大数据进行切分处理,提取关键特征数据并搭建数学模型也成为了最为热门的方法之一;在更深层次的研究当中,计算机根据医学C
‑
T图像对患癌的病人图片进行深度学习挖掘,通过搭建人工神经网络来学习癌症病理特征的分布以及肿瘤构成形状,通过研究反馈给医生,并做出更加准确的医疗判断。机器学习当中经典的分类预测模型包括决策树、支持向量机等算法,能够准确对病理数据进行分析。深度学习中的人工神经网络,自适应神经网络等算法能够搭建更加复杂的肿瘤分析网络完成更加深度的分析,得到更细致的分析结论。在生物科学研究领域,对于生物基因的研究也促进了癌症诱导因素的分析发展,而当前的研究当中主要是对可表达蛋白质对生物的影响,以及编码类基因对癌症细胞构成研究。
[0003]在计算机领域,通过经典的机器学习算法进行大数据的分类预测在股票领域、房地产领域都取得了可观的效果,然而上述算法由于数据的局限性普适度不高,直接将其思想分析癌症肿瘤数据不能取得好的预测分析效果。深度学习方法由于其复杂的网络结构只能对医学图像进行深度分析,且对算力要求高,难以实现。在医学研究领域,通常对病患的数据分析采用传统的统计学进行分析归类,该类数学方法计算复杂度大,计算量大,根据研究结果,传统的医学方法分析并不能提供给医生实质性的做出医学判断的数据支持。总结其缺陷与不足可以分为以下几点:(1)当前传统的机器学习分类预测方法提取的病理特征不能充分显示出与胃癌肿瘤发生的潜在联系,导致预测准确率低;(2)自适应神经网络等深度学习算法搭建要求高的计算性能,难以普及在医学的常规研究当中,只能分析特定的医学C
‑
T图像。
技术实现思路
[0004]本专利技术的目的在于克服现有技术的问题,提供了一种基于集成学习的癌症预测系统。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于集成学习的癌症预测系统,系统具体包括:特征提取模块,用于对研究数据集中的样本进行特征提取,研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本;训练优化模块,用于将特征提取模块提取的特征信息作为输入数据集,对分类器进行训练,并在模型训练过程中对支持向量机参数进行优化,进而得到基分类器;
集成模块,用于将完成训练的多个基分类器进行集成,得到用于对癌症发病风险进行预测的异态分类器。
[0006]在一示例中,所述特征提取模块基于Relief算法对研究数据集中的样本进行特征提取。
[0007]在一示例中,所述特征提取模块进行特征提取包括:基于Relief算法对研究数据集中的样本进行特征提取得到初始相关性排序数据集;采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析,进而将高影响度特征聚类为高相关度聚类组,并将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组,将高相关度聚类组作为输入数据集。
[0008]在一示例中,所述采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析包括:基于熵准则进行聚类不确定性估计;搭建局部加权法细化协关联矩阵;进行局部加权证据积累;同时,进行局部加权图划分;输出共识聚类分组,得到高相关度聚类组。
[0009]在一示例中,所述搭建局部加权法细化协关联矩阵前还包括:衡量聚类相对于M个基聚类集合的不确定性,得到集合驱动聚类索引;在局部加权图划分中,根据集合驱动聚类索引值确定节点链路间的权重值。
[0010]在一示例中,所述系统还包括参数优化模块,用于优化支持向量机参数,包括:采用粒子群算法优化支持向量机参数,进而得到最优支持向量机基分类器。
[0011]在一示例中,所述系统还包括训练模块,用于对多个基分类器进行训练。
[0012]在一示例中,所述基于集成模块将多个基分类器进行集成包括:将基分类器通过参数变化的融合方式集成为XGBoost的同态集成分类器;比较各类同态集成分类器的错误率;根据错误率的高低赋予不同权重;将同态分类器进行集成,最终合并搭建异态集成分类器。
[0013]需要进一步说明的是,上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。
[0014]与现有技术相比,本专利技术有益效果是:1.在一示例中,本专利技术研究数据集包括生活习惯样本、环境因素样本、体检报告样本,对上述样本特征进行提取,提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系,并进行基分类器的优化,最终搭建用于对癌症发病风险进行预测的异态分类器,以此大大提升分类器的预测准确度,提升了对癌症发病倾向探究效率。同时,本专利技术算法实现计算复杂度低,无需搭建复杂的人工神经网络,也无需对庞大数据集进行高梯度的计算,对计算机硬件的要求较低,易于在医学领域复现。
[0015]2.在一示例中,通过Relief算法进行样本特征提取,能够根据病人的生活习惯、环境因素、体检报告等数据进行类近邻的差异度分析,并根据特征之间的差异度进行权重赋值,再根据赋值权重的大小对样本与胃癌相关度进行排序,最终获取到与癌症相关度最高
的初步样本特征,以此保证癌症发病风险预测的准确度。
[0016]3.在一示例中,采用局部加权聚类的方法对初始提取排序后的胃癌数据集进行聚类分析,将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组,考虑了中影响度以及部分低影响度但与高影响度特征的产生密切相关病理特征,即实现了对高影响度特征的补充,充分挖掘出与癌症相关度高的病例特征,为后续风险预测提供了可靠的数据支撑。
附图说明
[0017]下面结合附图对本专利技术的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
[0018]图1为本专利技术一示例中的聚类分析方法流程图;图2为本专利技术癌症预测系统优选示例对应的执行过程图;图3为本专利技术胃癌预测中粒子群优化算法计算最优分布点结论图;图4为本专利技术胃癌预测中异态分类模型设置图;图5为本专利技术胃癌预测中分类模型分类效果实验结果图;图6为本专利技术胃癌预测中异态分类模型的性能仿真图;图7为本专利技术胃癌预测中各分类模型的癌症预测性能实验结果图。
具体实施方式
[0019]下面结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]在本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于集成学习的癌症预测系统,其特征在于:系统包括:特征提取模块,用于对研究数据集中的样本进行特征提取,研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本;训练优化模块,用于将特征提取模块提取的特征信息作为输入数据集,对分类器进行训练,并在模型训练过程中对支持向量机参数进行优化,进而得到基分类器;集成模块,用于将完成训练的多个基分类器进行集成,得到用于对癌症发病风险进行预测的异态分类器。2.根据权利要求1所述基于集成学习的癌症预测系统,其特征在于:所述特征提取模块基于Relief算法对研究数据集中的样本进行特征提取。3.根据权利要求2所述基于集成学习的癌症预测系统,其特征在于:所述特征提取模块进行特征提取包括:基于Relief算法对研究数据集中的样本进行特征提取得到初始相关性排序数据集;采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析,进而将高影响度特征聚类为高相关度聚类组,并将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组,将高相关度聚类组作为输入数据集。4.根据权利要求3所述基于集成学习的癌症预测系统,其特征在于:所述采用局部加权聚类...
【专利技术属性】
技术研发人员:周永,付锦涛,李林涛,郑德生,刘建超,温冬,田序伟,尚小磊,李晓瑜,
申请(专利权)人:西南石油大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。