基于遗传算法和决策树的健康状况预测方法技术

技术编号:29407849 阅读:19 留言:0更新日期:2021-07-23 22:47
本发明专利技术公开了一种基于遗传算法和决策树的健康状况预测方法,其可使模型精确度和模型大小获得平衡,在保证性能的同时,可提高预测效率,该方法基于健康状况相关数据进行,并利用了遗传算法和决策树模型实现,该方法包括:将训练集作为决策树模型的输入数据,对决策树模型进行训练,决策树模型的超参数种群初始化,超参数种群包括若干个超参数,采用交叉验证方式对决策树模型进行评估,判断决策树模型是否满足条件,若满足则返回评估结果,若不满足,则进入下一步骤,采用交叉算子和变异算子对决策树模型的父代决策树进行选择,子代决策树生成,对子代决策树进行评估,利用子代决策树获得的超参数作为预测健康状况的超参数。

【技术实现步骤摘要】
基于遗传算法和决策树的健康状况预测方法
本专利技术涉及机器学习
,具体为一种基于遗传算法和决策树的健康状况预测方法。
技术介绍
随着人们对生命活动理解的深入,以及对疾病发生、发展的认知和干预技术水平的提高,人们对自身的健康状态越来越重视,但现有技术中,尤其在医学健康领域,人们对自己是健康状态还是亚健康状态并不了解,人们对自身疾病或非疾病状态的了解来自定期的医疗机构体检报告,对于非医学人员,面对体检结果没达到疾病程度的指标往往缺乏简单有效的判断,无法对其自身的健康状况进行有效预测。随着机器学习技术的发展,以及人们对健康状况的研究,遗传算法和决策树算法被应用于人口健康状况的预测中,但现有的遗传算法和决策树算法存在结构复杂、性能低等问题。遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,该方法以一个群体中的所有个体为对象,并利用随机化技术指导对一个被编码的参数空间进行高效搜索,其中,搜索操作方式包括选择、交叉和变异,核心内容包括:参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定。该方法的主要特点是:(1)直接对结构对象进行操作,不存在求导和函数连续性的限定;(2)具有内在的隐性并行性和更好的全局寻优能力;(3)采用概率化的寻优方法,不需要确定的规则就能自动获取和指导优化搜索空间,自适应地调整搜索方向。遗传算法能够自我迭代,让它本身系统内的东西进行优胜劣汰的自然选择,把好的保留下来,次一点的东西就排除掉,其本质是优胜劣汰,选出最优秀的个体,寻找最优解。实际工程应用中,遗传算法常被用于解决多目标优化问题,一般情况下,多目标优化问题的各个子目标之间是矛盾的,一个子目标的改善有可能会引起另一个或者另几个子目标的性能降低,也就是要同时使多个子目标一起达到最优值是不可能的,而只能在它们中间进行协调和折中处理,使各个子目标都尽可能地达到最优化,其与单目标优化问题的本质区别在于它的解并非唯一,而是存在一组由众多Pareto最优解组成的最优解集合,集合中的各个元素称为Pareto最优解或非劣最优解。决策树是一种机器学习的方法,其生成算法包括ID3、C4.5和C5.0等,决策树是一种树形结构,由一个根节点、若干个内部节点和叶节点构成,其中,叶节点对应决策结果,其他节点对应属性判断规则。决策树本质上是一层一层地根据条件递归做判断,其中每个内部节点表示一个属性的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。决策树既可以应用于分类任务,也可用于回归任务,具体是用于分类任务还是回归任务,主要取决于目标变量的连续性。如果目标变量为离散变量,则为分类;如果目标变量为连续变量,则为回归。由于决策树对应决策过程易于可视化、可同时应用于分类和回归任务、可处理大规模数据集等优点而被广泛应用。虽然决策树算法被广泛证明可以在机器学习任务上取得良好的预测性能,但传统的决策树算法存在精度差、性能低等问题,为保证模型精度以及实际预测的性能要求,通常需要构建庞大的决策树模型,但是庞大的决策树模型往往存在运行时间长、预测效率低等问题,因此专利技术一种可使模型精确度和模型大小获得平衡,同时可提高预测效率的预测模型成为本领域人员亟待解决的问题。
技术实现思路
针对现有技术中存在的上述问题,本专利技术提供了一种基于遗传算法和决策树的健康状况预测方法,其可使模型精确度和模型大小获得平衡,在保证性能的同时,可提高预测效率。为实现上述目的,本专利技术采用如下技术方案:一种基于遗传算法和决策树的健康状况预测方法,该方法基于健康状况相关数据进行,所述健康状况相关数据包括测试集、训练集,其特征在于,所述方法利用遗传算法和决策树模型实现,所述方法包括:S1,将所述训练集作为所述决策树模型的输入数据,对所述决策树模型进行训练;S2,所述决策树模型的超参数种群初始化,所述超参数种群包括若干个超参数;S3,采用交叉验证方式对所述决策树模型进行评估,判断所述决策树模型是否满足条件,若满足则返回评估结果,若不满足,则进入步骤S4;S4,采用NSGA2算法中的交叉算子和变异算子对所述决策树模型的父代决策树进行选择;S5,子代决策树生成;S6,采用交叉验证方式对所述子代决策树进行评估;S7,利用所述子代决策树获得的超参数作为预测健康状况的超参数。其进一步特征在于,所述健康状况相关数据包括当地人口体检报告数据、体检的检查项目数据;步骤S2中,所述超参数种群初始化指:在搜索空间中,随机采样获取若干个超参数构成所述超参数种群的初始种群P;此时的个体一般适应度较低,需要在后续的迭代中不断优化;步骤S3中,采用交叉验证的方式对所述决策树模型进行评估,指基于遗传算法中的演化算法提供的超参数,通过五折交叉验证方式对所述超参数的泛化性能进行预估,并将准确率作为适应度值;步骤S4中,所述NSGA2算法基于非支配排序和拥挤距离为每个所述超参数分配一个排名(该排名为唯一排名),根据所述排名,选择较优的超参数;步骤S5中,将所述遗传算法中的SBX算子作为交叉算子,将多项式变异算子作为变异算子,对所述决策树的超参数进行交叉和变异;所述交叉的概率设置为0.9,所述变异的概率设置为0.5;步骤S6中,采用交叉验证的方式对所述子代决策树进行评估,指基于遗传算法中的演化算法提供的超参数,通过五折交叉验证方式对所述超参数的泛化性能进行预估,并将准确率作为适应度值;步骤S7中,将已完成训练的超参数种群输出,利用得到的决策树超参数来预测健康状况的决策树模型超参数。采用本专利技术上述方法可以达到如下有益效果:该方法将健康状况相关数据作为基于遗传算法的决策树模型的输入数据,并利用决策树模型中生成的子代决策树获得的超参数作为预测健康状况的超参数,可用于对人口健康状况进行预测。该方法中在遗传算法演化过程中,采用交叉验证方式分别对决策树模型、子代决策树进行评估,在决策树模型的基础上,采用NSGA2算法中的交叉算子和变异算子对决策树模型的父代决策树进行选择,即对超参数种群中的超参数进行优化,最终将子代决策树获得的超参数作为预测健康状况的超参数,从而实现了人口健康状况的准确预测,相比于现有的庞大决策树模型,采用本申请方法获得的决策树模型结构简单,不仅使该决策树模型在模型精确度与模型大小之间取得了平衡,而且在保证性能的同时,缩短了运行时间,提高了预测效率。附图说明图1为本专利技术基于遗传算法和决策树的健康状况预测方法流程图;图2为本专利技术优化后的决策树超参数决定的决策树;图3为将训练集作为决策树模型的输入数据对决策树模型进行训练后,决策树模型输出的训练集结果;图4为将测试集作为已训练好的决策树模型的输入数据,决策树模型的输出的测试集结果。具体实施方式见图1,一种基于遗传算法和决策树的健康状况预测方法,该方法基于健康状况相关数据进行,健康本文档来自技高网
...

【技术保护点】
1.一种基于遗传算法和决策树的健康状况预测方法,该方法基于健康状况相关数据进行,所述健康状况相关数据包括测试集、训练集,其特征在于,所述方法利用遗传算法和决策树模型实现,所述方法包括:S1,将所述训练集作为所述决策树模型的输入数据,对所述决策树模型进行训练;/nS2,所述决策树模型的超参数种群初始化,所述超参数种群包括若干个超参数;/nS3,采用交叉验证方式对所述决策树模型进行评估,判断所述决策树模型是否满足条件,若满足则返回评估结果,若不满足,则进入步骤S4;/nS4,采用NSGA2算法中的交叉算子和变异算子对所述决策树模型的父代决策树进行选择;/nS5,子代决策树生成;/nS6,采用交叉验证方式对所述子代决策树进行评估;/nS7,利用所述子代决策树获得的超参数作为预测健康状况的超参数。/n

【技术特征摘要】
1.一种基于遗传算法和决策树的健康状况预测方法,该方法基于健康状况相关数据进行,所述健康状况相关数据包括测试集、训练集,其特征在于,所述方法利用遗传算法和决策树模型实现,所述方法包括:S1,将所述训练集作为所述决策树模型的输入数据,对所述决策树模型进行训练;
S2,所述决策树模型的超参数种群初始化,所述超参数种群包括若干个超参数;
S3,采用交叉验证方式对所述决策树模型进行评估,判断所述决策树模型是否满足条件,若满足则返回评估结果,若不满足,则进入步骤S4;
S4,采用NSGA2算法中的交叉算子和变异算子对所述决策树模型的父代决策树进行选择;
S5,子代决策树生成;
S6,采用交叉验证方式对所述子代决策树进行评估;
S7,利用所述子代决策树获得的超参数作为预测健康状况的超参数。


2.根据权利要求1所述的一种基于遗传算法和决策树的健康状况预测方法,其特征在于,所述健康状况相关数据包括当地人口体检报告数据、体检的检查项目数据。


3.根据权利要求2所述的一种基于遗传算法和决策树的健康状况预测方法,其特征在于,步骤S2中,所述超参数种群初始化指:在搜索空间中,随机采样获取若干个超参数构成所述超参数种群的初始种群。


4.根据权利要求3所述的一种基于遗传算法和决策树的健康状况预测方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:郭永恒曾奕博张恒哲周爱民林欣邵非
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1