【技术实现步骤摘要】
基于随机森林算法训练子宫内膜异位囊肿破裂数据的方法
本专利技术涉及数据处理
,尤其涉及一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法。
技术介绍
在高速发展的互联网时代,机器学习的出现和应用正深刻改变着医疗行业。在此之前,医学数据的收集分析是一件充满挑战和困难的事。但如今,机器学习通过对数据的分析与处理,能够准确清晰的实现设定的方案并交付结果。目前,国内外针对子宫内膜异位囊肿破裂数据的相关研究还比较少。数据预测采用的分类模型大多为KNN算法、神经网络算法、贝叶斯算法等等,但这些算法的精确度不是很理想,无法处理连续、离散和混合的大数据集,尤其是在缺失数据较多的情况下,准确度会随着数据缺失而快速降低。因此,亟需一种行之有效的算法对子宫内膜异位囊肿破裂数据进行分析,可以处理连续、离散和混合的大数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法,可以处理连续 ...
【技术保护点】
1.一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法,其特征在于,包括以下步骤:/n步骤S1、获取子宫内膜异位囊肿破裂数据和子宫内膜异位囊肿未破裂数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;/n步骤S2、选取决策树类型为CART,分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;/n步骤S3、对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理,得到每一个CART决策树模型各自经分支处理后的相应决策树,并进一步形成随机森林模型;其中,所选最优 ...
【技术特征摘要】 【专利技术属性】
1.一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法,其特征在于,包括以下步骤:
步骤S1、获取子宫内膜异位囊肿破裂数据和子宫内膜异位囊肿未破裂数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;
步骤S2、选取决策树类型为CART,分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;
步骤S3、对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理,得到每一个CART决策树模型各自经分支处理后的相应决策树,并进一步形成随机森林模型;其中,所选最优特征为子宫内膜异位囊肿破裂数据区别于子宫内膜异位囊肿未破裂数据的关键特征指标;
步骤S4、采用粒子群算法对所述随机森林模型进行优化,得到优化后的随机森林模型,并将所述训练集和测试集导入所述优化后的随机森林模型中,得到训练好的随机森林模型;
步骤S5、获取待测子宫内膜异位囊肿数据,并将所述待测子宫内膜异位囊肿数据导入所述训练好的随机森林模型中,区别出所述待测子宫内膜异位囊肿数据为子宫内膜异位囊肿破裂数据或子宫内膜异位囊肿未破裂数据。
2.如权利要求1所述的基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法,其特征在于,在所述步骤S1中,测试集和多个训练集的具体形成步骤为:
以所述归一化处理后的样本数据总量的25%随机组合为一份数据集作为测试集,剩下的75%作为训练数据,且进一步从训练数据中有放回随机采样选出n个样本为一份,占数据总量的50%来形成N个不相同的训练集。
3.如权利要求1所述的基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法,其特征在于,在所述步骤S3中,所述对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理的具体步骤包括:
在同一个CART决策树模型中,汇总出对应训练集中训练数据的所有特征,并计算出每个特征的基尼指数评分,且选出最小基尼指数评分的特征为最优特征后,将所选的最优特征及其对应的切分点作为根节点衍生的两个子节点,进一步将剩余的特征分配到上述两个子节点中,实现分支处理;其中,在分支过程中采取预剪枝处理,若当该树杈上的样本小于所设定的参数,则决策树就不再继续生长。
技术研发人员:唐震洲,周铭琰,林凤,金楚,许方怡,易新凯,王岩,孔令剑,
申请(专利权)人:温州大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。