基于随机森林算法训练子宫内膜异位囊肿破裂数据的方法技术

技术编号：24686415 阅读：154 留言：0更新日期：2020-06-27 08:47

本发明专利技术提供一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法，包括获取子宫内膜异位囊肿破裂和未破裂数据为样本数据并归一化处理后，划分出测试集和多个训练集；对每一个训练集进行决策树训练，得到相应CART决策树模型；对每一个CART决策树模型均通过基尼指数比对选出最优特征来进行分支处理，得到相应决策树并形成随机森林模型；采用粒子群算法对随机森林模型进行参数优化并导入训练集和测试集，得到训练好的随机森林模型；获取待测子宫内膜异位囊肿数据并导入训练好的随机森林模型中，区别出破裂或未破裂数据。实施本发明专利技术，可以处理连续、离散和混合的子宫内膜异位囊肿破裂数据集，克服数据缺少较多的情况下，准确度快速降低的问题。

A method of training endometrial cyst rupture data based on random forest algorithm

全部详细技术资料下载

【技术实现步骤摘要】
基于随机森林算法训练子宫内膜异位囊肿破裂数据的方法
本专利技术涉及数据处理
，尤其涉及一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法。
技术介绍
在高速发展的互联网时代，机器学习的出现和应用正深刻改变着医疗行业。在此之前，医学数据的收集分析是一件充满挑战和困难的事。但如今，机器学习通过对数据的分析与处理，能够准确清晰的实现设定的方案并交付结果。目前，国内外针对子宫内膜异位囊肿破裂数据的相关研究还比较少。数据预测采用的分类模型大多为KNN算法、神经网络算法、贝叶斯算法等等，但这些算法的精确度不是很理想，无法处理连续、离散和混合的大数据集，尤其是在缺失数据较多的情况下，准确度会随着数据缺失而快速降低。因此，亟需一种行之有效的算法对子宫内膜异位囊肿破裂数据进行分析，可以处理连续、离散和混合的大数据集，能够克服数据缺少较多的情况下，准确度快速降低的问题。
技术实现思路
本专利技术实施例所要解决的技术问题在于，提供一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法，可以处理连续...

【技术保护点】
1.一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法，其特征在于，包括以下步骤：/n步骤S1、获取子宫内膜异位囊肿破裂数据和子宫内膜异位囊肿未破裂数据形成样本数据，并对所获取到的样本数据进行归一化处理，且进一步将归一化处理后的样本数据划分出测试集和多个训练集；/n步骤S2、选取决策树类型为CART，分别对每一个训练集进行决策树训练，得到每一个训练集各自训练出的相应CART决策树模型；/n步骤S3、对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理，得到每一个CART决策树模型各自经分支处理后的相应决策树，并进一步形成随机森林模型；其中，所选最优特征为子宫内膜异位囊...

【技术特征摘要】
1.一种基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法，其特征在于，包括以下步骤：
步骤S1、获取子宫内膜异位囊肿破裂数据和子宫内膜异位囊肿未破裂数据形成样本数据，并对所获取到的样本数据进行归一化处理，且进一步将归一化处理后的样本数据划分出测试集和多个训练集；
步骤S2、选取决策树类型为CART，分别对每一个训练集进行决策树训练，得到每一个训练集各自训练出的相应CART决策树模型；
步骤S3、对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理，得到每一个CART决策树模型各自经分支处理后的相应决策树，并进一步形成随机森林模型；其中，所选最优特征为子宫内膜异位囊肿破裂数据区别于子宫内膜异位囊肿未破裂数据的关键特征指标；
步骤S4、采用粒子群算法对所述随机森林模型进行优化，得到优化后的随机森林模型，并将所述训练集和测试集导入所述优化后的随机森林模型中，得到训练好的随机森林模型；
步骤S5、获取待测子宫内膜异位囊肿数据，并将所述待测子宫内膜异位囊肿数据导入所述训练好的随机森林模型中，区别出所述待测子宫内膜异位囊肿数据为子宫内膜异位囊肿破裂数据或子宫内膜异位囊肿未破裂数据。

2.如权利要求1所述的基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法，其特征在于，在所述步骤S1中，测试集和多个训练集的具体形成步骤为：
以所述归一化处理后的样本数据总量的25％随机组合为一份数据集作为测试集，剩下的75％作为训练数据，且进一步从训练数据中有放回随机采样选出n个样本为一份，占数据总量的50％来形成N个不相同的训练集。

3.如权利要求1所述的基于随机森林算法来训练子宫内膜异位囊肿破裂数据的方法，其特征在于，在所述步骤S3中，所述对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理的具体步骤包括：
在同一个CART决策树模型中，汇总出对应训练集中训练数据的所有特征，并计算出每个特征的基尼指数评分，且选出最小基尼指数评分的特征为最优特征后，将所选的最优特征及其对应的切分点作为根节点衍生的两个子节点，进一步将剩余的特征分配到上述两个子节点中，实现分支处理；其中，在分支过程中采取预剪枝处理，若当该树杈上的样本小于所设定的参数，则决策树就不再继续生长。

【专利技术属性】
技术研发人员：唐震洲，周铭琰，林凤，金楚，许方怡，易新凯，王岩，孔令剑，
申请(专利权)人：温州大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人