【技术实现步骤摘要】
一种基于随机森林的子宫内膜肿瘤分类标记方法
本专利技术涉及数据处理
,尤其涉及一种基于随机森林的子宫内膜肿瘤分类标记方法。
技术介绍
在高速发展的互联网时代,机器学习的出现和应用正深刻改变着医疗行业。在此之前,医学数据的收集分析是一件充满挑战和困难的事。但如今,机器学习通过对数据的分析与处理,能够准确清晰的实现设定的方案并交付结果。目前,国内外针对子宫内膜肿瘤数据的相关研究还比较少。数据预测采用的分类模型大多为KNN算法、神经网络算法、贝叶斯算法等等,但这些算法的精确度不是很理想,无法处理连续、离散和混合的大数据集,尤其是在缺失数据较多的情况下,准确度会随着数据缺失而快速降低。因此,亟需一种行之有效的算法对子宫内膜肿瘤数据进行分析,可以处理连续、离散和混合的大数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种基于随机森林的子宫内膜肿瘤分类标记方法,可以处理连续、离散和混合的子宫内膜肿瘤数据集,能够克服数据缺少较 ...
【技术保护点】
1.一种基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,包括以下步骤:/n步骤S1、获取子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;/n步骤S2、选取决策树类型为CART,并分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;/n步骤S3、通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;/n步骤S4、对每一个CART决策树模型中满足预定条件的特征集均通过基尼指数的 ...
【技术特征摘要】
1.一种基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,包括以下步骤:
步骤S1、获取子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;
步骤S2、选取决策树类型为CART,并分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;
步骤S3、通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S4、对每一个CART决策树模型中满足预定条件的特征集均通过基尼指数的比对选出最优特征来进行分支处理,得到每一个CART决策树模型各自经分支处理后的相应决策树,并进一步形成随机森林模型;其中,所选最优特征为子宫内膜恶性肿瘤数据区别于子宫内膜良性肿瘤数据的关键特征指标,并按照基尼指数从小到大的顺序进行排序剪枝;
步骤S5、采用粒子群算法对所述随机森林模型进行优化,得到优化后的随机森林模型,并将所述测试集导入所述优化后的随机森林模型中,得到训练好的随机森林模型;
步骤S6、获取待测子宫内膜肿瘤数据,并将所述待测子宫内膜肿瘤数据导入所述训练好的随机森林模型中,区别出所述待测子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据。
2.如权利要求1所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,以所述归一化处理后的样本数据总量的约25%随机组合为一份数据集作为测试集,剩下的75%作为训练数据。从训练数据中有放回随机采样选出n个样本为一份,占数据总量的50%,形成N个不相同的训练集,用来产生N棵CART树。
3.如权利要求1所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,所述通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集的步骤具体包括:
确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中训练数据的所有特征;
计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,并待按照预设的特征重要性,对当前待评估的CART决策树模型中所有计算出的基尼指数评分进行排列后,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;
依据预设的剔除比例,重复在所述特征集中以特征重要性从小到大的顺序进行特征剔除,直至所述特征集中特征数量达到阈值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
4.如权利要求1所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,所述对每一个CART决策树模型均通过基尼指数的比对...
【专利技术属性】
技术研发人员:唐震洲,周铭琰,李方靖,林凤,金楚,许方怡,易新凯,王岩,孔令剑,
申请(专利权)人:温州大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。