【技术实现步骤摘要】
一种改进随机森林相似性度量的患病风险预测方法
[0001]本专利技术涉及医学健康分析和机器学习领域,尤其涉及一种改进随机森林相似性度量的患病风险预测方法。
技术介绍
[0002]随机森林作为集成学习bagging分支中最具代表性的算法,以其优异的性能和极具灵活性的特点,被广泛应用于医学健康分析领域。从医学数据中挖掘有效信息并进行分类预测,可以实现对人类患病情况的辅助诊断。但由于医学数据普遍存在的样本类别不平衡和特征维度高的特点,使得传统随机森林算法在分类任务中的能力被严重削弱。对此,研究人员常用SMOTE及其拓展算法对医学数据进行聚类,使数据更趋于平衡;同时进行特征选择与参数优化,以便从高维特征中选择出与预测结果相关度更高的特征。但是这些方法会对原始数据进行修改,可能会删掉部分病症特征甚至是多条样本,丢失了数据的原始性与完整性。并且由于医学数据针对某种病症的特征都是高度相似的,通过大量类似样本所构建的随机森林模型很容易生成大量冗余的高相似决策树,对模型的分类精度和训练速度造成影响。
[0003]针对上述问题,有研究者 ...
【技术保护点】
【技术特征摘要】
1.一种改进随机森林相似性度量的患病风险预测方法,其特征在于,包括以下步骤:S100、对获取的医学数据进行预处理,构建基于原始随机森林算法的患病风险预测模型;S200、计算模型中每棵决策树的AUC值,仅保留AUC值高的前80%决策树;S300、将每棵决策树中的路径进行分组,得到每条路径中所有病症特征的值域;S400、提出三层交并比法计算每两棵决策树的相似度;S500、根据相似度和AUC值删减冗余决策树,得到最终的患病风险预测模型。2.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法,其特征在于,所述的步骤S100中,将医学数据中的类别变量通过one
‑
hot编码转换为数值变量,并对缺失的数值变量采用平均值进行填充。3.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法,其特征在于,步骤S300包括以下步骤:S301、遍历所有决策树,根据叶节点的患病输出类别对决策路径进行分组,输出类别相同的属于同一分组;S302、对于每条决策路径,遍历所有节点后得到其分裂特征的取值范围,对于相同的病症特征,定义其取值的交集为该病症特征的值域。4.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法,其特征在于,步骤S400包括以下步骤:S401、计算病症特征相似度,定义在决策树I和决策树J中,同一分组下的决策路径分别为路径K和路径M,则病症特征A的相似度为其取值范围的交并集之比:式中:IoU
A
为病症特征A在路径K和路径M上的相似度,(X
min
,X
max
)为病症特征A在...
【专利技术属性】
技术研发人员:王杨,庞兰苏,翟仕佶,黄青松,肖衡,张舒,黄大帅,
申请(专利权)人:西南石油大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。