基于有偏随机森林模型的医疗不平衡数据分类方法技术

技术编号:37505082 阅读:20 留言:0更新日期:2023-05-07 09:41
本发明专利技术公开了一种基于有偏随机森林模型的医疗不平衡数据分类方法,主要解决现有技术中分类模型对少数类识别精度不够、分类效率低及鲁棒性差的问题。其实现方案是:对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理;对预处理后的数据集进行K均值聚类欠采样,构建平衡数据集;利用投票法对两个子随机森林中的决策树组合,构建有偏随机森林分类模型;利用预处理后的数据集和K均值欠采样后的平衡数据集对有偏随机森林分类模型进行训练;将测试数据输入训练好的模型输出分类结果。本发明专利技术通过在训练阶段将采样策略应用到随机森林构建过程中,可提升不平衡医疗数据集中少数类的识别精度,提高分类效率,可用于为医疗疾病诊断提供依据。疗疾病诊断提供依据。疗疾病诊断提供依据。

【技术实现步骤摘要】
基于有偏随机森林模型的医疗不平衡数据分类方法


[0001]本专利技术属于数据处理
,具体涉及一种医疗不平衡数据分类方法,可用于为医疗疾病诊断提供依据。
技术背景
[0002]大数据时代的到来使越来越多领域的数据可以借助数据挖掘和机器学习有关技术得以高效处理和分析,从而获得大量有价值的信息。为遵循国家针对医疗领域提出的规划路线,大量的医疗数据得到保存积累,但是仅靠人力无法实现对其的分析整理,因此将医疗数据与机器学习、数据挖掘技术进行结合的方案受到广泛的关注。
[0003]传统的机器学习算法取得较好分类效果的前提是数据集中每个类别的样本数量大致相同,因为只有在这一条件下,分类算法才可以在学习过程中根据经验或结构风险结构最小化原则对数据集中所有类别一视同仁。而在医疗数据分类领域,常常遇到的是不同类别样本比例不平衡的情况,比如健康者的数量远远多于患者,常见病的患者数量远远多于罕见病的患者数量。此时若利用传统的分类算法处理这些不平衡的数据集,数据集中的少数类将不能被有效识别。这是因为分类算法为了减少学习过程中的错误分类损失,将不可避免的偏向本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于有偏随机森林模型的医疗不平衡数据分类方法,其特征在于,包括如下步骤:(1)对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理得到预处理后的数据集X;(2)对预处理后的数据集X进行K

Means聚类欠采样,构建平衡数据集X

:(2a)将预处理后数据集X根据极少数类数量|X
min
|分为极少数类X
min
和多数类集合其中k为多数类的种数,g和n
j
分别是极少数类和每一多数类的样本总数;(2b)将极少数类的样本数量g作为K

Means聚类欠采样要生成的每一种多数类样本的数量;(2c)利用K

Means算法求出每一种多数类X
maj
的g个聚簇中心(2d)对每一种多数类X
maj
,计算出其与X

maj
中每个聚簇中心欧式距离最近的样本其中(2e)合并每种欠采样后多数类中的样本X

maj
,得到欠采样后的多数类集合(2f)将欠采样后的多数类集合与预处理后数据集X中的极少数类X
min
进行合并,得到平衡数据集其中(3)构建有偏随机森林分类模型:(3a)选用现有的两个随机森林子模型RF1和RF2,分别取出其中所有的决策树和并将其进行合并,得到新的决策树集合其中T为决策树数量;(3b)利用投票法对新的决策树集合进行组合,得到有偏随机森林模型BRF;(4)对有偏随机森林分类模型进行训练:(4a)将步骤(1)得到的预处理后的数据集X输入到第一随机森林RF1子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第一随机森林RF1子模型;(4b)将步骤(2)得到的平衡数据集X

输入到第二随机森林RF2子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第二随机森林RF2子模型;(4c)利用投票法将训练好的第一随机森林RF1子模型和第二随机森林RF2子模型中的所有决策树进行合并,得到训练好的有偏随机森林模型BRF;
(5)利用模型进行分类;(5a)提取患者病例中的有效信息组成一维待分类的医疗数据;(5b)将待分类的医疗数据输入到训练好的有偏随机森林BRF分类模型中,得到对患者病例信息的分类结果。2.根据权利要求1所述的方法,其特征在于:步骤(1)中对原始数据集进行混乱格式、缺失值填充、归一化的预处理,实现如下:所述混乱格式处理,是对原始医疗数据集中格式混乱的部分进行统一规整,将原始医疗数据集中的文...

【专利技术属性】
技术研发人员:杜建超赵梦楠王燕宁石磊陈天艳周云
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1