【技术实现步骤摘要】
一种面向样本不均衡的多疾病分类器设计方法
[0001]本专利技术涉及机器学习领域,具体涉及样本不均衡,集成学习算法。
技术介绍
[0002]在国内机器学习模型也被逐渐用于多疾病分类方法,但是在医学领域中,对 于那些训练样本较少的医学病例很难直接构建其多疾病分类模型。并且随着诊断 模型诊断能力的提高,其需要的特征数将会不断扩大,病例样本不均衡度也会逐 渐增高,最终会造成特征矩阵维数灾难、运算量过大、分类准确率低、训练样本 稀疏以及过拟合等问题,最终影响分类器的分类质量。
[0003]为了攻克这些医学领域中存在的病例样本不均衡的问题,我们可以从抽样技 术层面或者集成技术层面去解决这个问题。在基于抽样技术方面,有欠采样技术 和过采样技术。Kermanidis为了解决数据集不均衡问题,采用了单边采样技术提 高了分类器的分类准确率。同样地,通过运用过采样算法也能够解决小样本数据 量不足从而导致不均衡的问题。在过采样
中SMOTE算法是主流的过采 样算法,但是其也存在一定的弊端,就是因为在样本合成过程中并没有考虑到近 邻样 ...
【技术保护点】
【技术特征摘要】
1.一种面向样本不均衡的多疾病分类器设计方法,其特征在于,首先对按其疾病类别将医学病例数据划分为多个病例样本子集,然后对每个样本子集进行病症关联规则的特征选择方法,选择出该病例样本子集的特征向量,然后在不均衡度为上限阈值的前提条件下,迭代随机更新采用概率,对病例样本子集进行均衡化,然后再训练每一个样本子集的弱分类器并计算其分类效果,并最终通过判断macro
‑
F1的差值是否满足迭代收敛阈值来决定迭代生成多疾病分类器是否结束。2.如权利要求1所述方法,其特征在于,包括如下步骤,步骤一,将不均衡样本按其疾病类别进行样本子集划分;针对中文电子病历数据集中不同的疾病结果,将整个不均衡的病历数据集划分成多个样本子集Di;步骤二,基于病症关联规则的特征选择;核心操作为对病症的二项频繁集进行置信度排序,然后再利用基分类器的分类性能作为特征子集评价标准进行序列向前选择方法SFS选择特征子集;通过使用关联规则挖掘算法(Apriori)对疾病与症状的数据集进行规则挖掘,然后通过二项频繁集的置信度进行特征排序和以基分类器分类效果为标准的特征子集划分;步骤三,基于不均衡度为上限值的随机迭代均衡采样;在随机迭代均衡采样的过程中,采取不均衡度IR值作为随机数的上限阈值;采样概率t在以0位下限值和不均衡度IR为上限值的区间中取随机数,通过这种方式来在迭代过程中随机调整每一个样本子集Di的不平衡度IR;不均衡度IR是指样本数据集中多数类别的样例与少数类别的样例的比例,其主要的作用是为了衡量二分类数据集的不平衡程度;步骤四,训练弱分类...
【专利技术属性】
技术研发人员:方钰,徐蔚,曲艺,陆明名,黄欣,翟鹏珺,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。