【技术实现步骤摘要】
过采样处理方法和系统
本申请属于机器学习及数据预处理领域,涉及一种过采样的数据平衡化处理方法。
技术介绍
在使用肌电信号进行异常肌肉检测时,往往需要采集大量带标签(即异常肌肉和正常肌肉)的肌电信号,并根据该数据集训练出异常肌肉的检测模型,以达到对异常肌肉识别的目的。专利技术人希望异常肌肉识别模型能够在未来真实的数据集上达到最好的泛化效果,但模型的泛化能力与数据集息息相关,由于现实世界中患者和正常人的不平衡分布,采集到的异常肌肉肌电数据集往往存在偏态问题,即在采集到的数据集中不同类别样本的数量存在较大差异,这种情况被称为数据不平衡。为解决数据不平衡导致的异常肌肉检测分类模型泛化能力下降问题,专利技术人提出了该方案。传统机器学习的分类与预测算法假设样本集中各类样本的数量无明显差异,故而当传统机器学习方法被应用于不平衡数据集时,为了达到整体精度的最大化,分类器往往会更加关注多数类样本而忽视少数类样本,从而导致多数类样本的分类空间扩大、分类边界偏向多数类样本的现象。进而使得少数类样本难以被识别,影响分类器的性能。为从数据集层面解决不平衡问题,人们提出了过采样方法。过采样方 ...
【技术保护点】
1.一种过采样处理方法,其特征在于,包括:获取第一少数类样本集合;根据邻域粗糙集算法将所述第一少数类样本集合划分成少数类边界区和少数类正域;在所述少数类边界区和所述少数类正域之间进行插值,生成合成样本。
【技术特征摘要】
1.一种过采样处理方法,其特征在于,包括:获取第一少数类样本集合;根据邻域粗糙集算法将所述第一少数类样本集合划分成少数类边界区和少数类正域;在所述少数类边界区和所述少数类正域之间进行插值,生成合成样本。2.根据权利要求1所述的过采样处理方法,其特征在于,还包括:根据所述第一少数类样本集合以及所述合成样本,生成第二少数类样本集合;判断所述第二少数类样本集合的样本数量是否与多数类样本集合的样本数量相对应;若否,则继续在所述少数类边界区和所述少数类正域之间进行插值,生成合成样本,并将该合成样本加入所述第二少数类样本集合,直至所述第二少数类样本集合的样本数量与多数类样本集合的样本数量相对应。3.根据权利要求1所述的过采样处理方法,其特征在于,所述在所述少数类边界区和所述少数类正域之间进行插值,生成合成样本,包括:在所述少数类边界区中随机选取至少一个第一样本;在所述少数类正域中随机选取至少一个第二样本;在所述第一样本和所述第二样本组成的区域内随机插值,生成至少一个合成样本。4.根据权利要求2所述的过采样处理方法,其特征在于,当所述第二少数类样本集合的样本数量与多数类样本集合的样本数量相对应时:根据所述多数类样本集合以及所述第二少数类样本集合,生成平衡数据集合;输出所述平衡数据集合。5.根据权利要求1所述的过采样处理方法,其特征在于,所述在所述少数类边界区和所述少数类正域之间进行插值,生成合成样本,包括:在所述少数类边界区中随机选取一个第一样本;在所述少数类正域中随机选取一个第二样本;在所述第一样本和所述第二样本之间的连线上随机插值,生成至...
【专利技术属性】
技术研发人员:王念,崔莉,赵泽,
申请(专利权)人:北京中科天合科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。