过采样处理方法和系统技术方案

技术编号：19823486 阅读：36 留言：0更新日期：2018-12-19 15:18

本申请公开了一种过采样处理方法。该过采样处理方法包括：获取少数类样本集合；根据邻域粗糙集算法将所述少数类样本集合划分成少数类边界区和少数类正域；以及在所述少数类边界区和所述少数类正域之间进行插值，生成合成样本。本申请基于邻域粗糙集对于少数类样本集合进行划分，并随机选择少数类边界区样本朝向少数类正域进行有向插值，从而产生更具正域模式的合成样本，以此来增加少数类样本的个数并平衡数据集，由于本申请的过采样方法没有过采样点的正确性校验，故而不存在过采样不充分的问题。本申请解决了现有过采样方法在合成过采样数据过程中存在的无法充分过采样出具有正域模式的合成样本的问题。

全部详细技术资料下载

【技术实现步骤摘要】
过采样处理方法和系统
本申请属于机器学习及数据预处理领域，涉及一种过采样的数据平衡化处理方法。
技术介绍
在使用肌电信号进行异常肌肉检测时，往往需要采集大量带标签(即异常肌肉和正常肌肉)的肌电信号，并根据该数据集训练出异常肌肉的检测模型，以达到对异常肌肉识别的目的。专利技术人希望异常肌肉识别模型能够在未来真实的数据集上达到最好的泛化效果，但模型的泛化能力与数据集息息相关，由于现实世界中患者和正常人的不平衡分布，采集到的异常肌肉肌电数据集往往存在偏态问题，即在采集到的数据集中不同类别样本的数量存在较大差异，这种情况被称为数据不平衡。为解决数据不平衡导致的异常肌肉检测分类模型泛化能力下降问题，专利技术人提出了该方案。传统机器学习的分类与预测算法假设样本集中各类样本的数量无明显差异，故而当传统机器学习方法被应用于不平衡数据集时，为了达到整体精度的最大化，分类器往往会更加关注多数类样本而忽视少数类样本，从而导致多数类样本的分类空间扩大、分类边界偏向多数类样本的现象。进而使得少数类样本难以被识别，影响分类器的性能。为从数据集层面解决不平衡问题，人们提出了过采样方法。过采样方...

【技术保护点】
1.一种过采样处理方法，其特征在于，包括：获取第一少数类样本集合；根据邻域粗糙集算法将所述第一少数类样本集合划分成少数类边界区和少数类正域；在所述少数类边界区和所述少数类正域之间进行插值，生成合成样本。

【技术特征摘要】
1.一种过采样处理方法，其特征在于，包括：获取第一少数类样本集合；根据邻域粗糙集算法将所述第一少数类样本集合划分成少数类边界区和少数类正域；在所述少数类边界区和所述少数类正域之间进行插值，生成合成样本。2.根据权利要求1所述的过采样处理方法，其特征在于，还包括：根据所述第一少数类样本集合以及所述合成样本，生成第二少数类样本集合；判断所述第二少数类样本集合的样本数量是否与多数类样本集合的样本数量相对应；若否，则继续在所述少数类边界区和所述少数类正域之间进行插值，生成合成样本，并将该合成样本加入所述第二少数类样本集合，直至所述第二少数类样本集合的样本数量与多数类样本集合的样本数量相对应。3.根据权利要求1所述的过采样处理方法，其特征在于，所述在所述少数类边界区和所述少数类正域之间进行插值，生成合成样本，包括：在所述少数类边界区中随机选取至少一个第一样本；在所述少数类正域中随机选取至少一个第二样本；在所述第一样本和所述第二样本组成的区域内随机插值，生成至少一个合成样本。4.根据权利要求2所述的过采样处理方法，其特征在于，当所述第二少数类样本集合的样本数量与多数类样本集合的样本数量相对应时：根据所述多数类样本集合以及所述第二少数类样本集合，生成平衡数据集合；输出所述平衡数据集合。5.根据权利要求1所述的过采样处理方法，其特征在于，所述在所述少数类边界区和所述少数类正域之间进行插值，生成合成样本，包括：在所述少数类边界区中随机选取一个第一样本；在所述少数类正域中随机选取一个第二样本；在所述第一样本和所述第二样本之间的连线上随机插值，生成至...

【专利技术属性】
技术研发人员：王念，崔莉，赵泽，
申请(专利权)人：北京中科天合科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人