不平衡数据集少数类样本生成方法、装置、设备及介质制造方法及图纸

技术编号:40062835 阅读:18 留言:0更新日期:2024-01-16 22:57
本发明专利技术实施例公开了一种不平衡数据集少数类样本的生成方法、装置、设备及介质。该方法包括:使用目标不平衡数据集对预设神经网络模型训练,得到模型权重矩阵及隐含层数据,该模型将输入数据映射至更可分的高维隐含层空间;根据隐含层数据分布特征将隐含层空间分为安全区域、重叠区域及危险区域,安全区域仅包括少数类数据,危险区域仅包括多数类数据,重叠区域包括少数类数据和多数类数据;在少数类数据中随机选取根样本,基于根样本在少数类数据中最远邻居选取辅助样本;在根样本与辅助样本之间连线中位于安全区域内位置上随机生成仿真少数类数据,并根据模型权重矩阵将仿真少数类数据还原至原始空间得到仿真少数类样本。从而提高生成样本质量。

【技术实现步骤摘要】

本专利技术实施例涉及不平衡学习,尤其涉及一种不平衡数据集少数类样本生成方法、装置、设备及介质


技术介绍

1、不平衡学习是机器学习领域的一个重要分支,其主要研究问题是如何在数据分布不平衡的情况下进行模型训练,从而实现理想的精确分类。在实际应用中,许多问题都涉及到数据分布不平衡的问题,如新冠病毒的检测数据、金融系统的交易数据、医学诊断的图像数据等。通常情况下,少数类样本未被检出所面临的损失远远大于多数类样本被错误分类的损失。而传统的机器学习算法都是针对平衡数据集设计的,基于经验风险最小化的原则,分类器将某个样本错误归类为任意其他类别得到损失都是一致的。因此,面对分布不平衡的数据集,分类器在预测时会偏向于数量更多的那一类以获得更小的损失,从而导致少数类样本被错误分类的概率更高。

2、目前,主流的不平衡学习方法主要分为两类,一类是数据层面的方法,即人工改变原始数据集的分布,使得各类样本数量一致;另一类是算法层面的方法,即在传统的分类算法上进行修改,使其对少数类样本达到更好的分类效果。数据层面的方法的主要思想是通过人工修改数据分布,使得各类样本数量一致本文档来自技高网...

【技术保护点】

1.一种不平衡数据集少数类样本生成方法,其特征在于,包括:

2.根据权利要求1所述的不平衡数据集少数类样本生成方法,其特征在于,所述预设神经网络模型包括输入层、隐含层以及输出层;其中,

3.根据权利要求2所述的不平衡数据集少数类样本生成方法,其特征在于,所述预设神经网络模型的训练过程包括:

4.根据权利要求3所述的不平衡数据集少数类样本生成方法,其特征在于,所述根据所述模型权重矩阵将所述仿真少数类数据还原得到原始空间的仿真少数类样本,包括:

5.根据权利要求1所述的不平衡数据集少数类样本生成方法,其特征在于,所述在所述根样本与所述辅助样本之...

【技术特征摘要】

1.一种不平衡数据集少数类样本生成方法,其特征在于,包括:

2.根据权利要求1所述的不平衡数据集少数类样本生成方法,其特征在于,所述预设神经网络模型包括输入层、隐含层以及输出层;其中,

3.根据权利要求2所述的不平衡数据集少数类样本生成方法,其特征在于,所述预设神经网络模型的训练过程包括:

4.根据权利要求3所述的不平衡数据集少数类样本生成方法,其特征在于,所述根据所述模型权重矩阵将所述仿真少数类数据还原得到原始空间的仿真少数类样本,包括:

5.根据权利要求1所述的不平衡数据集少数类样本生成方法,其特征在于,所述在所述根样本与所述辅助样本之间的连线中位于所述安全...

【专利技术属性】
技术研发人员:何玉林路璇李旭叶璇
申请(专利权)人:人工智能与数字经济广东省实验室深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1