一种非平衡多类别对抗网络与迁移学习的数据平衡方法技术

技术编号:45157031 阅读:24 留言:0更新日期:2025-05-06 18:12
本发明专利技术公开了一种结合生成对抗网络与迁移学习的数据平衡方法,该方法涉及机器学习领域,首先数据集准备,统计各类别样本数量,确定最多样本的类别,随后,利用深度学习生成对抗网络构建基准模型和若干个独立模型,用来生成与各类别数据特征一致的新数据集,确保各新数据集的数据量相等或接近基准数据集,使各类别标签的数据量达到平衡,最后,将平衡后的数据集按预设比例分为训练集和测试集,使用构建的训练集对预设的目标模型进行训练,使用构建的测试集对预设的目标模型进行验证,该方法通过定制化数据生成,实现了数据集的平衡化,有助于提高模型对少类样本的辨识能力和泛化能力。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,特别是针对非平衡数据集的处理技术,旨在通过结合生成对抗网络(gan)与迁移学习的方法,实现多类别数据的有效平衡,以提高模型的训练效率和泛化能力。


技术介绍

1、在实际应用中,数据集往往存在类别不平衡的问题,即某些类别的样本数量远多于其他类别。这种不平衡会导致机器学习模型在预测时偏向于多数类,而忽视少数类,从而影响模型的准确性和实用性。传统的方法如重采样、合成少数类过采样技术(smote)等虽能在一定程度上缓解不平衡问题,但可能引入噪声或过度拟合。

2、具体地,不平衡数据集中进行数据标记阶段所遇到的问题主要包括以下几点:

3、1.数据标记阶段的问题:1.1)标记偏差:在不平衡数据集中,由于少类样本出现频率较低,标记人员可能容易忽视这些样本,导致标记不完整或不准确,影响数据集质量。1.2)数据代表性不足:少类样本数量有限,难以充分代表该类别的多样性和变异性,导致后续训练数据的代表性受限。

4、2.对模型训练的影响:2.1)偏向多数类:模型在训练时可能更倾向于学习多数类样本的特征,导致对少类样本的辨本文档来自技高网...

【技术保护点】

1.一种非平衡多类别对抗网络与迁移学习的数据平衡方法,其特征在于:包括有以下步骤:

2.根据权利要求1所述的一种非平衡多类别对抗网络与迁移学习的数据平衡方法,其特征在于:预设目标模型包括待识别特定的模式或特征。

【技术特征摘要】

1.一种非平衡多类别对抗网络与迁移学习的数据平衡方法,其特征在于:包括有以下步骤:

2.根据权利要求...

【专利技术属性】
技术研发人员:钟吉诚
申请(专利权)人:鸿鹄半导体设备佛山有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1