【技术实现步骤摘要】
一种基于类别不平衡的自适应数据增强方法
[0001]本专利技术涉及目标识别的复制粘贴增强方法、自适应调节、图像识别、人工智能领域,尤其涉及一种基于类别不平衡的自适应数据增强方法。
技术介绍
[0002]在目标识别领域中,数据集对于深度卷积网络模型的训练来说是至关重要的。制作优质的数据集是一项非常复杂的工程,需要耗费许多资源。例如,在现实生活中每个类别出现的频率是不一样的。这在样本采集上存在很多困难。因此数据集容易出现类别不平衡的问题。而数据增强算法通过合成数据使数据集中数据的形式更加多样,增强模型的鲁棒性,是解决类别不平衡的常用方法之一。对于数据集中的类别不平衡问题,复制粘贴增强通过合成物体和背景生成新的数据来扩充模型需要的类别信息。但这些方法都是过于依赖人的直观想法。这存在一定偏差和误导。
技术实现思路
[0003]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于类别不平衡的自适应数据增强方法。
[0004]为解决上述问题,本专利技术采用如下的技术方案。
[0005]一种基于类别不 ...
【技术保护点】
【技术特征摘要】
1.一种基于类别不平衡的自适应数据增强方法,其特征在于,其特征在于包括以下步骤:步骤一、对模型进行预训练和统计数据集的类别不平衡信息;步骤二、根据根据预训练的结果和统计信息计算模型对每个类别的偏好程度;步骤三、在偏好因子中引入微调系数T与偏好增强系数e;步骤四、构建自适应复制粘贴增强表达式;步骤五、根据表达式生成新的数据与更新对应的标签,用新的数据集进行训练。2.根据权利要求1所述的一种基于类别不平衡的自适应数据增强方法,其特征在于:所述步骤一的模型预训练,模型用原始的数据集进行预训练,该预训练的训练量并不是固定的,当训练到某一个阶段时,就提取出该阶段训练权重来得出模型在前状态下对数据集的评估。3.根据权利要求1所述的一种基于类别不平衡的自适应数据增强方法,其特征在于:所述步骤一的数据集统计方法,该统计方法主要是评估数据集的类别不平衡问题,该方法通过使用数据集的标签文件进行统计,统计的主要内容包括每个类别物体的个数以及对目标面积大小的归类。4.根据权利要求1所述的一种基于类别不平衡的自适应数据增强方法,其特征在于:所述步骤二的偏好程度计算,模型对每个类别的偏好程度是通过预训练的评估值和类别的统计信息共同计算而得的,其中的评估值主要是map和每个类别的ap值。5.根据权利要求1所述的一种基于类别不平衡的自适应数据增强方法,其特征在于:所述步骤三的微调因子T,以用于适当地调节模型对每个类别的偏好程度,如下式所示:p=(map
‑
ap
i
+T)*n
i
ꢀꢀꢀꢀ
(1),ap是指每个类别的评估值。i是每个类别对应的序号。map是ap的均值。用均值map与各类的ap值相减,该结果反映了模型对数据集中每个类别的学习情况。T是微调系数。通过对T的适当调整来干预模型的偏好。模型是否易于掌握某个类别,除了受到该类别自身的特征信息影响外,还受到数据集中含有该类别的信息量的影响,n
i
表示的是数据集中每个类别的目标数量。我们用p
i
反映模型对每个类别的学习情况。6.根据权利要求5所述的一种基...
【专利技术属性】
技术研发人员:于效宇,李富超,刘艳,陈颖璐,
申请(专利权)人:电子科技大学中山学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。