一种基于复杂度的高效样本筛选方法技术

技术编号:34643817 阅读:12 留言:0更新日期:2022-08-24 15:19
本发明专利技术公开了一种基于复杂度的高效样本筛选方法,通过类间采样和类内采样两大阶段对原始数据集进行样本筛选,旨在从大规模数据集中选出代表性样本,从而减少模型训练所用的样本数量,达到轻量化训练的目标。本发明专利技术与现有技术相比的优点在于:本发明专利技术提出基于复杂度的高效样本筛选方法,从大规模数据集中选出代表性样本用于模型的高效训练,证明了样本复杂性和模型训练策略对于深度神经网络的高效训练具有十分重要的影响。同时,本发明专利技术从样本复杂性和模型训练策略出发,解决了模型训练低效问题,这对于缓解深度学习模型训练效率低下问题具有一定的意义。具有一定的意义。

【技术实现步骤摘要】
一种基于复杂度的高效样本筛选方法


[0001]本专利技术涉及数据集上的深度神经网络训练领域,具体是指一种基于复杂度的高效样本筛选方法。

技术介绍

[0002]随着深度神经网络架构的复苏和GPU计算能力的提升,深度神经网络在许多计算机视觉任务中均表现出惊人的性能。然而,在大规模数据集上训练深度神经网络效率低下。总结原因有:首先,神经网络的规模越来越深,网络整体有数百万以上的参数,模型规模的爆炸性增长使得神经网络的训练变得困难;其次,深度神经网络的训练需要大量有标签数据样本来更新模型权重。因此,在大规模数据集上训练深度神经网络效率低下,训练过程需要花费更高的算力。

技术实现思路

[0003]本专利技术要解决的技术问题是大规模数据集上的深度神经网络训练需要消耗更高的算力和能耗,且训练效率低下。
[0004]为解决上述技术问题,本专利技术提供的技术方案为:一种基于复杂度的高效样本筛选方法,通过类间采样和类内采样两大阶段对原始数据集进行样本筛选,从而达到构建轻量级数据集进行模型训练的目标。其中:
[0005]类间采样,通过逆向多样自步学习进行类间采样,具体为逆向多样自步学习算法:
[0006]输入:目标数据集D
[0007]输出:模型参数w,
[0008][0009]类内采样,基于密度的采样策略来执行类内采样,具体为基于复杂度的高效类内采样算法:
[0010]输入:目标数据集采样比率ζ;
[0011]输出:合成数据集合Ψ;
[0012]1)Ψ/>←
{};
[0013]2)for i=1 to||C||do;
[0014]3)选择属于ci的所有样本,表示为
[0015]4)
[0016]5)for j=1 to cN um do;
[0017]6)如果||cSamples(j)||>阈值,则:
[0018]7)Ψ

Ψ∪metropolis

hastings(cCenters(j),cSamples(j),ζ);
[0019]8)else;
[0020]9)Ψ

Ψ∪cSamples(j);
[0021]10)end if;
[0022]11)end for;
[0023]12)end for;
[0024]13)returnΨ。
[0025]本专利技术与现有技术相比的优点在于:本专利技术提出基于复杂度的高效样本筛选方法,从大规模数据集中选出代表性样本用于模型的高效训练,证明了样本复杂性和模型训练策略对于深度神经网络的高效训练具有十分重要的影响,从样本复杂性和模型训练策略出发,解决了模型训练低效问题。基于复杂度的高效样本筛选方法旨在从大规模数据集中选出代表性样本,从而减少模型训练所用的样本数量,达到轻量化训练的目标。
[0026]类间采样中,逆向多样自步学习数据集D={(x
i
,c
i
)}中的所有样本都可以通过逆向自步预训练出来的模型给定的损失值loss
i
量化,表示为其中y
i
∈C是标签信息,loss
i
是样本x
i
的训练损失。
[0027]类内采样中,根据样本的密度分布迭代地选择每个类内的样本。采样率ζ是指从每一类中选择样本的比例,对于每次迭代,进行基于密度的聚类,将样本集中的区域连接成簇,并排除不属于簇的噪声样本。考虑到聚类的损失分布可能有显著差异,因此,本专利技术用均值漂移算法自动找到聚类数cNum和聚类中心cCenters,使用数量阈值来设置采样策略;当集群j中的样本数量||cSample(j)||大于阈值时,表明该集群密集、样本数量较多;同时,为了减少用于模型训练的样本,使用基于密度的蒙特卡洛采样算法从集群中选择具有代表性的样本;对于样本较少的簇,将该簇中的所有样本直接加入Ψ。
[0028]进一步的,蒙特卡洛采样算法具体为:
[0029]输入:中心、样本、采样比率ζ;
[0030]输出:选定样本集合R;
[0031]1)R

{};
[0032]2)SampleN umber

||Samples||
×
ζ;
[0033]3)设μ和δ为聚类损失的平均值和方差;
[0034]4)初始化x
(0)
~N(μ,δ2);
[0035]5)While||R||<SampleNumber do;
[0036]6)提出下一个候选值x
cand
~q(x
(i)
|x
i
‑1);
[0037]7)计算接受概率:
[0038]8)u~Uniform(u;0,1);
[0039]9)如果u<α,则:
[0040]10)接受建议值x
(i)

x
cand

[0041]11)R

R∪{x
(i)
};
[0042]12)end if;
[0043]13)end while;
[0044]14)return R。
具体实施方式
[0045]本专利技术在具体实施时,提出一种基于复杂度的高效样本筛选方法,通过类间采样和类内采样两大阶段对原始数据集进行样本筛选,从而达到构建轻量级数据集进行模型训练的目标。其中:
[0046]类间采样,通过逆向多样自步学习进行类间采样,具体为逆向多样自步学习算法:
[0047]输入:目标数据集D
[0048]输出:模型参数w,
[0049][0050]类内采样,基于密度的采样策略来执行类内采样,具体为基于复杂度的高效类内采样算法:
[0051]输入:目标数据集采样比率ζ;
[0052]输出:合成数据集合Ψ;
[0053]1)Ψ

{};
[0054]2)for i=1to||C||do;
[0055]3)选择属于ci的所有样本,表示为
[0056]4)
[0057]5)for j=1to cN um do;
[0058]6)如果||cSamples(j)||>阈值,则:
[0059]7)Ψ

Ψ∪metropolis

hastings(cCenters(j),cSamples(j),ζ);
[0060]8)else;
[0061]9)Ψ

Ψ∪cSamples(j);
[0062]10)end if;
[0063]11)end for;
[0064]12)end for;
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于复杂度的高效样本筛选方法,其特征在于通过高效样本筛选来构建轻量级数据集以进行模型训练,所述方法包括类间采样和类内采样两个阶段,其中:类间采样,通过逆向多样自步学习进行类间采样,具体为逆向多样自步学习算法:输入:目标数据集D输出:模型参数w,1)i

0;λ

+∞;γ

+∞;2)如果不存在先验聚类,则3)将聚类数设置为类数;4)end if;5)while not converged do;6)更新w
*
=argmin
w
E(w,v
*
;λ,γ);7)利用算法1更新v*=argmin
v
E(w
*
,v;λ,γ);8)λ

(1

e

i
)λ;γ

(1

e

i
)γ;9)i
++
;10)endwhile;11)remmw=w
*
;类内采样,基于密度的采样策略来执行,具体为基于复杂度的高效类内采样算法:输入:目标数据集采样比率ζ;输出:合成数据集合Ψ;1)Ψ

{};2)fori=1to||C||do;3)选择属于ci的所有样本,表示为4)[cN um,cCenters,cSamples]=meanshift(5)forj=1 to cN um do;6)如果||cSamples(j)||>阈值,则:7)Ψ

Ψ∪metropolis

hastings(cCenters(j),cSamples(j),ζ);8)else;9)Ψ

Ψ∪cSamples(j);10)endif;11)endfor;12)endfor;13)retumΨ。2.根据权利要求1所述的一种基于复杂度的高效样本筛选方法,其特征在于:对于类间采样,所述逆向多样自步学习数据集D={(x
i
,c
i
)}中的所有样本都可以通过逆向...

【专利技术属性】
技术研发人员:梁韵基王秋实胡航语赵志英刘磊
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1