【技术实现步骤摘要】
一种基于两阶段主动学习的图像识别分类方法
[0001]本专利技术涉及一种图像识别方法,特别是一种基于两阶段主动学习的图像识别分类方法。
技术介绍
[0002]在计算机视觉领域,面对复杂的任务及应对其设计的神经网络,高质量的标记数据是不可或缺的。但是,在很多应用场景中,高质量的标记数据却难以大量获取。主动学习(Active Learning,AL)旨在通过使用数量尽可能少、但信息量足够大的标签样本,在控制数据标注成本的同时获得与完全监督训练相同的效果。在传统的基于池的主动学习场景中,大量未标记的样本形成一个候选样本池(称为无标签池),而训练集是有限的。模型通过特定的采样策略,不断从无标签池中选择关键样本,请求进行人工标注,以此扩展训练集,从而迭代优化当前模型。
[0003]目前AL的主流思路是在遵循上述框架的前提下,设计不同的主动采样策略。例如,在分类任务中,经典的最小置信度(Least Confidence,LC)算法、间隔(Margin)算法和熵(Entropy)算法均以当前模型的预测不确定性作为采样的依据。在目标检测任务中,一部分方法直接借用分类任务的思路,仅对分类分支进行抽样,另一部分方法则将目光聚集于回归分支,将回归框预测的稳定性作为抽样的依据。
[0004]然而,上述方法中的AL采样策略依赖于特定的任务。尽管经过适当的修正后可以适应其他任务,但这些方法在新任务上往往效果不佳。近年来,研究人员开始探索并设计一种任务不可知的AL方法,希望以此提供一种通用的抽样策略。例如,Yoo等人提出了一个任务 ...
【技术保护点】
【技术特征摘要】
1.一种基于两阶段主动学习的图像识别分类方法,其特征在于,包含以下步骤:步骤1,在用于训练图像识别分类模型的数据集中,确定需要标注的数据量;步骤2,使用主动学习方法进行第一阶段主动采样,得到第一阶段样本;步骤3,采用多视图聚类方法,对第一阶段样本进行聚类;步骤4,计算任意两个视图间的一致度;步骤5,计算采样得分作为采样策略,进行第二阶段主动采样,对经过第二阶段主动采样获得的第二阶段样本进行人工标注;步骤6,对图像识别分类模型进行训练;步骤7,重复步骤1至步骤6,对图像识别分类模型进行迭代优化,当人工标注的样本数量达到步骤1中所确定的数据量后,跳过步骤1至步骤5,且仅使用步骤6中所述任务损失作为损失函数对图像识别分类模型进行训练;步骤8,应用优化完成的图像识别分类模型进行图像识别分类。2.根据权利要求1所述的一种基于两阶段主动学习的图像识别分类方法,其特征在于,步骤2中所述的使用主动学习方法进行第一阶段主动采样,包括:对原始数据集即无标签池中的数据使用主动学习方法,作为第一阶段的主动采样策略,得到第一阶段的采样结果,即第一阶段样本,第一阶段样本的集合是无标签池的子集。3.根据权利要求2所述的一种基于两阶段主动学习的图像识别分类方法,其特征在于,步骤3所述对第一阶段样本进行聚类,具体包括:步骤3
‑
1,提取每个第一阶段样本在图像识别分类模型中每一层的特征,定义所有样本在同一层的特征即为一个视图;设图像识别分类模型中用于提取特征的层共有U个,即有U个视图;步骤3
‑
2,使用高斯混合模型GMM对每个视图中第一阶段样本的分布进行建模得到GMM模型,并形成聚类结果。4.根据权利要求3所述的一种基于两阶段主动学习的图像识别分类方法,其特征在于,步骤3所述步骤3
‑
2,使用高斯混合模型GMM对每个视图中第一阶段样本的分布进行建模,并形成聚类结果,具体包括:在高斯混合模型GMM中,使用概率密度函数刻画同一个视图中各个样本的分布,其中,x表示输入样本,θ表示GMM模型的参数K表示高斯混合模型中高斯模型的数量,φ(x|μ
k
,σ
k
)表示以μ
k
为均值、σ
k
为方差的第k个高斯模型,α
k
是权重,即当前样本属于第k个高斯模型的概率;使用高斯混合模型GMM形成聚类结果的具体操作方法叙述如下:设所有第一阶段样本的集合为其中N为第一阶段样本数量,其中x
(i)
(1≤i≤N)表示第i个第一阶段样本;引入隐变量引入隐变量然后执行以下步骤:步骤3
‑2‑
1:随机初始化θ,包括权重α
k
、均值μ
k
和方差σ
k
;
步骤3
‑2‑
2:计算隐变量的估计值方法如下:步骤3
‑2‑
3:计算GMM模型参数θ的估计值和具体方法如下:具体方法如下:具体方法如下:并用和作为α
k
、μ
k
和σ
k
的新值;步骤3
‑2‑
4:重复步骤3
‑2‑
2和步骤3
‑2‑
3,直到模型收敛,即对于事先给定的阈值t
α
、t
μ
和t
σ
,满足:和最终用和作为α
k
、μ
k
和σ
k
的近似值;步骤3
‑2‑
5:对于个U个视图,得到U个分布p1(x|θ1)、p2(x|θ2)、
……
、p
U
(x|θ
U
),其中θ
U
表示第U个参数;根据上述分布,分别在每个视图上为每个第一阶段样本划分出所属类别作为聚类的结果。5.根据权利要求4所述的一种基于两阶段主动学习的图像识别分类方法,其特征在于,步骤4所述的计算任意两个视图间的一致度,即使用Rand统计量计算两个视图即第m个视图V
m
和第n个视图V
n
间的一致度R(V
m
,V
n
)(1≤m≤U,1≤n≤U),具体方法如下:将第一阶段样本x
i
在视图V
m
上的聚类结果记为第一阶段样本总数记为s,所有样本共组成s(s
‑
1)/2个样本对,其中样本x
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。