一种基于二阶VLAD稀疏自适应深度网络的图像分类方法技术

技术编号:20177749 阅读:102 留言:0更新日期:2019-01-23 00:40
本发明专利技术提出一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,属于图像分类和深度学习技术领域。本发明专利技术首先从多个卷积层提取卷积特征,然后在每个卷积特征中获得相应的SASO‑VLAD编码,最后汇总所有的SASO‑VLAD编码,构建最终的多路径特征编码网络。该方法在现有端到端的VLAD编码模型基础上,使用稀疏自适应软分配编码的新编码方法作为权重系数,用一阶和二阶VLAD编码的级联作为最终的特征表示。对比NetVLAD模型,本发明专利技术的稀疏策略和二阶表示有效提高图像分类的有效性,多路径同时使用低、中、高等级特征来训练多个特征编码网络,比单级特征编码网络对图像特征的表示能力更强。

【技术实现步骤摘要】
一种基于二阶VLAD稀疏自适应深度网络的图像分类方法
本专利技术属于图像分类和深度学习
,具体涉及一种基于二阶VLAD稀疏自适应深度网络的图像分类方法。
技术介绍
深度学习模型已经在计算机视觉领域取得了优异的性能,主要的应用方向包括视觉分类,超分辨率成像,语义分割,目标检测和视觉跟踪。与传统的统计学习方法相比,深度学习模型具有两个主要优点:(1)通过端到端的训练方式可以获得特定计算机视觉任务的更适合的权重。(2)从大规模图像数据集中学习到的深层结构特征可以更好地描述原始图像。相比于传统的手工特征(SIFT特征或HOG特征)方法,深度特征方法可以显著地提升性能。考虑到端到端模型和深层特征的巨大优势,最近的一些工作将传统统计学习方法的领域知识嵌入到深度神经网络中,并以端到端的方式训练整个模型。这些新结构的神经网络不仅继承了领域专业知识,而且使所有参数更适合最终的应用任务。特征编码是一种流行的视觉分类统计学习方法。在传统的特征编码框架中,特征编码方法是连接特征提取和特征池化的核心组件,并且对视觉分类性能影响很大。流行的特征编码方法包括硬编码、软编码、卷积稀疏编码、局部约束编码、局部特征聚合描述符(VLAD)编码等。传统的特征编码方法中的所有算法组件(特征提取,字典学习,特征编码和分类器训练)都是相互独立的,因此学习到的参数对于图像分类来说可能不是最优的。此外,传统特征编码方法中使用的SIFT(尺度不变特征变换)特征不能很好地表示图像。最近,传统的VLAD编码(NetVLAD)模型被扩展到称为NetVLAD的端到端模型。NetVLAD层结合深度CNN进行联合训练,以获得出色的图像分类和图像检索结果,此外,NetVLAD模型已经在动作分类领域证明了它的有效性。但是现有的NetVLAD模型仅使用来自空间尺度的一阶聚合信息,端到端特征编码网络的辨别能力尚未充分研究。
技术实现思路
本专利技术为了克服现有NetVLAD模型,端到端特征编码网络的辨别能力尚未充分研究的缺点,提出一种基于二阶VLAD稀疏自适应深度网络的图像分类方法。该方法在现有NetVLAD模型基础上,使用稀疏自适应软分配编码(SASAC)的新编码方法作为权重系数,利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型(SASO-VLADNet),从多个卷积层提取卷积特征,通过由多个SASO-VLADNet构成的多路特征编码网络(M-SASO-VLADNet)产生最终的特征编码,最后通过全连接层和损失层输出分类损失。本专利技术的目的具体通过如下技术方案实现。一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,该方法使用端到端训练的多路特征编码网络,首先从多个卷积层后面的激活函数提取非线性的卷积特征,然后在每个卷积特征中计算相应的稀疏自适应二阶-局部特征聚合描述符SASO-VLAD(稀疏自适应二阶-局部特征聚合描述符)编码,最后汇总所有的SASO-VLAD编码,构建最终的多路径特征编码网络(M-SASO-VLADNet),通过全连接层和损失层输出分类损失;所述SASO-VLAD编码使用稀疏自适应软分配编码(SASAC)来得到稀疏的权重系数,利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型(SASO-VLADNet)。进一步地,在所述的稀疏自适应软分配编码(SASAC)这一新的编码方法中,稀疏自适应软分配编码(SASAC)层是多维高斯概率密度函数的变体,并通过端到端的方式自适应地学习所有参数,包括字典和方差参数;SASAC层仅保留T个最大概率,并强制其他小概率为零以获得稀疏权重系数。进一步地,所述端到端的SASO-VLAD构成SASO-VLADNet层,网络构成步骤为:步骤3.1:使用卷积层的一个特定CNN特征Fi通过SASAC层和降维层后相乘得到一阶统计信息ξ1(Fi);步骤3.2:ξ1(Fi)通过平均池化层后经过L2范数归一化,ξ1(Fi)通过二阶层得到二阶统计信息ξ2(Fi)后经过L2范数归一化,连接两个归一化输出后经过L2范数归一化得到最后输出;所述降维方法为仿射子空间方法。进一步地,所述SASAC层表达式为:其中||.||2代表向量的L2范数,代表模型第i个图像特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,ak∈RD×1,bk∈RD×1,vk∈R,(k=1,2,…,K)分别是fij的权值,fij的偏置以及归一化的偏置,这些参数都是SASO-VLADNet中的可训练参数。这些参数一共有K组,k表示具体的某一组参数的索引。k'表示满足集合ST(fij)条件的若干组参数的索引。ST(fij)是满足如下条件的集合:其中是ST(fij)的互补集合,Card(ST(fij))是ST(fij)的元素数。进一步地,激活函数可以为sigmoid函数、tanh函数和ReLU函数中的一种;进一步地,所述一阶统计信息ξ1(Fi)表达式为:代表模型第i个图像的特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,λij(k)为权利要求4中的SASAC层的编码系数,Uk,μk为一阶统计信息中的降维矩阵和偏置,并且一共有K组降维矩阵和偏置,k表示具体的某一组降维矩阵和偏置的索引,(Ukfij+μk)表示第k组仿射子空间层。降维矩阵和偏置都是SASO-VLADNet中的可训练参数。进一步地,二阶统计信息ξ2(Fi)利用协方差矩阵获得通道间的交互特征,二阶统计信息ξ2(Fi)的表达式为:其中vec是将矩阵转换为相应列向量的向量运算。进一步地,所述的SASO-VLADNet模型的前向操作首先更新深度网络的最终损失,然后将损失关于每个参数的梯度反向传播到输入以更新SASO-VLADNet层;所述输出的分类损失是标准的softmax损失。进一步地,所述多路特征编码网络(M-SASO-VLADNet)同时使用低、中、高多个等级的卷积特征来训练多个特征编码网络。进一步地,所述的完整模型的参数更新步骤包括:步骤1:在每个SASO-VLADNet层获得初始化参数;步骤2:通过每一个SASO-VLADNet编码和最终的softmax分类器来初始化最终的全连接层的权值;步骤3:利用上述的初始化参数并基于端到端的训练方式,softmax分类器的梯度信息用于更新M-SASO-VLADNet中每一层的参数直到分类器损失曲线收敛为止。与现有技术相比,本专利技术方法所提出的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,具有如下优点:对比NetVLAD模型,本专利技术的稀疏策略和二阶表示有效提高了图像分类的性能,多路径同时使用低、中、高等级特征来训练多个特征编码网络,比单级特征编码网络对图像特征的表示能力更强。附图说明图1是本专利技术方法的流程示意图;图2是本专利技术方法中SASO-VLADNet层的网络结构图;图3是本专利技术方法中M-SASO-VLADNet网络结构图。具体实施方式为了清楚地说明本专利技术的目的、技术方案及优点,以下结合附图及实施例,对本专利技术进行进一步详细说明。需指出的是,以下若有未特别详细说明之过程或符号,均是本领域技术人员可参照现有技术实本文档来自技高网
...

【技术保护点】
1.一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,使用端到端训练的多路特征编码网络,首先从多个卷积层后面的激活函数提取非线性的卷积特征,然后在每个卷积特征中计算相应的稀疏自适应二阶‑局部特征聚合描述符SASO‑VLAD编码,最后汇总所有的SASO‑VLAD编码,构建最终的多路径特征编码网络M‑SASO‑VLADNet,通过全连接层和损失层输出分类损失;所述SASO‑VLAD编码使用稀疏自适应软分配编码SASAC来得到稀疏的权重系数,利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型SASO‑VLADNet。

【技术特征摘要】
1.一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,使用端到端训练的多路特征编码网络,首先从多个卷积层后面的激活函数提取非线性的卷积特征,然后在每个卷积特征中计算相应的稀疏自适应二阶-局部特征聚合描述符SASO-VLAD编码,最后汇总所有的SASO-VLAD编码,构建最终的多路径特征编码网络M-SASO-VLADNet,通过全连接层和损失层输出分类损失;所述SASO-VLAD编码使用稀疏自适应软分配编码SASAC来得到稀疏的权重系数,利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型SASO-VLADNet。2.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,在所述的稀疏自适应软分配编码SASAC这一新的编码方法中,稀疏自适应软分配编码SASAC层是多维高斯概率密度函数的变体,并通过端到端的方式自适应地学习所有参数,包括字典和方差参数;SASAC层仅保留T个最大概率,并强制其他小概率为零以获得稀疏权重系数。3.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,所述端到端的SASO-VLAD构成SASO-VLADNet层,网络构成步骤为:步骤3.1:使用卷积层的一个特定CNN特征Fi通过SASAC层和降维层后相乘得到一阶统计信息ξ1(Fi);步骤3.2:ξ1(Fi)通过平均池化层后经过L2范数归一化,ξ1(Fi)通过二阶层得到二阶统计信息ξ2(Fi)后经过L2范数归一化,连接两个归一化输出后经过L2范数归一化得到最后输出;所述降维方法为仿射子空间方法。4.根据权利要求2或3所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法,其特征在于,所述SASAC层表达式为:其中||.||2代表向量的L2范数,代表模型第i个图像特定卷积层特征的描述符集,这个描述符集合中一共有M个描述符,fij∈RD×1是Fi的第j个描述符,D代表向量维度,ak∈RD×1,bk∈RD×1,vk∈R,(k=1,2,…,K)分别是fij的权值,fij的偏置以及归一化的偏置,这些参数都是SASO-VLADNet中的可训练参数;这些参数一共有K组,k表示具体的某一组参数的索引;k'表示满足集合ST(fij)条件的若干组参数的...

【专利技术属性】
技术研发人员:王倩倩陈博恒刘娇蛟马碧云
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1