一种基于二阶VLAD稀疏自适应深度网络的图像分类方法技术

技术编号：20177749 阅读：102 留言：0更新日期：2019-01-23 00:40

本发明专利技术提出一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，属于图像分类和深度学习技术领域。本发明专利技术首先从多个卷积层提取卷积特征，然后在每个卷积特征中获得相应的SASO‑VLAD编码，最后汇总所有的SASO‑VLAD编码，构建最终的多路径特征编码网络。该方法在现有端到端的VLAD编码模型基础上，使用稀疏自适应软分配编码的新编码方法作为权重系数，用一阶和二阶VLAD编码的级联作为最终的特征表示。对比NetVLAD模型，本发明专利技术的稀疏策略和二阶表示有效提高图像分类的有效性，多路径同时使用低、中、高等级特征来训练多个特征编码网络，比单级特征编码网络对图像特征的表示能力更强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二阶VLAD稀疏自适应深度网络的图像分类方法
本专利技术属于图像分类和深度学习
，具体涉及一种基于二阶VLAD稀疏自适应深度网络的图像分类方法。
技术介绍
深度学习模型已经在计算机视觉领域取得了优异的性能，主要的应用方向包括视觉分类，超分辨率成像，语义分割，目标检测和视觉跟踪。与传统的统计学习方法相比，深度学习模型具有两个主要优点：(1)通过端到端的训练方式可以获得特定计算机视觉任务的更适合的权重。(2)从大规模图像数据集中学习到的深层结构特征可以更好地描述原始图像。相比于传统的手工特征(SIFT特征或HOG特征)方法，深度特征方法可以显著地提升性能。考虑到端到端模型和深层特征的巨大优势，最近的一些工作将传统统计学习方法的领域知识嵌入到深度神经网络中，并以端到端的方式训练整个模型。这些新结构的神经网络不仅继承了领域专业知识，而且使所有参数更适合最终的应用任务。特征编码是一种流行的视觉分类统计学习方法。在传统的特征编码框架中，特征编码方法是连接特征提取和特征池化的核心组件，并且对视觉分类性能影响很大。流行的特征编码方法包括硬编码、软编码、卷积稀疏编码、局部约束编码、局部特征聚合描述符(VLAD)编码等。传统的特征编码方法中的所有算法组件(特征提取，字典学习，特征编码和分类器训练)都是相互独立的，因此学习到的参数对于图像分类来说可能不是最优的。此外，传统特征编码方法中使用的SIFT(尺度不变特征变换)特征不能很好地表示图像。最近，传统的VLAD编码(NetVLAD)模型被扩展到称为NetVLAD的端到端模型。NetVLAD层结合深度CNN进行联合...

【技术保护点】
1.一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，使用端到端训练的多路特征编码网络，首先从多个卷积层后面的激活函数提取非线性的卷积特征，然后在每个卷积特征中计算相应的稀疏自适应二阶‑局部特征聚合描述符SASO‑VLAD编码，最后汇总所有的SASO‑VLAD编码，构建最终的多路径特征编码网络M‑SASO‑VLADNet，通过全连接层和损失层输出分类损失；所述SASO‑VLAD编码使用稀疏自适应软分配编码SASAC来得到稀疏的权重系数，利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型SASO‑VLADNet。

【技术特征摘要】
1.一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，使用端到端训练的多路特征编码网络，首先从多个卷积层后面的激活函数提取非线性的卷积特征，然后在每个卷积特征中计算相应的稀疏自适应二阶-局部特征聚合描述符SASO-VLAD编码，最后汇总所有的SASO-VLAD编码，构建最终的多路径特征编码网络M-SASO-VLADNet，通过全连接层和损失层输出分类损失；所述SASO-VLAD编码使用稀疏自适应软分配编码SASAC来得到稀疏的权重系数，利用一阶和二阶VLAD编码共同表示端到端的稀疏自适应二阶VLAD模型SASO-VLADNet。2.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，在所述的稀疏自适应软分配编码SASAC这一新的编码方法中，稀疏自适应软分配编码SASAC层是多维高斯概率密度函数的变体，并通过端到端的方式自适应地学习所有参数，包括字典和方差参数；SASAC层仅保留T个最大概率，并强制其他小概率为零以获得稀疏权重系数。3.根据权利要求1所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，所述端到端的SASO-VLAD构成SASO-VLADNet层，网络构成步骤为：步骤3.1：使用卷积层的一个特定CNN特征Fi通过SASAC层和降维层后相乘得到一阶统计信息ξ1(Fi)；步骤3.2：ξ1(Fi)通过平均池化层后经过L2范数归一化，ξ1(Fi)通过二阶层得到二阶统计信息ξ2(Fi)后经过L2范数归一化，连接两个归一化输出后经过L2范数归一化得到最后输出；所述降维方法为仿射子空间方法。4.根据权利要求2或3所述的一种基于二阶VLAD稀疏自适应深度网络的图像分类方法，其特征在于，所述SASAC层表达式为：其中||.||2代表向量的L2范数，代表模型第i个图像特定卷积层特征的描述符集，这个描述符集合中一共有M个描述符，fij∈RD×1是Fi的第j个描述符，D代表向量维度，ak∈RD×1,bk∈RD×1,vk∈R,(k＝1,2,…,K)分别是fij的权值，fij的偏置以及归一化的偏置，这些参数都是SASO-VLADNet中的可训练参数；这些参数一共有K组，k表示具体的某一组参数的索引；k'表示满足集合ST(fij)条件的若干组参数的...

【专利技术属性】
技术研发人员：王倩倩，陈博恒，刘娇蛟，马碧云，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人