当前位置: 首页 > 专利查询>东南大学专利>正文

弱监督场景下跨层特征交互的轻量级细粒度图像识别方法技术

技术编号:25600342 阅读:111 留言:0更新日期:2020-09-11 23:57
弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,该方法利用多层聚合分组卷积代替常规卷积构建出新型残差模块,将其直接嵌入深度残差网络框架实现基础网络轻量化。之后,通过计算高效的低秩近似多项式核池化对特征之间的交互作用进行建模,压缩特征描述向量维度,降低分类全连接层的存储占用与计算成本,同时这一池化方案促使线性分类器具备与高阶多项式核分类器相当的判别能力,显著提高识别精度。最终,采用跨层特征交互网络框架组合特征多样性,增强特征学习与表达能力,减少过拟合风险。本发明专利技术公开的弱监督场景下跨层特征交互的轻量级细粒度图像识别方法在识别准确率、计算复杂度和技术可行性三个方面的综合性能处于目前领先水平。

【技术实现步骤摘要】
弱监督场景下跨层特征交互的轻量级细粒度图像识别方法
本专利技术属于计算机视觉领域,尤其是利用图像级标签弱监督信息,结合低秩近似多项式核池化与跨层特征交互网络框架进行细粒度图像识别的一种方法,特别是涉及弱监督场景下跨层特征交互的轻量级细粒度图像识别方法。
技术介绍
随着互联网技术的迅速发展,人类社会迈入信息化时代,网络中以文本、图像、语音和视频等多种方式存储的数据资源总量呈指数型增长。其中图像数据因生动直观、不受地域和语言的限制,逐渐成为主流的信息载体,具有广阔的应用前景和现实的研究意义。与此同时,并行计算理论的提出与硬件设备的升级促使海量图像处理成为可能,由此掀起包括图像识别、目标检测及语义分割等计算机视觉领域的研究热潮。图像识别是计算机视觉领域中一项基础性研究课题,主要任务是针对采集图像进行预处理,在此基础上提取特征信息,并依据这一特征信息构建分类器从而判断图像中目标类别。传统图像识别中待识别对象类别通常是粗粒度的,例如行人、猫狗和车辆等。此类跨物种目标呈现明显的外观差异且无从属关系,因此识别难度较低。然而在许多真实应用中待识别的目标属于细粒度类别,即隶属于某一特定粗粒度类别下不同的子类,例如不同品种的花卉、各类型号的汽车等。与粗粒度图像识别任务相比,细粒度数据集内不同子类的目标外观相似度较高,而同一子类的目标由于姿势、视角和遮挡等因素导致视觉差异显著。基于海量数据借助人工神经网络自主学习图像高级语义特征的深度学习图像识别技术能够从多角度多层次描述图像信息,具备较强的鲁棒性,引起学术界和工业界广泛的关注。目前许多学者构建出大量深度学习模型并将其应用于细粒度图像识别任务,取得初步研究成果。根据模型在训练阶段所依赖监督信息的强弱,基于深度学习的细粒度图像识别技术可进一步分为强监督细粒度图像识别和弱监督细粒度图像识别。强监督细粒度图像识别算法通过引入额外的监督信息,辅之以复杂的检测模型,实现高精度识别已不再是难事。然而人工标注的监督信息获取代价高昂,限制此类技术在大规模真实场景中的应用。与此同时,弱监督细粒度图像识别在模型训练阶段仅需图像级标签即可较为准确的判断目标类别,实用性与可扩展性较强,成为现阶段细粒度图像识别研究的主流趋势。弱监督BilinearCNN使用两个相互独立的基础网络提取图像特征并通过矩阵外积捕捉特征通道间成对的相关关系,获得卷积特征的二阶统计信息,使得线性分类器具备与二阶多项式核分类器相同的判别能力(详见T.Lin,S.Maji.BilinearConvolutionalNeuralNetworksforFine-GrainedVisualRecognition,2015.)。ImprovedB-CNN对双线性特征描述矩阵实施均方根归一化操作来压缩特征值的动态范围,并结合L2正则化等手段进一步提高模型的稳定(详见T.Lin.ImprovedBilinearPoolingwithCNNs,2017.)。Boost-CNN借助集成学习的思想将多个分类能力较弱的BilinearCNN通过Boosting方式组合起来,求解最小二乘函数确定每一个基学习器的权重系数以构建一个强分类器(详见M.Mohammad.BoostedConvolutionalNeuralNetworks,2016.)。CBP利用RandomMaclaurin(RM)和TensorSketch(TS)两种近似算法拟合二阶多项式核函数,使得8192维TS特征具备与262K维双线性特征相同的表达能力(详见Y.Gao.CompactBilinearPooling,2016.)。考虑到卷积神经网络在前向传播过程中存在信息损耗的现象,BilinearCNN及各类变体算法利用深度神经网络的顶层卷积激活进行双线性池化,但是来自单个卷积层的特征不足以描述图像全部关键区域的语义,直接将其视作参考特征可能导致对细粒度图像识别有重要意义的判别性信息丢失。此外,双线性池化利用矩阵外积运算捕捉特征通道间成对的相关关系,促使识别准确率显著提升,然而这一操作却导致特征描述向量的维度增至262K,全连接层的参数量和计算量也随之线性增长。尽管CBP利用低维随机投影RM和TS算法拟合二阶多项式核函数能够在一定程度上减少特征描述向量的维度,但因其计算过程涉及傅里叶变换导致运行耗时大幅增加。综上所述,针对仅使用图像级标签信息的弱监督细粒度图像识别任务,现有方法难以在模型参数量与计算量较低的情况下实现高精度识别,因此需要一种在识别准确率和计算复杂度之间平衡的跨层特征交互的轻量级细粒度图像识别方法。
技术实现思路
为了解决以上问题,本专利技术提供弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,解决的技术问题在于仅使用图像级标签构建细粒度识别模型,在获得较高识别准确率的同时降低模型的存储空间与计算成本,使其适用于大规模真实场景,为达此目的,本专利技术提供弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,包括如下步骤:(1)在预处理阶段,将任意尺寸的原始图像统一缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入轻量级基础特征提取网络ResNet-G;(2)输入图像经过轻量级基础网络ResNet-G三个不同的卷积层输出的特征张量分别为和其中Hi、Wi和Ci(i=1,2,3)分别表示卷积特征的高度、宽度与通道数;(3)将X、Y和Z并行通过三个卷积核大小为1×1,步长为Si,输入通道数为Ci,输出通道数为D的多项式卷积模块进行独立的线性映射,生成投影特征张量X,Y,Z∈RH×W×D式中,H和W分别表示投影特征的高度与宽度,D表示投影维度,卷积步长Si根据各卷积层输出特征张量的高度Hi与投影特征张量的高度H计算获得;(4)借助低秩近似多项式核池化方式对各卷积层投影特征之间的交互信息进行建模,为使线性分类器具备与二阶多项式核分类器相当的判别能力,取多项式核函数阶数r=2,则式中,表示张量点积运算,和表示跨层二阶多项式特征张量;(5)利用全局平均池化操作聚合二阶多项式特征张量每一通道内全部空间位置的特征信息,获得多项式特征向量,从而进一步压缩特征向量的维度;式中,和分别表示对应于特征张量和的跨层二阶多项式特征向量,Ω={1,2,…,HW}表示特征图谱全部空间位置集合;(6)通过特征级联汇聚所有跨层多项式特征向量,输出细粒度图像特征描述向量;(7)使用逐元素符号均方根归一化对图像特征描述向量进行标准化处理;(8)使用L2正则化对图像特征描述向量进行标准化处理;(9)将标准化特征描述向量输入分类全连接层;式中,θ∈Rk表示分类全连接层的输出向量,P∈Rk×3D表示分类全连接层的权重参数矩阵,k表示目标类别数目;(10)结合softmax函数计算输入图本文档来自技高网
...

【技术保护点】
1.弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,其特征在于,包括如下步骤:/n(1)在预处理阶段,将任意尺寸的原始图像统一缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入轻量级基础特征提取网络ResNet-G;/n(2)输入图像经过轻量级基础网络ResNet-G三个不同的卷积层输出的特征张量分别为

【技术特征摘要】
20200421 CN 20201031720581.弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,其特征在于,包括如下步骤:
(1)在预处理阶段,将任意尺寸的原始图像统一缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入轻量级基础特征提取网络ResNet-G;
(2)输入图像经过轻量级基础网络ResNet-G三个不同的卷积层输出的特征张量分别为和其中Hi、Wi和Ci(i=1,2,3)分别表示卷积特征的高度、宽度与通道数;
(3)将X、Y和Z并行通过三个卷积核大小为1×1,步长为Si,输入通道数为Ci,输出通道数为D的多项式卷积模块进行独立的线性映射,生成投影特征张量
X,Y,Z∈RH×W×D
式中,H和W分别表示投影特征的高度与宽度,D表示投影维度,卷积步长Si根据各卷积层输出特征张量的高度Hi与投影特征张量的高度H计算获得;
(4)借助低秩近似多项式核池化方式对各卷积层投影特征之间的交互信息进行建模,为使线性分类器具备与二阶多项式核分类器相当的判别能力,取多项式核函数阶数r=2,则









式中,表示张量点积运算,和表示跨层二阶多项式特征张量;
(5)利用全局平均池化操作聚合二阶多项式特征张量每一通道内全部空间位置的特征信息,获得多项式特征向量,从而进一步压缩特征向量的维度;



式中,和分别表示对应于特征张量和的跨层二阶多项式特征向量,Ω={1,2,…,HW}表示特征图谱全部空间位置集合;
(6)通过特征级联汇聚所有跨层多项式特征向量,输出细粒度图像特征描述向量;



(7)使用逐元素符号均方根归一化对图像特征描述向量进行标准化处理;



(8)使用L2正则化对图像特征描述向量进行标准化处理;



(9)将标准化特征描述向量输入分类全连接层;



式中,θ∈Rk表示分类全连接层的输出向量,P∈Rk×3D表示分类全连接层的权重参数矩阵,k表示目标类别数目;
(10)结合softmax函数计算输入图像属于每一类别的概率;



式中,ηi表示输入图像属于...

【专利技术属性】
技术研发人员:李春国刘杨杨哲胡健杨绿溪徐琴珍
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1