基于双流多尺度混合阶特征融合的细粒度图像识别方法技术

技术编号：41274434 阅读：5 留言：0更新日期：2024-05-11 09:27

本发明专利技术公开了一种基于双流多尺度混合阶特征融合的细粒度图像识别方法，包括：1、对输入图像进行预处理；2、利用双流基础网络提取图像特征，计算混合阶特征以及融合底层特征；3、将双流网络两支路的混合阶特征进行融合，利用融合后的特征预测细粒度类别。该方法利用双流网络提取细粒度图像的混合阶特征，此特征融合了原始卷积特征的一阶和二阶统计信息，在关注图像高阶特征信息的同时也并未忽略原始特征中的信息，因此具有很好的表征能力，解决了现有方法特征提取不充分的问题；使用融合底层混合阶特征、融合双流网络两支路混合阶特征的方法，解决了现有方法特征利用不充分的问题；给出了融合底层特征的轻便化可选实施方案，能够提升模型的识别推理速度。本发明专利技术在CUB‑200‑2011公开数据集上仅使用弱监督信息达到了较高的识别准确率，且能满足实时性检测任务的要求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与人工智能、多媒体信号处理领域，特别是涉及基于双流多尺度混合阶特征融合的细粒度图像识别方法。

技术介绍

1、随着人工智能的兴起以及深度学习的提出，计算机视觉得到了长足的发展。计算机视觉是利用机器理解和分析图像的过程，是人工智能的一个重要分支，其领域内存在多种任务，如目标检测、图像识别、目标跟踪、行为识别、图像分割等。其中，图像识别一直是计算机视觉领域中最重要的研究方向之一。作为图像识别技术研究的热点领域之一的细粒度图像分类，也被称为细粒度图像识别、子类别分类，旨在对目标大类比如鸟类、犬类等，进行更加细致的子类识别。细粒度识别任务具有子类之间方差小，子类之内方差大的特点，因此识别难度显著增加。

2、根据模型在训练阶段所依赖监督信息的强弱，基于深度学习的细粒度图像识别技术可进一步分为强监督细粒度图像识别和弱监督细粒度图像识别。强监督细粒度图像识别算法通过引入人工标注的注释框或额外的标记点等信息，实现了较为优异的分类结果。然而人工标注的监督信息获取代价高昂，限制此类技术在大规模真实场景中的应用。

3、弱监督细粒度图像识别在模型训练阶段仅需使用图像级类别标签，具有较强的实用性与可扩展性。近年来，弱监督算法的研究已经取得和强监督方法相匹敌的识别效果，因此成为了现阶段细粒度图像识别研究的主流趋势。弱监督bilinear cnn算法使用两个相互独立的基础网络提取图像特征并通过矩阵外积捕捉特征通道间成对的相关关系，获得了具有原始卷积特征二阶统计信息的双线性特征，使得分类器具有更强的判别能力。boo

技术实现思路

1、为了解决现有方法特征提取不充分、特征利用不充分的问题，本专利技术提供基于双流多尺度混合阶特征融合的细粒度图像识别方法，为达此目的，本专利技术提供基于双流多尺度混合阶特征融合的细粒度图像识别方法，包括如下步骤：

2、步骤1、对输入图像进行预处理；

3、步骤2、利用双流基础网络提取图像特征，计算混合阶特征以及融合底层特征；

4、步骤3、将双流网络两支路的混合阶特征进行融合，利用融合后的特征预测细粒度类别。

5、所述步骤2中利用双流基础网络提取图像特征：

6、步骤2.1.1：利用双流基础网络提取图像的特征，将预处理后的图片喂入两路卷积神经网络，这里的两路卷积神经网络stream1、stream2分别采用resnet-50网络和vgg-16网络，利用它们作为基础特征的提取网络，这样获得了细粒度图像的特征；所述resnet-50网络是去除全连接层和最后一层池化层的网络，所述vgg-16网络是去除classifier层和最后两层池化层的网络；

7、步骤2.1.2：将stream1支路的输出特征经卷积核大小为1×1，步长为1的卷积层进行线性映射，使其在通道维度上与stream2支路输出特征保持一致。

8、所述步骤2中计算混合阶特征：

9、步骤2.2.1：输入经卷积神经网络提取的基础特征，设其为其中c、h和w分别表示特征的通道数、高度和宽度，将其重组生成图像特征描述矩阵表示实数域；

10、步骤2.2.2：引入常向量其中k＞0；将原始特征描述矩阵x和k在通道维度上拼接，得到新的特征描述矩阵，表示为

11、

12、步骤2.2.3：将得到的特征描述矩阵x′与自己的转置x′t进行矩阵外积运算，乘上系数得到混合阶特征描述矩阵m

13、

14、式中是将特征描述矩阵x每一空间位置处的特征信息对应相乘，这一过程称为双线性池化，得到的矩阵可以看做是特征的偏心协方差矩阵(即没有减去均值的协方差矩阵)，包含原始卷积特征的二阶统计量；表示特征描述矩阵x在全部空间位置{1，2，…，hw}处的均值信息，即原始卷积特征的一阶统计量；k是常向量k的元素值；所得到的矩阵m同时包含了原始卷积特征的一阶和二阶统计信息，称之为混合阶特征描述矩阵；

15、步骤2.2.4：对m进行矩阵平方根规范化，即计算z＝m1/2，采用牛顿迭代法的变体求解方程：z2-m＝0；给定y0＝m，z0＝i，其中i是单位矩阵，迭代公式如下

16、

17、矩阵yk收敛至m1/2，矩阵zk收敛至m-1/2；反向传播过程中的梯度通过解如下方程计算

18、

19、其中l表示损失值loss，表示损失相对于z的梯度，表示损失相对于m的梯度；

20、步骤2.2.5：将矩阵z展开为特征描述向量使用逐元素符号均方根归一化对特征描述向量进行标准化处理

21、

22、步骤2.2.6：使用l2正则化对图像特征描述向量进行标准化处理

23、

24、最终得到的图像特征描述向量ψ(z)，即为所要求的混合阶特征。

25、进一步的，所述步骤2中先计算混合阶特征，再融合底层特征具体步骤为：

26、步骤2.3.1：计算底层的混合阶特征，这里的底层混合阶特征利用底层的输出特征进行计算；这里的底层特征分别选取为stream1的conv5_1层即resnet-50layer4第一个bottleneck块的输出特征、stream2的conv5_1层即vgg-16第五个卷积块第一层的输出特征；将这些底层的混合阶特征与高层的混合阶特征进行融合，融合方式为对应元素相加。

27、进一步的，所述步骤1中对图像进行预处理，具体步骤为：

28、步骤1.1：在训练集上使用随机翻折和随机裁剪来增强数据，裁剪的尺寸统一为448×448像素，在测试集上不进行随机翻折，并将随机裁剪替换为中心裁剪，即以图像中心为原点裁剪出448×448像素区域；

29、步骤1.2：基于均值[0.485，0.456，0.406]和标准差[0.229，0.224，0.225]对裁剪图像进行标准化处理，保证图像像素值服从均值为0的正态分布。

30、进一步的，所述步骤2中先融合底层特征，再计算混合阶特征，给出了轻便化可选实施方案，能够提升模型识别图像的推理速度，具体步骤为：

31、步骤2.4.1：选取底层特征，这里的底层特征分别选取为stream1的conv5_1层即resnet-50 layer4第一个bottleneck块本文档来自技高网...

【技术保护点】

1.一种基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，所述步骤1中对图像进行预处理，具体步骤为：

3.根据权利要求1所述的基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，所述步骤2中先计算混合阶特征，再融合底层特征，具体步骤为：

4.根据权利要求1所述的基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，所述步骤2中先融合底层特征，再计算混合阶特征，具体步骤为：

5.根据权利要求1所述的基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，所述步骤3中将双流网络两支路的混合阶特征进行融合，利用融合后的特征预测细粒度类别，具体步骤为：

【技术特征摘要】

1.一种基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，所述步骤1中对图像进行预处理，具体步骤为：

3.根据权利要求1所述的基于双流多尺度混合阶特征融合的细粒度图像识别方法，其特征在于，所述步骤2中先计算混合阶特征，再融合底层特...

【专利技术属性】
技术研发人员：杨绿溪，季晟宇，马翔，江志康，陈家豪，徐琴珍，俞菲，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人