一种关于室内场景的图像识别与分类方法及装置制造方法及图纸

技术编号：39737660 阅读：15 留言：0更新日期：2023-12-17 23:39

本发明专利技术涉及一种关于室内场景的图像识别与分类方法及装置

全部详细技术资料下载

【技术实现步骤摘要】
一种关于室内场景的图像识别与分类方法及装置

[0001]本专利技术属于多室内场景图像识别与分类领域，具体涉及一种关于室内场景的图像识别与分类方法及装置
。

技术介绍

[0002]室内场景识别是高层次计算机视觉中一个具有挑战性的问题
。
大多数适用于室外场景的场景识别模型和传统图像分类模型都对于室内领域表现不佳
。
主要困难在于，室内场景具有丰富的多样性和复杂性
。
很多室内场景环境复杂，规模巨大，并存在很多无纹理空间区域和视觉歧义区域
。
[0003]有一些室内场景
(
例如走廊
)
可以通过全局空间属性很好地表征，而另一些其他的场景
(
例如书店
)
一般是通过它们所包含的局部对象来进行表征
。
所以解决室内场景识别问题，常常需要一个可以高效利用局部和全局判别信息的模型
。
[0004]另外现有的深度学习模型通常需要大量计算资源和内存空间，这在一定程度上限制了它们在移动设备和嵌入式系统上的应用
。
例如，专利技术名称为“一种矿石矿物图像自动识别与分类方法”的专利
(
专利号：
CN201811048650.8)
，可辅助地质行业从业者对矿石显微照片进行识别分类，提高地质工作者的工作效率
。
然而该方法仅仅基于卷积神经网络
(CNN)
，分类效果有限且处理照片速度缓慢/>。
[0005]自从
Transformer
在自然语言处理领域取得突破性进展以来，它就被广泛应用于计算机视觉领域，并展示出强大的性能
。
相较于传统的卷积神经网络，
Transformer
具有更强的全局处理能力，可捕捉图像中的长距离依赖关系
。
然而在处理和交互图像中的局部特征方面，
Transformer
的表现并不理想
。
因此，构建一个既能处理局部计算又能实现全局通信的高性能网络结构成为了一个待解决的问题
。

技术实现思路

[0006]针对上述现有技术的不足，本专利技术提供一种关于室内场景的图像识别与分类方法及装置
。
[0007]本专利技术的目的是通过以下技术方案实现的：
[0008]根据本说明书的第一方面，提供一种关于室内场景的图像识别与分类方法，包括以下步骤：
[0009]步骤
S1
，先将室内场景图片数据集中的室内场景图片裁剪成大小统一的裁剪图片，然后将裁剪图片经过
mix up、
随机缩放裁剪和随机水平翻转而得到数据增强图片，再使用
Stem
图像特征预提取模块对数据增强图片进行预处理而得到特征图，最后基于特征图而构建特征图数据集；
[0010]步骤
S2
，将所述特征图数据集中的特征图依次经过
MobileNet
作为网络结构中的深度可分离卷积操作
、
动态的
ReLU
激活函数，提取到局部特征；
[0011]步骤
S3
，将所述特征图数据集中的特征图中一些可学习的标记输入到基于注意力
的特征编码融合转换器中，以进行全局特征处理，得到全新全局特征，其中，所述特征编码融合转换器是由
LAFF
特征融合模块和
Transformer
以及前馈神经网络层进行串联堆叠而得到，它可以高效地捕捉图像中的长距离依赖关系，继而对于全局特征进行融合与编码；
[0012]步骤
S4
，先将所述特征图输入从
Mobile
一侧至所述特征编码融合转换器的注意力桥梁，以传输到所述特征编码融合转换器这一侧的分支上，再将其与所述全新全局特征进行第一次融合，得到第一次混合特征；
[0013]步骤
S5
，先使用
MixAttention
对所述全新全局特征和所述第一次混合特征做注意力混合而后再进行双线性插值，得到第二次混合特征；
[0014]步骤
S6
，先将所述第二次混合特征输入从所述特征编码融合转换器至
Mobile
的注意力桥梁，以传输到
MobileNet
这一侧的分支上，再将所述第二次混合特征与所述局部特征进行融合，得到第三次混合特征；
[0015]步骤
S7
，将所述第三次混合特征输入
Wave_MLP
中，得到增强了非线性表达能力的次终级特征；
[0016]步骤
S8
，将所述次终级特征和所述第二次混合特征进行拼接，得到终级特征；
[0017]步骤
S9
，使用由两个线性层构成的分类器对所述终级特征进行分类
。
[0018]进一步地，所述步骤
S4
具体包括以下内容：
[0019]从
Mobile
至所述特征编码融合转换器的注意力桥梁的注意力运算是在
MobileNet
的瓶颈处进行的，那里的通道维度很低，计算方便；
[0020]具体来说，即是从特征图
X
到全局特征
Z
的轻量级交叉注意力桥梁，计算如下：
[0021][0022]为了节省计算量，在特征图
X
上去除了标准注意力中的键
W
K
和值
W
V
的投影矩阵，仅保留
W
O
投影矩阵；
[0023]其中，特征图
X
和全局特征
Z
被分成
h
个头，也即是
:
[0024][0025]是第
i
个头的查询投影矩阵，
W
O
用于组合多个头在一起，
Attn(Q,K,V)
是查询
Q、
键
K
和值
V
的标准注意力函数
。
[0026]进一步地，所述步骤
S5
具体包括以下内容：
[0027]MixAttention
的计算过程如下：
[0028][0029]其中，
W
O
、W
I
是线性层的权重矩阵，
d
是隐藏层大小，
IntTensor
代表输入张量，
ObjectTensor
代表的是目标张量，
MixedTensor
是混合之后得到的结果张量，整个混合的过程会计算两遍，第一遍的时候目标张量是第一次混合特征，输入张量是全新全局特征；第二遍的时候目标张量是全新全局特征，输入张量则变为了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种关于室内场景的图像识别与分类方法，其特征在于，包括以下步骤：步骤
S1
，先将室内场景图片数据集中的室内场景图片裁剪成大小统一的裁剪图片，然后将裁剪图片经过
mix up、
随机缩放裁剪和随机水平翻转而得到数据增强图片，再使用
Stem
图像特征预提取模块对数据增强图片进行预处理而得到特征图，最后基于特征图而构建特征图数据集；步骤
S2
，将所述特征图数据集中的特征图依次经过
MobileNet
作为网络结构中的深度可分离卷积操作
、
动态的
ReLU
激活函数，提取到局部特征；步骤
S3
，将所述特征图数据集中的特征图中一些可学习的标记输入到基于注意力的特征编码融合转换器中，以进行全局特征处理，得到全新全局特征，其中，所述特征编码融合转换器是由
LAFF
特征融合模块和
Transformer
以及前馈神经网络层进行串联堆叠而得到，它可以高效地捕捉图像中的长距离依赖关系，继而对于全局特征进行融合与编码；步骤
S4
，先将所述特征图输入从
Mobile
一侧至所述特征编码融合转换器的注意力桥梁，以传输到所述特征编码融合转换器这一侧的分支上，再将其与所述全新全局特征进行第一次融合，得到第一次混合特征；步骤
S5
，先使用
MixAttention
对所述全新全局特征和所述第一次混合特征做注意力混合而后再进行双线性插值，得到第二次混合特征；步骤
S6
，先将所述第二次混合特征输入从所述特征编码融合转换器至
Mobile
的注意力桥梁，以传输到
MobileNet
这一侧的分支上，再将所述第二次混合特征与所述局部特征进行融合，得到第三次混合特征；步骤
S7
，将所述第三次混合特征输入
Wave_MLP
中，得到增强了非线性表达能力的次终级特征；步骤
S8
，将所述次终级特征和所述第二次混合特征进行拼接，得到终级特征；步骤
S9
，使用由两个线性层构成的分类器对所述终级特征进行分类
。2.
根据权利要求1所述的关于室内场景的图像识别与分类方法，其特征在于，所述步骤
S4
具体包括以下内容：从
Mobile
至所述特征编码融合转换器的注意力桥梁的注意力运算是在
MobileNet
的瓶颈处进行的，那里的通道维度很低，计算方便；具体来说，即是从特征图
X
到全局特征
Z
的轻量级交叉注意力桥梁，计算如下：为了节省计算量，在特征图
X
上去除了标准注意力中的键
W
K
和值
W
V
的投影矩阵，仅保留
W
...

【专利技术属性】
技术研发人员：王勋，刘正威，孙杰，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人