当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法技术

技术编号:37960315 阅读:8 留言:0更新日期:2023-06-30 09:35
本发明专利技术公开了一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法,包括:(1)将输入图片划分为若干小块,分别进行嵌入并添加位置编码;(2)将得到的输入向量通过若干串行的可变分组的注意力模块和幅值冷却模块,得到图像表征;(3)将图像表征通过块融合模块,得到降采样的图像表征;(4)将步骤(2)~(3)作为一个阶段,串行地堆叠多阶段,得到层次化的图像表征;(5)将层次化的图像表征输入到目标检测和语义分割相应的任务头中,训练模型;(6)将采集的图片处理后输入训练好的模型中,针对目标检测或语义分割分别输出结果。本发明专利技术具有更高的目标检测和语义分割处理速度、更稳定的训练过程以及更快的模型收敛速度。更稳定的训练过程以及更快的模型收敛速度。更稳定的训练过程以及更快的模型收敛速度。

【技术实现步骤摘要】
一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法


[0001]本专利技术涉及深度学习以及视觉感知领域,尤其是涉及一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法。

技术介绍

[0002]随着人工智能、深度学习和计算机视觉技术的发展,基于深度学习的计算机视觉感知已经被应用到了多个领域,如汽车的自动驾驶车辆障碍物检测、智能交通与安防的行人检测、智能门禁人脸识别等。
[0003]视觉感知是指通过拍摄到的图像对环境信息进行感知的过程,即根据图像的颜色、纹理、物体形状等自动捕捉其中重要的视觉信息。目标检测和语义分割是视觉感知中最常见的两个任务。其中,如图1所示,目标检测要求检测出图中物体的类比并以方框的形式给出物体位置;而语义分割则进一步要求给出物体像素级的边界以及物体类别。在实际使用中,视觉感知模型需要拥有充分高的处理速度以满足应用实时性的需求,并需要能够处理图像中可能存在的遮挡、阴影、小目标检测等问题。
[0004]目前,视觉感知技术研究的主流方向在深度学习模型。较之尺度不变特征转换(Scale

invariant feature transform,SIFT)等传统视觉信息处理方法,深度学习模型能够在大量数据的帮助下获得良好的抗干扰能力,因而更适用于复杂的现实情况。目前投入实际使用的视觉感知深度学习模型大都基于卷积神经网络(Convolution Neural Network,CNN),如发表于2019年计算机视觉顶级会议ICCV的工作《Centernet:Keypoint triplets for object detection》设计了基于卷积神经网络目标检测器,至今仍是基于卷积神经网络的目标检测工作中性能最好的模型之一;发表在第20届IEEE智能运输系统国际会议(IEEE International Conference on Intelligent Transportation Systems,ITSC)上的论文《Learning to Tell Brake and Turn Signals in Videos Using CNN

LSTM Structure》使用卷积神经网络与循环神经网络结合的方式来对前车的车尾灯进行目标检测。此后,由于变换器(Transformer)在视觉领域表现出比卷积神经网络更高的感知准确性,近两年也出现了许多机遇变换器的目标检测和语义分割方法,如发表在ICCV 2021的论文
[0005]《Swin transformer:Hierarchical vision transformer using shifted windows》
[0006]提出了一种拥有分层结构的通用视觉感知模型,改进了原始的Transformer的全局注意力机制,利用可移动窗口(Shifted

Window)的思想以一个局部的注意力机制来近似全局的注意力机制,节省了模型的计算和存储开销,该模型也可被用于进行目标检测和语义分割任务且在多项公开数据集上取得了较高的准确率。而2022年发表于机器学习顶级会议ICLR的论文《CrossFormer:A Versatile Vision Transformer Based on Cross

scale Attention》,提出了使用长短注意力机制和跨尺度的嵌入,改进了原有视觉Transformer
(如Swin等)中的自注意力机制,使得模型能够兼顾图像的局部特征和全局特征,进一步提升基于变换器的目标检测和语义分割方法的性能。
[0007]然而,目前主要采用的深度学习目标检测和语义分割方法存在以下问题:(1)基于卷积神经网络或循环神经网络的模型容量相对较小,目标检测和语义分割的准确率(尤其是存在遮挡、阴影的目标或小目标等的检测和分割)仍有待提高,同时卷积的计算忽视了图像信息中长距离的依赖;(2)基于变换器(Transformer)的模型收敛较慢,依赖大量训练数据,同时该类模型计算量相对较大,难以满足目标检测应用在许多场景(如辅助驾驶、商场行人检测等)高实时性的要求。

技术实现思路

[0008]本专利技术提供了一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法,使基于变换器的视觉感知模型在保持强大的建模能力和检测分割准确性的同时,利用幅值冷却模块和可变分组模块的设计降低模型计算量以及所需的显存开销,提高图像的处理速度,并进一步提升模型的目标检测和语义分割准确率。
[0009]一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法,包括以下步骤:
[0010](1)将输入图片划分为若干小块,对每个图片小块分别进行嵌入并添加位置编码,作为之后变换器模型的输入向量;
[0011](2)将输入向量通过若干串行的可变分组的注意力模块和幅值冷却模块,得到经过模型优化的图像表征;
[0012](3)将经过模型优化的图像表征通过块融合模块,得到降采样的图像表征;
[0013](4)将步骤(2)~(3)作为一个阶段,串行地堆叠多阶段,每次将上一阶段的输出作为下一阶段的输入,得到所有输出的降采样图像表征组成的集合,称为层次化的图像表征;
[0014](5)根据所需的视觉感知任务,将层次化的图像表征输入到目标检测和语义分割相应的任务头中,计算得到损失函数并利用梯度下降方法优化损失函数;
[0015](6)应用过程中,将采集的图片依照上述步骤(1)~(4)得到层次化的图像表征后,输入训练好的模型中,针对目标检测或语义分割分别输出结果。
[0016]步骤(1)中,对图片小块进行嵌入的计算公式为:
[0017]I
ij
=F(P
ij
)+Pos_Encode(P
ij
)
[0018]其中,P
ij
是图像分块之后下标(i,j)对应的小块,I
ij
是该小块对应的变换器输入向量,F(*)是嵌入函数,由一个线性层或是卷积层实现,Pos_Encode(*)是位置编码计算函数。
[0019]因为变换器模型中的注意力模块对于输入是排序不变的,因此需要添加位置编码为小块嵌入结果添加位置信息。
[0020]需要注意的是,嵌入模块以及位置编码是所有视觉变换器都具有的,本专利技术提出的方法并不限于特定的嵌入模块或者位置编码。
[0021]步骤(2)中,可变分组的注意力模块用于将整张图像的输入特征图I∈R
H
×
W
×
D
分成若干组{g1,g2,

,g
K
},其中,H,W表示特征图的高和宽,D表示特征维度,h
模块中注意力头的数目,G表示每个分组的大小;该模块对每个g
i
分别计算注意力:
[0022]Q
i
=Linear
Q
(g
i...

【技术保护点】

【技术特征摘要】
1.一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法,其特征在于,包括以下步骤:(1)将输入图片划分为若干小块,对每个图片小块分别进行嵌入并添加位置编码,作为之后变换器模型的输入向量;(2)将输入向量通过若干串行的可变分组的注意力模块和幅值冷却模块,得到经过模型优化的图像表征;(3)将经过模型优化的图像表征通过块融合模块,得到降采样的图像表征;(4)将步骤(2)~(3)作为一个阶段,串行地堆叠多阶段,每次将上一阶段的输出作为下一阶段的输入,得到所有输出的降采样图像表征组成的集合,称为层次化的图像表征;(5)根据所需的视觉感知任务,将层次化的图像表征输入到目标检测和语义分割相应的任务头中,计算得到损失函数并利用梯度下降方法优化损失函数;(6)应用过程中,将采集的图片依照上述步骤(1)~(4)得到层次化的图像表征后,输入训练好的模型中,针对目标检测或语义分割分别输出结果。2.根据权利要求1所述的基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法,其特征在于,步骤(1)中,对图片小块进行嵌入的计算公式为:I
ij
=F(P
ij
)+Pos_Encode(P
ij
)其中,P
ij
是图像分块之后下标(i,j)对应的小块,I
ij
是该小块对应的变换器输入向量,F(*)是嵌入函数,由一个线性层或是卷积层实现,Pos_Encode(*)是位置编码计算函数。3.根据权利要求1所述的基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法,其特征在于,步骤(2)中,可变分组的注意力模块用于将整张图像的输入特征图I∈R
H
×
W
×
D
分成若干组{g1,g2,

,g
K
},其中,H,W表示特征图的高和宽,D表示特征维度,h模块中注意力头的数目,G表示每个分组的大小,随网络结构加深而不断变大;该模块对每个g
i
分别计算注意力:Q
i
=Linear
Q
(g
i
),K
i
=Line...

【专利技术属性】
技术研发人员:陈蔚王闻箫蔡登
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1