一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法技术

技术编号：37960315 阅读：8 留言：0更新日期：2023-06-30 09:35

本发明专利技术公开了一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法，包括：(1)将输入图片划分为若干小块，分别进行嵌入并添加位置编码；(2)将得到的输入向量通过若干串行的可变分组的注意力模块和幅值冷却模块，得到图像表征；(3)将图像表征通过块融合模块，得到降采样的图像表征；(4)将步骤(2)～(3)作为一个阶段，串行地堆叠多阶段，得到层次化的图像表征；(5)将层次化的图像表征输入到目标检测和语义分割相应的任务头中，训练模型；(6)将采集的图片处理后输入训练好的模型中，针对目标检测或语义分割分别输出结果。本发明专利技术具有更高的目标检测和语义分割处理速度、更稳定的训练过程以及更快的模型收敛速度。更稳定的训练过程以及更快的模型收敛速度。更稳定的训练过程以及更快的模型收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法

[0001]本专利技术涉及深度学习以及视觉感知领域，尤其是涉及一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法。

技术介绍

[0002]随着人工智能、深度学习和计算机视觉技术的发展，基于深度学习的计算机视觉感知已经被应用到了多个领域，如汽车的自动驾驶车辆障碍物检测、智能交通与安防的行人检测、智能门禁人脸识别等。
[0003]视觉感知是指通过拍摄到的图像对环境信息进行感知的过程，即根据图像的颜色、纹理、物体形状等自动捕捉其中重要的视觉信息。目标检测和语义分割是视觉感知中最常见的两个任务。其中，如图1所示，目标检测要求检测出图中物体的类比并以方框的形式给出物体位置；而语义分割则进一步要求给出物体像素级的边界以及物体类别。在实际使用中，视觉感知模型需要拥有充分高的处理速度以满足应用实时性的需求，并需要能够处理图像中可能存在的遮挡、阴影、小目标检测等问题。
[0004]目前，视觉感知技术研究的主流方向在深度学习模型。较之尺度不变特征转换(Scale
‑
invariant feature transform，SIFT)等传统视觉信息处理方法，深度学习模型能够在大量数据的帮助下获得良好的抗干扰能力，因而更适用于复杂的现实情况。目前投入实际使用的视觉感知深度学习模型大都基于卷积神经网络(Convolution Neural Network，CNN)，如发表于2019年计算机视觉顶级会议ICCV的工作《Centernet:Ke

【技术保护点】

【技术特征摘要】
1.一种基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法，其特征在于，包括以下步骤：(1)将输入图片划分为若干小块，对每个图片小块分别进行嵌入并添加位置编码，作为之后变换器模型的输入向量；(2)将输入向量通过若干串行的可变分组的注意力模块和幅值冷却模块，得到经过模型优化的图像表征；(3)将经过模型优化的图像表征通过块融合模块，得到降采样的图像表征；(4)将步骤(2)～(3)作为一个阶段，串行地堆叠多阶段，每次将上一阶段的输出作为下一阶段的输入，得到所有输出的降采样图像表征组成的集合，称为层次化的图像表征；(5)根据所需的视觉感知任务，将层次化的图像表征输入到目标检测和语义分割相应的任务头中，计算得到损失函数并利用梯度下降方法优化损失函数；(6)应用过程中，将采集的图片依照上述步骤(1)～(4)得到层次化的图像表征后，输入训练好的模型中，针对目标检测或语义分割分别输出结果。2.根据权利要求1所述的基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法，其特征在于，步骤(1)中，对图片小块进行嵌入的计算公式为：I
ij
＝F(P
ij
)+Pos_Encode(P
ij
)其中，P
ij
是图像分块之后下标(i,j)对应的小块，I
ij
是该小块对应的变换器输入向量，F(*)是嵌入函数，由一个线性层或是卷积层实现，Pos_Encode(*)是位置编码计算函数。3.根据权利要求1所述的基于幅值冷却与可变分组变换器的图像目标检测和语义分割方法，其特征在于，步骤(2)中，可变分组的注意力模块用于将整张图像的输入特征图I∈R
H
×
W
×
D
分成若干组{g1,g2,
…
,g
K
},其中，H,W表示特征图的高和宽，D表示特征维度，h模块中注意力头的数目，G表示每个分组的大小，随网络结构加深而不断变大；该模块对每个g
i
分别计算注意力：Q
i
＝Linear
Q
(g
i
),K
i
＝Line...

【专利技术属性】
技术研发人员：陈蔚，王闻箫，蔡登，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人