基于局部窗口交叉注意力的轻量型语义目标分割方法技术

技术编号:38628539 阅读:16 留言:0更新日期:2023-08-31 18:28
本发明专利技术提供的一种基于局部窗口交叉注意力的轻量型语义目标分割方法,包括以下步骤:S1.构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器;S2.将样本图像输入至轻量型语义分割网络中进行训练;S3.判断轻量型语义分割网络是否训练完成,如是,则进入步骤S4,如否,则返回步骤S2,直至达到训练完成目标;S4.实时采集环境图像,将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割,输出语义分割结果。通过上述方法,能够实现跨相机透视图之间的特征查询,指导BEV查询关注正确的局部区域,减少查询计算量,提高了查询准确度和语义分割效率。准确度和语义分割效率。准确度和语义分割效率。

【技术实现步骤摘要】
基于局部窗口交叉注意力的轻量型语义目标分割方法


[0001]本专利技术涉及一种语义分割领域,尤其涉及一种基于局部窗口交叉注意力的轻量型语义目标分割方法。

技术介绍

[0002]自动驾驶汽车高度依赖于自车对场景的理解,例如交通标志检测和障碍物检测等。在环视多相机语义分割任务中,前期研究多基于单目相机分割得到2D目标,然后采用跨相机后处理方式将分割结果投影至统一车身坐标系下获得3D输出。这类方法不能跨视图处理特征,分割结果容易受到环境影响而出现歧义,严重影响语义分割准确度。在自动驾驶汽车环境感知任务中,采用环视相机在统一鸟瞰图(Bird's Eye View,BEV)坐标系下对车道线、车辆等目标进行语义分割受到广泛关注,相机个数增加致使任务推理延迟线性上升,实时性难以完成语义分割任务。
[0003]为解决上述技术问题,亟需提出一种新的技术手段。

技术实现思路

[0004]本专利技术提供的一种基于局部窗口交叉注意力的轻量型语义目标分割方法,包括以下步骤:
[0005]S1.构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器;
[0006]改进型EdgeNeXt网络作为骨干网络,改进型EdgeNeXt网络的特征金字塔以添加残差块的方式构建,改进型EdgeNeXt网络用于捕获图像的全局信息和局部信息;
[0007]交叉视图转换编码器包含BEV局部窗口查询模块和交叉注意力模块,交叉视图转换编码器用于跨相机透视图查询图像特征
[0008]BEV特征解码器由上采样残差块和分割头组成,用于完成语义分割;
[0009]S2.将样本图像输入至轻量型语义分割网络中进行训练;
[0010]S3.判断轻量型语义分割网络是否训练完成,如是,则进入步骤S4,如否,则返回步骤S2,直至达到训练完成目标;
[0011]S4.实时采集环境图像,将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割,输出语义分割结果。
[0012]进一步,步骤S1中,通过如下方法构建EdgeNeXt网络:
[0013]EdgeNeXt网络包含Stage1模块、Stage2模块、Stage3模块、Stage4模块和特征金字塔模块;
[0014]其中,Stage1的输出端连接Stage2的输入端,Stage2的输出端连接Stage3的输入端,Stage3的输出端连接Stage4的输入端,Stage2的输出端、Stage3的输出端和Stage4的输出端连接特征金字塔模块的输入端;
[0015]S111.构建Stage1模块,Stage1模块包含4
×
4卷积层和3
×
3卷积编码器,其中,卷
积层的输出端连接卷积编码器的输入端;
[0016]S112.构建Stage2模块,Stage2模块包含下采样模块、5
×
5卷积编码器、位置编码器和深度转置注意编码器,其中,下采样模块的输出端连接卷积编码器的输入端,卷积编码器的输出和位置编码器的输出进行特征融合,得到融合后的特征图,将融合后的特征图输入深度转置注意编码器中;
[0017]S113.构建Stage3模块,Stage3模块包含下采样模块、7
×
7卷积编码器和深度转置注意编码器,其中,下采样的输出端连接卷积编码器的输入端,卷积编码器的输出端连接深度转置注意编码器的输入端;
[0018]S114.构建Stage4模块,Stage4模块包含下采样模块、7
×
7卷积编码器和深度转置注意编码器;
[0019]S115.构建特征金字塔模块,特征金字塔模块包含上采样模块、下采样模块和残差块,其中,对Stage2的输出进行下采样,对Stage4的输出进行上采样,再将下采样后的Stage2输出、上采样后的Stage4输出和Stage3输出进行拼接,将拼接结果输入残差块中。
[0020]进一步,步骤S1中,交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小,将BEV网格划分为4个窗口,窗口内的BEV查询和BEV查询对应的透视图完成交叉注意力计算,输出融合透视图特征的BEV特征图Z。
[0021]进一步,透视特征图和BEV特征图的交叉注意力通过如下方法完成:
[0022]首先,将透视图特征T∈R
N
×
H
×
W
×
C
转换为BEV特征B∈R
X
×
Y
×
C
,其中,表示传感器个数,H表示像素高度,W表示像素宽度,C表示通道数,X表示网格的长度,Y表示网格的宽度;
[0023]其次,将BEV坐标B
J
转化为透视图坐标T
J
,转化过程如下:
[0024][0025][0026]其中,u和v表示图像的BEV坐标,d表示深度,B
J
=(u,v,d),u

和v

表示B
J
坐标输入resize函数后得到的BEV坐标,I表示相机内参矩阵,E表示相机外参矩阵,E
‑1表示相机外参矩阵的逆矩阵;
[0027]然后,通过计算透视图像反投影的BEV坐标和BEV网格坐标之间的余弦相似度完成交叉注意力,具体过程如下:
[0028]根据透视特征图大小构建透视特征图反投影索引,并通过线性投射层得到K和V,K和V公式如下:
[0029]K=M(EI
‑1T
J

)
[0030]V=M(T
J
)
[0031]其中,K表示反投影索引矩阵,K∈R
N
×
HW
×
d
,V表示BEV图像特征,V∈R
NHW
×
d
,N表示传感
器个数,T
J

表示透视图坐标转置,H表示像素高度,W表示像素宽度,d表示深度,E表示相机外参矩阵,I
‑1表示相机内参矩阵的逆矩阵,M表示线性投射层,T
J
表示透视图坐标;
[0032]计算余弦相似度:
[0033][0034]其中,sim表示余弦相似度,表示透视图坐标,B
J
表示BEV坐标,E表示相机外参矩阵,K
‑1表示反投影索引矩阵的逆矩阵,n表示视图数量;
[0035]最后,输出特征图Z,特征图Z是通过融合BEV查询和BEV查询对应透视图的特征得到:
[0036]Z=CrossAttention(Q,K,V)
[0037]其中,Z表示特征图,Q表示查询的窗口,K表示反投影索引矩阵,V表示BEV图像特征。
[0038]进一步,步骤S2中,轻量型语义分割网络初始学习率设置为1e
...

【技术保护点】

【技术特征摘要】
1.一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:包括以下步骤:S1.构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器;改进型EdgeNeXt网络作为骨干网络,改进型EdgeNeXt网络的特征金字塔以添加残差块的方式构建,改进型EdgeNeXt网络用于捕获图像的全局信息和局部信息;交叉视图转换编码器包含BEV局部窗口查询模块和交叉注意力模块,交叉视图转换编码器用于跨相机透视图查询图像特征;BEV特征解码器由上采样残差块和分割头组成,用于完成语义分割;S2.将样本图像输入至轻量型语义分割网络中进行训练;S3.判断轻量型语义分割网络是否训练完成,如是,则进入步骤S4,如否,则返回步骤S2,直至达到训练完成目标;S4.实时采集环境图像,将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割,输出语义分割结果。2.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:步骤S1中,通过如下方法构建EdgeNeXt网络:EdgeNeXt网络包含Stage1模块、Stage2模块、Stage3模块、Stage4模块和特征金字塔模块;其中,Stage1的输出端连接Stage2的输入端,Stage2的输出端连接Stage3的输入端,Stage3的输出端连接Stage4的输入端,Stage2的输出端、Stage3的输出端和Stage4的输出端连接特征金字塔模块的输入端;S111.构建Stage1模块,Stage1模块包含4
×
4卷积层和3
×
3卷积编码器,其中,卷积层的输出端连接卷积编码器的输入端;S112.构建Stage2模块,Stage2模块包含下采样模块、5
×
5卷积编码器、位置编码器和深度转置注意编码器,其中,下采样模块的输出端连接卷积编码器的输入端,卷积编码器的输出和位置编码器的输出进行特征融合,得到融合后的特征图,将融合后的特征图输入深度转置注意编码器中;S113.构建Stage3模块,Stage3模块包含下采样模块、7
×
7卷积编码器和深度转置注意编码器,其中,下采样的输出端连接卷积编码器的输入端,卷积编码器的输出端连接深度转置注意编码器的输入端;S114.构建Stage4模块,Stage4模块包含下采样模块、7
×
7卷积编码器和深度转置注意编码器;S115.构建特征金字塔模块,特征金字塔模块包含上采样模块、下采样模块和残差块,其中,对Stage2的输出进行下采样,对Stage4的输出进行上采样,再将下采样后的Stage2输出、上采样后的Stage4输出和Stage3输出进行拼接,将拼接结果输入残差块中。3.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:步骤S1中,交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小,将BEV网格划分为4个窗口,窗口内的BEV查询和BEV查询对应的透视图完成交叉注意力计算,输出融合透视图特征的BEV特征图Z。
4.根据权利要求3所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:透视特征图...

【专利技术属性】
技术研发人员:隗寒冰金组亮姚智浩邓召学郑国峰詹森
申请(专利权)人:重庆交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1