基于多维注意力机制的城市街景语义分割增强方法技术

技术编号:34898022 阅读:19 留言:0更新日期:2022-09-10 13:58
本发明专利技术公开了一种基于多维注意力机制的城市街景语义分割增强方法,获取城市街景图像,提取低层特征图和高层特征图,将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块,将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加,得到第一特征图;将低层特征图与所述第一特征连接后,再次输入到多维注意力融合模块,得到第二特征;将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层,与所述第二特征进行元素相加,在经过解码模块第二个卷积层,输出语义分割增强后的图像。本发明专利技术所构建的多维注意力融合模块,模型简单,其运用可以对远程上下文依赖性较大的物体产生更好的预测结果。较大的物体产生更好的预测结果。较大的物体产生更好的预测结果。

【技术实现步骤摘要】
基于多维注意力机制的城市街景语义分割增强方法


[0001]本申请属于人工智能和图像处理领域,具体涉及面向城市背景下基于多维注意力机制的城市街景语义分割增强方法。

技术介绍

[0002]语义图像分割是计算机视觉中的一项基本任务。传统分割主要是通过提取图片的低级特征然后进行分割,如阈值分割法,边缘检测法,区域分割法等。这个阶段一般是非监督学习,分割出来的结果缺少语义标注。基于深度学习的图像语义分割能根据标签进行语义划分,具有批量化处理和多分类的优点,在各领域均取得了广泛的应用。如生物医学,无人机航拍,图像编辑等。城市场景图像语义分割是以城市街景图像为研究对象理解城市内复杂的街景及交通状况,由此分析和获取路况信息。该技术对于实现自动驾驶、机器人传感和图像处理等在城市中潜在的应用领域具有重要意义。
[0003]引入软注意力机制是增强图像上下文关联,建立像素远程依赖的有效手段之一。在目前注意力机制相关研究中,结构大致可以分为三类:通道注意力,空间注意力,混合注意力。通道注意力使用全局池化提取通道特征,参数量少。如SENet中的SE模块通过全局平均池化获得全局感受野,强调了不同通道的权重,证明了通道注意力对结果提升的必要性。ECANet延续了该理论并提出一种不降维的局部跨信道交互策略,显著降低了模型的复杂度。但此类操作忽略了像素本身的注意力,损失了分割细节。空间注意力通常与多尺度输入、金字塔结构结合,特征图经过不同尺寸卷积核扩大感受野,捕捉上下文关联,加强同帧图像像素间、不同帧像素间的关联性。如CBAM通过平均池化与最大池化结合捕捉空间注意力;非局部神经网络中的非局部块合并了除通道外的所有维度,通过点乘操作建立当前像素间与其他所有像素间的关系。此类方法虽然保证了精度,但同时点乘操作会引入大量计算,且占用大量GPU内存。混合注意力同时结合通道和空间注意力,如DANet通过reshape操作合并除通道数外的维度,然后对进行矩阵点乘操作计算所有像素与所有像素之间的相似性,再与通道注意力融合,空间复杂度很高。因此,需要在计算资源与计算准确率之间作出平衡。

技术实现思路

[0004]本申请的目的是提供一种基于多维注意力机制的城市街景语义分割增强方法,针对传统注意力机制分割精度和运算速度存在矛盾的问题,构建多维注意力融合模块MAFM,减少普通二维卷积运算带来的计算负担,在仅增加很小的参数量的情况下融合了通道域和空间域的注意力。
[0005]为了实现上述目的,本申请技术方案如下:
[0006]一种基于多维注意力机制的城市街景语义分割增强方法,包括:
[0007]获取城市街景图像,输入到骨干网络ResNet101,提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图;
[0008]将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块,将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加,得到第一特征图;
[0009]将低层特征图与所述第一特征连接后,再次输入到多维注意力融合模块,得到第二特征;
[0010]将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层,所述第一个卷积层的输出特征与所述第二特征进行元素相加,再经过解码模块第二个卷积层,输出语义分割增强后的图像;
[0011]其中,所述多维注意力融合模块执行如下操作:
[0012]提取高层特征图高度上的注意力权重,与输入的高层特征图逐元素相乘,得到第一阶段特征图;
[0013]提取高层特征图宽度上的注意力权重,将宽度上的注意力权重和第一阶段特征图逐元素相乘,得到第二阶段特征图;
[0014]对高层特征图在通道上采用全局池化操作,得到通道域特征图;
[0015]将第二阶段特征图经过一个卷积操作,得到空间域特征图;
[0016]融合空间域特征图和通道域特征图,得到多维注意力融合模块输出的特征图。
[0017]进一步的,所述骨干网络ResNet101中的卷积层包括3层3
×
3卷积。
[0018]进一步的,所述提取高层特征图高度上的注意力权重,包括:
[0019]对输入的高层特征图的宽度进行条状池化操作,融合宽度上的长距离信息,整合出每个通道上的高度特征,对每个通道上的高度特征进行降维操作,得到通道在高度上二维张量;
[0020]将通道在高度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有高度上注意力权重的二维张量;
[0021]将带有高度上注意力权重的二维张量进行升维得到高度上的注意力权重。
[0022]进一步的,所述提取高层特征图宽度上的注意力权重,包括:
[0023]对输入的高层特征图的高度进行条状池化操作,融合高度上的长距离信息,整合出每个通道上的宽度特征,对每个通道上的宽度特征进行降维操作,得到通道在宽度上二维张量;
[0024]将通道在宽度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有宽度上注意力权重的二维张量;
[0025]将带有宽度上注意力权重的二维张量进行升维得到宽度上的注意力权重。
[0026]进一步的,所述基于多维注意力机制的城市街景语义分割增强方法,还包括
[0027]计算所述骨干网络ResNet101中第三残差区块的输出损失;
[0028]计算所述解码模块的最终输出损失;
[0029]分别为所述第三残差区块的输出损失和解码模块的最终输出损失设置对应的权重,计算加权联合损失来完成网络训练。
[0030]本申请提出的一种基于多维注意力机制的城市街景语义分割增强方法,针对城市街景中道路、高层建筑、路灯、栅栏等条状物的形状特点,提出一种条状分维度注意力机制SPDA,利用条状池化提取单维度特征权重,捕捉长程上下文语义关联,通过降维操作,使权
重计算空间复杂度从平方降低为线性,计算所需内存更小。模块的轻量化设计允许该模块能够插入各种网络结构中。基于条带池化的注意力机制,能更好的适应城市街景中大量的的条状目标物体,且不会影响其他物体的判别。结合通道域与空间域的多维注意力融合模块,在仅增加很小的参数量的情况下融合了通道域和空间域的注意力,模块的轻量化设计允许该模块能够插入各种网络结构中,取得了更高质量的图像分割预测结果。
附图说明
[0031]图1为本申请基于多维注意力机制的城市街景语义分割增强方法流程图;
[0032]图2为本申请实施例整体网络结构示意图;
[0033]图3为本申请实施例多维注意力融合模块结构示意图;
[0034]图4为本申请实施例SPDA结构示意图。
具体实施方式
[0035]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维注意力机制的城市街景语义分割增强方法,其特征在于,所述基于多维注意力机制的城市街景语义分割增强方法,包括:获取城市街景图像,输入到骨干网络ResNet101,提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图;将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块,将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加,得到第一特征图;将低层特征图与所述第一特征连接后,再次输入到多维注意力融合模块,得到第二特征;将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层,所述第一个卷积层的输出特征与所述第二特征进行元素相加,再经过解码模块第二个卷积层,输出语义分割增强后的图像;其中,所述多维注意力融合模块执行如下操作:提取高层特征图高度上的注意力权重,与输入的高层特征图逐元素相乘,得到第一阶段特征图;提取高层特征图宽度上的注意力权重,将宽度上的注意力权重和第一阶段特征图逐元素相乘,得到第二阶段特征图;对高层特征图在通道上采用全局池化操作,得到通道域特征图;将第二阶段特征图经过一个卷积操作,得到空间域特征图;融合空间域特征图和通道域特征图,得到多维注意力融合模块输出的特征图。2.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法,其特征在于,所述骨干网络ResNet101中的卷积层包括3层3
×
3卷积。3.根据权利要求1所述的基于多维注意力机制的城市...

【专利技术属性】
技术研发人员:章坚武刘奕晨郭春生陈华华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1