【技术实现步骤摘要】
一种基于Transformer的面向记忆的单图片去雨方法
[0001]本专利技术涉及图片预处理
,具体的说是一种基于Transformer的面向记忆的单图片去雨方法。
技术介绍
[0002]雨水图片中存在的雨痕等信息会使得图片背景高度模糊,进而影响目标识别的准确性。对于自动驾驶汽车而言,其基于视觉的感知功能,如物体检测、识别和语义/实例分割,需要对城市街道场景图像进行准确的特征学习。雨水作为最常见的恶劣天气条件,会极大地降低图像的视觉质量,并阻塞背景物体。这些能见度的降低对图像特征学习产生了负面影响,并导致许多计算机视觉系统很可能出现故障。除了自动驾驶,许多其他应用,如户外监控系统,在呈现含有雨和雾霾等伪影的图像时,也会降级。这些原因都使得去雨成为一种非常可取的技术,可以从图像中去除因雨水导致的模糊的视觉效果。
[0003]目前,图像去雨算法主要包括视频和单幅图像去雨算法,上述系统所采集的信息和数据大都为视频信息,视频是由连续帧的多个图像构成,可以结合图像连续帧间特性检测受雨纹或雨滴影响的像素,而单幅图像是静态信息,缺少雨纹或雨滴变化的时空特性。因此,对单幅雨天图像去雨算法的研究更具有意义。基于深度学习的方法通过使用合成数据集的大规模配对数据,在图像雨去除方面显示出了显著的改进。然而,由于真实雨纹的各种表现形式可能与合成训练数据不同,将现有方法直接扩展到真实场景是具有挑战性的。
[0004]现有技术的图像去雨算法背景及场景恢复清晰度差,不能更好地保留背景的结构和细节。由于真实雨纹的各种表现形式可
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的面向记忆的单图片去雨方法,其特征在于,该方法利用transformer关注全局特征的特性,使用具有记忆功能的自监督内存模块记录雨水条纹的各种形态,将雨水图片上的约束信息转移到自然雨水图片上,使其能够更好地被训练,单图片去雨具体包括以下步骤:1)初始化阶段采用swin_large_patch4_window12_384_22k.pth为预训练模型,利用给定的参数预训初始化swim transformer的网络权重;2)将上述训练集送入transformer的编码器,Patch Partition对输入图像进行下采样,将原始输入图像H、W、C,宽高下降1/4,通道进调整到48,Linear Embedding对Patch Partition的输出在通道维度进行调整为C后,通过Layer Normalization对feature map进行处理;3)将Layer Normalization处理过的feature map通过Swin Transformer Blocker和Patch Merging组成的编码器单元,然后对全局关系进行建模并进行层次特征变换,同时缩小特征图的宽高,扩大感受野,得到新的特征值;4)将步骤3)中的特征值映射成内监督内存模块的z(x),z(x),然后使用自监督更新和软注意阅读更新,更新记忆内存模块M∈R
m
×
c
;5)使用具有标记的数据进行在线训练去雨网络f
θ
,然后使用一个额外的目标网络f
ξ
为未标记的数据生成伪标签和新的特征值;6)使用3个解码块和Dim Expanding来解码步骤5)生成的特征值,并进行维度变换,逐渐恢复图像;7)重复上述步骤1)~步骤6)对网络不断更新,得到最优网络权重。2.根据权利要求1所述的基于Transformer的面向记忆的单图片去雨方法,其特征在于,所述步骤1)的预训练模型输入图像的大小为384*384,每次训练样本数为4,最大训练次数300。3.根据权利要求1所述的基于Transformer的面向记忆的单图片去雨方法,其特征在于,所述步骤3)中的Patch Merging是一个4x4大小的单通道特征图,Patch Merging将每个2x2的相邻像素划分为一个patch,然后将每个patch中相同位置,即同一颜色的像素拼在一起,得到4个feature map,将其在深度方向进行concat拼接,然后在LayerNorm层通过一个全连接层,在feature map的深度方向做线性变化,将feature map的深度由C变成C/2。4.根据权利要求1所述的基于Transformer的面向记忆的单图片去雨方法,其特征在于,所述步骤4)中的记忆内存模块M∈R
m
×
c
由m个记忆项组成,其中每个项的维度为e
i
∈R
c
与编码z(x)∈R
c
×
h
×
w
,所述编码z(x)由下述(a)定义为:其中,为z(x)的第n个子项;所述更新记忆内存模块M∈R
m
×
c
具体包括:1)第i个存储项e
i
和z(x)的第j列向量z
j
(x)的余弦相似度s
ij
(x)由下述(b)式计算:
2)使用下述(c)式检索z
j
(x)最相关的记忆项把s
ij
(x)最大的一个编号赋值给k
(j)
(x):3)基于查询z
j
(x)具有最相关的记忆项来更新内存项e
i
,所述更新内存项e
i
由下述(d)式定义为:其中,I(k
(j)
(x)=i)为1,不等于0,τ∈[0,1]。5.根据权利要求1所述的基于Transformer的面向记忆的单图...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。