一种基于Transformer的面向记忆的单图片去雨方法技术

技术编号:37580524 阅读:18 留言:0更新日期:2023-05-15 07:55
本发明专利技术公开了一种基于Transformer的面向记忆的单图片去雨方法,其特点是采用添加自监督内存模块的编码器

【技术实现步骤摘要】
一种基于Transformer的面向记忆的单图片去雨方法


[0001]本专利技术涉及图片预处理
,具体的说是一种基于Transformer的面向记忆的单图片去雨方法。

技术介绍

[0002]雨水图片中存在的雨痕等信息会使得图片背景高度模糊,进而影响目标识别的准确性。对于自动驾驶汽车而言,其基于视觉的感知功能,如物体检测、识别和语义/实例分割,需要对城市街道场景图像进行准确的特征学习。雨水作为最常见的恶劣天气条件,会极大地降低图像的视觉质量,并阻塞背景物体。这些能见度的降低对图像特征学习产生了负面影响,并导致许多计算机视觉系统很可能出现故障。除了自动驾驶,许多其他应用,如户外监控系统,在呈现含有雨和雾霾等伪影的图像时,也会降级。这些原因都使得去雨成为一种非常可取的技术,可以从图像中去除因雨水导致的模糊的视觉效果。
[0003]目前,图像去雨算法主要包括视频和单幅图像去雨算法,上述系统所采集的信息和数据大都为视频信息,视频是由连续帧的多个图像构成,可以结合图像连续帧间特性检测受雨纹或雨滴影响的像素,而单幅图像是静态信息,缺少雨纹或雨滴变化的时空特性。因此,对单幅雨天图像去雨算法的研究更具有意义。基于深度学习的方法通过使用合成数据集的大规模配对数据,在图像雨去除方面显示出了显著的改进。然而,由于真实雨纹的各种表现形式可能与合成训练数据不同,将现有方法直接扩展到真实场景是具有挑战性的。
[0004]现有技术的图像去雨算法背景及场景恢复清晰度差,不能更好地保留背景的结构和细节。由于真实雨纹的各种表现形式可能与合成训练数据不同,现有方法都是基于合成雨水图片进行训练和测试,不能很好地迁移到自然雨水图片中。为了解决以上问题,提出了本专利技术。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种基于Transformer的面向记忆的单图片去雨方法,采用transformer关注全局特征的特性,更好的提取雨水图片中雨水条纹的信息,利用具有记忆功能的自监督内存模块记录雨水条纹的各种形态,最后利用自我训机制讲合成雨水图片的上的约束信息转移到自然雨水图片上,使其能够更好地被训练,该方法可以去除更多不同外观的雨纹,恢复更清晰的背景场景,同时更好地保留背景的结构和细节,自我训练机制的加入使得算法更加适配自然雨水图片,在自然雨水图片上也能达到很好的效,不但提高图片去雨的效果,同时解决了合成训练数据上训练的现有算法无法有效的迁移到真实场景中的问题。
[0006]实现本专利技术目的的具体技术方案是:一种基于Transformer的面向记忆的单图片去雨方法,其特点是利用transformer关注全局特征的特性,更好的提取雨水图片中雨水条纹的信息,然后利用具有记忆功能的自监督内存模块记录雨水条纹的各种形态,最后利用自我训机制讲合成雨水图片的上的约束信息转移到自然雨水图片上,使其能够更好地被训
练,具体包括以下步骤:
[0007]1)初始化阶段,采用预训练模型:swin_large_patch4_window12_384_22k.pth,输入大小为384*384,每次训练样本数为4,最大训练次数300。
[0008]2)将384*384的图片送入transformer的编码器,Patch Partition对输入图像进行下采样,将原始输入图像H、W、C,宽高下降1/4,通道进调整到48,Linear Embedding对Patch Partition的输出在通道维度进行调整为C后,通过Layer Normalization对feature map进行处理。
[0009]3)将Layer Normalization处理过的feature map通过Swin Transformer Blocker和Patch Merging组成的编码器单元,然后对全局关系进行建模并进行层次特征变换,同时缩小特征图的宽高,扩大感受野。Patch Merging的是一个4x4大小的单通道特征图(feature map),Patch Merging会将每个2x2的相邻像素划分为一个patch,然后将每个patch中相同位置(同一颜色)像素给拼在一起就得到了4个feature map。接着将这四个feature map在深度方向进行concat拼接,然后在通过一个LayerNorm层。最后通过一个全连接层在feature map的深度方向做线性变化,将feature map的深度由C变成C/2。
[0010]4)将步骤3中的特征值映射成内监督内存模块的z(x),z(x)相当于一个query去memory找最相关的items,用soft

attention把他们结合起来,然后使用自监督更新和软注意阅读更新更新内存模块。其中,记忆内存模块M∈R
m
×
c
由m个记忆项组成,每个项的维度为e
i
∈R
c
与编码z(x)∈R
c
×
h
×
w
,z(x)为下述(a)式定义:
[0011][0012]计算余弦相似度s
ij
(x)第i个存储项和z(x)的第j列向量z
j
(x),将其定义为下述(b)式:
[0013][0014]然后,使用下述(c)式检索z
j
(x)最相关的记忆项e
k(j)
(x),把s
ij
(x)最大的一个编号赋值给k
(j)
(x):
[0015]k
(j)
(x)=argm
i
axs
ij
(x)(c)。
[0016]最后,更新内存项e
i
基于查询z
j
(x)具有最相关项目其中e
i
由下述(d)式定义为:
[0017][0018]软注意阅读是区别于传统硬注意阅读的方式,主要用来解决梯度反向传播的问题,再次通过上述公式(a)对更新后的内存项进行计算相似度矩阵S(x)={s
ij
(x)|i=1,...,m,j=1,...,n}。然后,通过softmax操作获得注意A={a
ij
i=1,...,m,j=1,...,n},其中,a
ij
由下述(e)式定义为:
[0019][0020]最后,基于内存的表示是通过下述(f)式基于注意的内存项聚合来计算获得:
[0021][0022]5)使用具有标记的数据进行在线训练去雨网络f
θ
,然后使用一个额外的目标网络f
ξ
为未标记的数据生成伪标签。其包括两个过程,一个是有监督的过程,另一个是无监督的过程。
[0023]监督去雨是使用具有标记的数据进行在线训练去雨网络f
θ
,在网络中,其中优化目标为像素级L1损失函数由下述(g)式定义为:
[0024]L
SU...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的面向记忆的单图片去雨方法,其特征在于,该方法利用transformer关注全局特征的特性,使用具有记忆功能的自监督内存模块记录雨水条纹的各种形态,将雨水图片上的约束信息转移到自然雨水图片上,使其能够更好地被训练,单图片去雨具体包括以下步骤:1)初始化阶段采用swin_large_patch4_window12_384_22k.pth为预训练模型,利用给定的参数预训初始化swim transformer的网络权重;2)将上述训练集送入transformer的编码器,Patch Partition对输入图像进行下采样,将原始输入图像H、W、C,宽高下降1/4,通道进调整到48,Linear Embedding对Patch Partition的输出在通道维度进行调整为C后,通过Layer Normalization对feature map进行处理;3)将Layer Normalization处理过的feature map通过Swin Transformer Blocker和Patch Merging组成的编码器单元,然后对全局关系进行建模并进行层次特征变换,同时缩小特征图的宽高,扩大感受野,得到新的特征值;4)将步骤3)中的特征值映射成内监督内存模块的z(x),z(x),然后使用自监督更新和软注意阅读更新,更新记忆内存模块M∈R
m
×
c
;5)使用具有标记的数据进行在线训练去雨网络f
θ
,然后使用一个额外的目标网络f
ξ
为未标记的数据生成伪标签和新的特征值;6)使用3个解码块和Dim Expanding来解码步骤5)生成的特征值,并进行维度变换,逐渐恢复图像;7)重复上述步骤1)~步骤6)对网络不断更新,得到最优网络权重。2.根据权利要求1所述的基于Transformer的面向记忆的单图片去雨方法,其特征在于,所述步骤1)的预训练模型输入图像的大小为384*384,每次训练样本数为4,最大训练次数300。3.根据权利要求1所述的基于Transformer的面向记忆的单图片去雨方法,其特征在于,所述步骤3)中的Patch Merging是一个4x4大小的单通道特征图,Patch Merging将每个2x2的相邻像素划分为一个patch,然后将每个patch中相同位置,即同一颜色的像素拼在一起,得到4个feature map,将其在深度方向进行concat拼接,然后在LayerNorm层通过一个全连接层,在feature map的深度方向做线性变化,将feature map的深度由C变成C/2。4.根据权利要求1所述的基于Transformer的面向记忆的单图片去雨方法,其特征在于,所述步骤4)中的记忆内存模块M∈R
m
×
c
由m个记忆项组成,其中每个项的维度为e
i
∈R
c
与编码z(x)∈R
c
×
h
×
w
,所述编码z(x)由下述(a)定义为:其中,为z(x)的第n个子项;所述更新记忆内存模块M∈R
m
×
c
具体包括:1)第i个存储项e
i
和z(x)的第j列向量z
j
(x)的余弦相似度s
ij
(x)由下述(b)式计算:
2)使用下述(c)式检索z
j
(x)最相关的记忆项把s
ij
(x)最大的一个编号赋值给k
(j)
(x):3)基于查询z
j
(x)具有最相关的记忆项来更新内存项e
i
,所述更新内存项e
i
由下述(d)式定义为:其中,I(k
(j)
(x)=i)为1,不等于0,τ∈[0,1]。5.根据权利要求1所述的基于Transformer的面向记忆的单图...

【专利技术属性】
技术研发人员:王廷胡桥桥
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1