一种基于Transformer的鲁棒去重影系统及方法技术方案

技术编号:37627655 阅读:12 留言:0更新日期:2023-05-18 12:19
本发明专利技术公开了一种基于Transformer的鲁棒去重影系统及方法。系统包括对齐模块、融合模块和重建模块;对齐模块用于提取三张图像中不一致的特征;融合模块用于将对齐后的图像合成为包含伪影的目标图像;重建模块用于消除图像中的伪影,得到清晰的最终图像。本发明专利技术从低动态范围图像中提取出特征映射,生成相应的空间注意力图,使得非参考图像能够准确地识别未对齐的部分,最大程度减少重建图像时的伪影。本发明专利技术在重建模块引入密集块,使得整个网络能够提取更多的周围信息,校正伪影部分的错位信息,最终输出无伪影的高动态范围图像。最终输出无伪影的高动态范围图像。最终输出无伪影的高动态范围图像。

【技术实现步骤摘要】
一种基于Transformer的鲁棒去重影系统及方法


[0001]本专利技术是基于Transformer的去重影方法,主要是涉及Transformer网络的多头注意力解码层的去重影方法,属于图像处理技术理念领域。

技术介绍

[0002]照明对于商业相机捕捉视觉上吸引人的照片很重要。然而,在常见场景中不太可能遇到这种情况。通常,场景的动态范围远远超过标准数码相机传感器的硬件限制。在这种情况下,产生的照片将由饱和区域组成,这些区域要么太暗,要么太亮,无法视觉理解。
[0003]考虑到相机硬件带来的限制,一种算法解决方案是将具有不同曝光的多个低动态范围(LDR)图像(也称为曝光堆栈)合并到单个高动态范围(HDR)图像中。这有助于在黑暗和明亮的饱和区域显示细节。多曝光融合(MEF)方法从大量LDR输入图像中合并曝光良好的区域,以产生具有更高动态范围的单个视觉吸引力的LDR结果。对于完全静态序列([4]–
[6]),这是一个简单的问题。然而,在大多数实际情况下,一定数量的摄影机和对象运动是不可避免的,这会导致最终融合结果中出现类似鬼影的伪影。
[0004]Kalantari和Ramamoorthi(NimaKhademiKalantariandRaviRamamoorthi.Deep highdynamicrangeimagingofdynamicscenes.ACMTrans.Graph.,36(4):144

1,2017.2,3,5,6,7,8)提出了第一个基于深度学习的HDR去伪影算法。在他们的方法中,使用传统的光流技术对齐输入图像。使用一个简单的CNN来校正由于光流扭曲而引入的失真。然而,他们的方法仍然会产生极端动态范围场景的伪影。最近,Wu等人[2](S.Wu,J.Xu,Y.

W.Tai,andC.

K.Tang,“Deep highdynamicrangeimagingwithlargeforegroundmotions,”inEuropeanConferenceon ComputerVision,2018,pp.120

135.)提出将HDR融合视为一个图像翻译问题,并使用基于CNN的架构解决它。虽然他们没有明确执行前景对齐,但他们表明,无论前景运动较大,他们的网络都会生成准确的HDR图像。然而,这种方法高度依赖于参考图像的结构。因此,如果参考图像中的某些区域饱和,则无法在最终结果中准确地重建它们。
[0005]NLP领域Tranformer网络的突破引起了计算机视觉社区的极大兴趣。
[0006]Transformer的核心思想是“自注意力”,它可以捕获序列元素之间的长期信息。通过在视觉任务中采用Transformer,它已成功应用于图像识别[3](A.Dosovitskiy,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehghani,M.Minderer,G.Heigold,S.Gellyetal.,“Animageisworth16x16words:Transformersforimagerecognitionatscale,”arXivpreprintarXiv:2010.11929,2020.)[4](H.Touvron,M.Cord,M.Douze,F.Massa,A.Sablayrolles,andH.J
é
gou,“Trainingdata

efficient imagetransformers&distillationthroughattention,”inICML,2021,pp.10347

10357.)、目标检测[5](N.Carion,F.Massa,G.Synnaeve,N.Usunier,A.Kirillov,andS.Zagoruyko,“End

to

endobjectdetectionwithtransformers,”inECCV,2020,pp.213

229.)[6](X.Zhu,W.Su,L.Lu,B.Li,X.Wang,andJ.Dai,“Deformabledetr:
Deformabletransformersforend

to

end objectdetection,”arXivpreprintarXiv:2010.04159,2020.)、低层图像处理[7](H.Chen,Y.Wang,T.Guo,C.Xu,Y.Deng,Z.Liu,S.Ma,C.Xu,C.Xu,andW.Gao,“Pre

trainedimage processingtransformer,”inCVPR,2021,pp.12299

12310.)[8](F.Yang,H.Yang,J.Fu,H.Lu,andB.Guo,“Learningtexturetransformernetworkforimagesuper

resolution,”inCVPR,2020,pp.5791

5800.)和动作识别。其中,ViT[3]是第一个用Transformer替换标准卷积的工作。为了生成序列元素,ViT将2D图像补丁展平成一个矢量,并将其送入Transformer。DETR[5]设计用于对象检测,可以对一组对象的预测进行建模,并对其关系进行建模。通过这种方式,无需为这项任务设计强大的先验知识。尽管Transformer取得了很大的进步,但他们仍然需要大量的GPU资源来训练整个模型,这对大多数研究人员来说并不友好。因此,构建高效的视觉变压器成为近年来的研究热点。

技术实现思路

[0007]针对现有技术中存在的不足,本专利技术提供了一种基于Transformer的鲁棒去重影系统及方法。
[0008]在这项工作中,我们重点研究了自注意力模块在注意力和融合方向上的同步性,提出了一种全新的自注意力学习去伪影模块。主要通过处理自注意力中的权重分布,来得到图像的对齐区域,使得后续更加彻底地消除伪影,提升图像的质量。此外,还提出了空间注意力、密集块来构造网络
[0009]一种基于Transformer的鲁棒去重影系统,包括对齐模块、融合模块和重建模块。
[0010]所述的对齐模块用于提取三张图像中不一致的特征,具体方法如下:
[0011](1)f
1nr
,f
3nr
为非参考特征映射,f
2r
为参考特征映射,将3张图像作为输入,首先进行特征提取,然后按照通道数连接,再经过3x3的卷积层和Sigmoid激活函数,得到特征映射。
[0012](2)将特征映射分别与f
1nr
,f
3n本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的鲁棒去重影系统,其特征在于,包括对齐模块、融合模块和重建模块;所述的对齐模块用于提取三张图像中不一致的特征;所述的融合模块用于将对齐后的图像合成为包含伪影的目标图像;所述的重建模块用于消除图像中的伪影,得到清晰的最终图像。2.根据权利要求1所述的一种基于Transformer的鲁棒去重影系统,其特征在于,所述的对齐模块具体方法如下:(1)f
1nr
,f
3nr
为非参考特征映射,为参考特征映射,将3张图像作为输入,首先进行特征提取,然后按照通道数连接,再经过3x3的卷积层和Sigmoid激活函数,得到特征映射;(2)将特征映射分别与f
1nr
,f
3nr
按照1:1的比例进行点乘,得到经过空间注意力的特征映射;(3)将经过空间注意力的特征映射与参考特征映射按照通道数连接起来,作为输出特征映射。3.根据权利要求2所述的一种基于Transformer的鲁棒去重影系统,其特征在于,所述的融合模块具体方法如下:(1)首先将特征映射输入到规范层中,计算每个维度的均值和方差,得到一维的样本分布;(2)将样本分布输入到多头注意力层中,分别与事先设置好的注意力相关矩阵Wq,Wk,Wv进行点乘,得到Q,K,V;其中Q,K是用来计算相似度得到权重的,V是用来跟权重做加权求和的;如图6所示在每一个头中,计算注意力权重b1时:将注意力a1的注意力查询向量q与其他四个的注意力权重索引k点乘,求得权重a

,然后再与v进行点乘得到输出b1,以此类推得到b2,b3,b4,便得到一个关于b的矩阵,再经过softmax激活函数,得到最终的注意力权重;(3)再将最终的注意力权重输入到稀疏层,将权重的部分神经元随机置零丢弃,进行剪枝,提高网络前向传播时的鲁棒性;再将处理后的权重与一开始输入的注意力权重相加,提高网络的退化能力,防止随着网络层数的增加,预测结果反而越来越差;(4)之后经过与(1)相同的规范层,再将权重输入到多层感知机中,在多层感知机中,先对输入进行分块处理,得到N个块,将N个块进行展平处理,平铺成一组一维向量,与其他头平铺后的一维向量叠加,得到一个包含所有块的张量,将该张量在通道维度进行特征融合,得到权重分布;(5)将权重分布输入到稀疏层,提升网络退化能力,与(3)输出的相加后的注意力权重相加,再重建成特征映射,作为融合模块最终的输出。4.根据权利要求3所述的一种基于Transformer的鲁棒去重影系统,其特征在于,所述的重建模块具体方法如下:在重建模块中,先将融合模块输出的特征映射输入到LeakyReLu中进行稀疏处理,再将特征映射依次...

【专利技术属性】
技术研发人员:颜成钢潘潇恺陈泉朱尊杰高宇涵孙垚棋陈楚翘王鸿奎王廷宇殷海兵张继勇李宗鹏赵治栋
申请(专利权)人:杭电丽水研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1