当前位置: 首页 > 专利查询>广州大学专利>正文

一种用于图像修复的追踪结构的Transformer方法技术

技术编号:36401492 阅读:30 留言:0更新日期:2023-01-18 10:08
本发明专利技术公开了一种用于图像修复的追踪结构的Transformer方法,本发明专利技术设计了一个用于图像修复的端到端跟踪结构Transformer(TSFormer),其中包括结构增强模块(SEM)和同步追踪双轴Transformer(STT),在SEM中,本专利将Edge和定向梯度直方图HOG作为结构特征,用于辅助STT网络,通过利用该模块在缺失区域中生成边缘(Edge)和定向梯度(HOG)特征的直方图作为草图张量空间,在图像修复任务中利用Edge与HOG特征,为局部子区域提供梯度方向或边缘方向分布;因此,设计了一个同步追踪双轴Transformer(STT),用于统一特征提取和结构特征融合,采用增量训练策略将有效的结构信息动态传递给修复模型,设计了一个低复杂度的通道空间双轴注意力模块,用于并行捕获通道和空间交互,建立远程关系,可以应用于具有线性复杂度的整个骨干网络。度的整个骨干网络。度的整个骨干网络。

【技术实现步骤摘要】
一种用于图像修复的追踪结构的Transformer方法


[0001]本专利技术涉及基于深度学习的图像修复方法
,具体为一种用于图像修复的追踪结构的Transformer方法。

技术介绍

[0002]图像修复是一项基本的低级视觉任务,其主要目标是填充图像的缺失区域,同时使恢复的图像在语义上合适且视觉上令人愉悦。它被广泛应用于许多实际场景中,例如物体去除、照片编辑和图像恢复。传统方法通过从已知区域搜索相似的补丁来构建图像来解决这一具有挑战性的任务,但仅仅通过这种方式,很难修复大面积缺失的图像,并且当面对的图像场景较为复杂时,它也难以生成语义合理的图像。
[0003]近年来,卷积神经网络(CNN)通过在大规模数据集上进行训练,在理解图像丰富的高级特征方面显示出其优势。然而,CNN模型的性能仍然存在瓶颈:1)卷积操作的局部归纳先验和空间不变核使得难以恢复图像的整体结构。2)先前利用结构信息的方法从孤立的角度看待结构特征与后续特征提取之间的融合,使得难以传达全局一致的互补信息以相互帮助。3)一些开创性的工作利用注意力机制来模拟长期依赖关系来本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于图像修复的追踪结构的Transformer方法,其特征在于,该一种用于图像修复的追踪结构的Transformer方法包含以下步骤:S1:令为真实图像,M∈{0,1}
H
×
W
×1为掩码(缺失区域为0,否则为1),I
in
=I
gt

M表示损坏的图像,Y
m
=Y
gt

M、H
m
=H
gt

M和E
m
=E
gt

M分别表示缺失的灰色、HOG和Canny Edge图像;S2:将上述三幅图像拼接后输入到SEM中,得到恢复的边缘E
out
和H
out
特征作为草图空间向量,公式为[E
out
,H
out
]=SEM(E
m
,H
m
,Y
m
);S3:STT将受损图像I
in
、恢复结构图像H
out
和E
out
连接起来,最终生成输出图像I
out
,公式为I
out
=STT(I
in
,H
out
,E
out
),通道C=24。2.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述S2中,结构增强网络(SEM)恢复图像边缘和HOG作为核心STT的辅助结构特征,输入的缺失的灰度图像Y
m
、HOG图像H
m
和Canny边缘E
m
,应用卷积头来生成1/8大小的特征图,减少标准自注意力的计算量,基于通道的自注意力在低分辨率特征空间中捕获全局结构信息,卷积尾部采用转置卷积将这些特征上采样到输出结构E
out
和H
out
,来优化预测的草图结构:其中E
gt
和H
gt
分别是完整的边缘Edge和HOG图像,分别使用二元交叉熵(BCE)和l1损失来重建完整的边缘Edge和HOG特征,实验中取λ
h
=0.1,HOG在子区域内雕刻梯度方向和边缘方向的分布,通过减去相邻像素(梯度滤波)来实现,主要特性是捕捉局部形状和外观,对几何变化保持良好的鲁棒性,即使不精确了解相应的梯度和边缘位置,HOG也可以很好地表征局部对象的外观和形状。3.根据权利要求1所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述S3中,提出的同步追踪双轴Transformer(STT)是一种遵循编码器解码器风格的U

Net架构,结构信息有助于图像修复早期的初步轮廓恢复,设计了具有24个基本Transformer块的编码器,每个块由一个结构纹理跨注意模块(STCM)组成,其图像完成流包括一个通道空间双轴注意模块(CSPC),设计了具有20个基本Transformer块的解码器,每个块仅包含CSPC。4.根据权利要求3所述的一种用于图像修复的追踪结构的Transformer方法,其特征在于,所述STCM的说明为:恢复的结构特征包含完整的梯度分布和边缘方向,设计了STCM(STT的关键组件),可以分别同步捕获对结构和纹理的远程依赖,除了self

attention,STCM引入了cross

attention方式,通过追踪结构来指导纹理提取,I
in
、E
out
和H
out
表示STCM的输入,与原始的多头注意力模块不同,STCM在两个单独的流上执行双路径注意力操作:图像完成流和结构目标流,对于图像补全流,设计了一个通道空间双轴注意力模块来捕捉通道和空间之间的相关性,STCM可以对每个流执行自注意力以捕获纹理和特定于目标的结构,STCM对两个流执行交叉注意力以融合它们的交互信息,将I
in
编码为图像补全流的纹理标记,将E
out
和H
out
编码为结构目标流的结构标记,在每个特征图上执行轻量级深度卷积投影,与基于补丁的MLP嵌入方法不同,这种轻量级卷积可
以为Transformer提供有用的局部感知偏置,分别对查询、键和值嵌入应用3
×
3深度卷积,将Q
t
、K
t
和V
t
表示为待完成的纹理,Q
s
、K
s
和V
s
表示为目标结构,将结构信息从结构目标流传输到图像补全流,提出了一种残差加的方法来实现交叉注意,其定义为:K
c
=αK
s
+K
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)V
c
=βV
s
+V
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中α和β是可学习的缩放参数,用于控制融合速率,利用结构目标流来...

【专利技术属性】
技术研发人员:王员根林嘉裕
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1