一种基于Transformer与大核卷积的自然图像压缩感知方法技术

技术编号：40773753 阅读：2 留言：0更新日期：2024-03-25 20:20

本发明专利技术属于信号处理和深度学习技术领域，具体涉及一种基于Transformer模型与大核卷积的自然图像压缩感知方法。针对如何实现自然图像的稀疏采样与高质量恢复这一问题，本发明专利技术提出了一种混合Vision Transformer和大核卷积的展开网络架构，实现了图像压缩感知的可解释性重构。该网络为端到端的两段式架构，一是使用数据驱动的预训练编码器完成图像信息的稀疏表示与基本特征提取；二是设计了一种基于优化启发的模块，将其迭代过程视为网络展开过程，引入双通道大核注意力机制捕获局部结构与长程依赖，逐阶段重构原始图像。实验结果显示，本发明专利技术提出的图像压缩感知方法与现有方法相比，可以在保持重构速度的同时，降低网络内存占用并提升图像的重构质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术公开了一种基于transformer与大核卷积的自然图像压缩感知方法，属于图像处理。

技术介绍

1、图像作为用户获取信息的重要手段，相比于一维数据，可使用户对监测对象具有更为直观的观测，蕴含信息丰富。传统的图像获取方式通常需要对视野中的每个像素点进行采样，生成原始图像，接着使用繁琐的压缩算法来消除图像中的冗余信息，以便于存储和传输。面对庞大的图像数据量，对于大规模无线物联网等能量受限的场景具有较大挑战，存在节点能耗、采集速率、存储容量、处理速度的限制，严重限制了其实际应用。

2、压缩感知(compressed sensing, cs)提供了一种新的信息采集方案，该理论表明，可以从比nyquist采样定理规定的更少的采集测量中以高概率恢复信号，实现了低成本、高效的数据压缩，从而减轻数据存储和传输带宽负担。cs技术的应用包括但不限于无线远程监控、医学成像、单像素相机等。cs将传统的信号采样与压缩过程合二为一， cs技术利用随机矩阵进行线性采样，通过稀疏字典矩阵（稀疏基）将原始信号变换成同维的稀疏信号，然后与随机矩阵相乘即可得到压缩后的低维信号。

3、数学上，采样阶段，对图像进行快速采样，可以得到线性随机测量值，其中是测量矩阵，，采样率为。重构阶段是利用低维测量值恢复原始图像，不难看出，该逆问题是欠定的，那么该问题在理论上存在无穷多解。为了获得可靠的重建，传统的cs方法通常求解一个能量函数：

4、

5、其中，表示数据保真项，衡量重构图像与原始图像之间的相似度，表示具有正则化参数

6、与先前基于卷积的深度神经网络不同，transformers最初是为自然语言处理(natural language processing, nlp)中的序列到序列预测而设计的，由于基于自注意的架构，它非常适合建模全局上下文，将其应用于多种计算机视觉任务中均取得了成功。然而其核心模块即自注意力仍然有其缺点。自注意力将2d图像视为1d序列，这破坏了图像的关键2d结构。由于二次计算和内存开销，高分辨率图像处理也很困难。此外，自注意力是一种只考虑空间维度适应性而忽略通道维度适应性的特殊注意力，这对视觉任务也很重要。因此，将transformer应用于自然图像的压缩感知需要进一步研究。

技术实现思路

1、本专利技术的目的在于将transformer与大核卷积相结合，融合两者优势，提出一种可以兼顾局部结构信息与长程依赖性，保证网络模型空间与通道自适应性的可解释图像压缩感知方法。

2、dun的思想是将传统的迭代优化算法借由神经网络级联而成。dun对训练数据对具有良好的可解释性，通常在cs结构中被表述为双层优化问题：

3、

4、考虑到简单性和可解释性，直接展开传统的近端梯度下降(proximal gradientdescent, pgd)，解决上式并将其表示为迭代函数，分别代表梯度下降与近端映射：

5、

6、

7、、和分别表示第次迭代的输出、中间变量和加权步长。迭代更新和，直至收敛。利用dun求解近端映射，因此，本专利技术中展开网络的第个迭代过程可以简要表示为下式，<mstyle displaystyle="true" mathcolor="#000000"><mi>k</mi><mi>∈</mi><mi>[</mi><mn>1</mn><mi>,</mi><mn>2</mn><mi>,...,</mi><msub><mi>n</mi><mi>s</mi></msub><mi>]</mi></mstyle>，表示网络阶段数。

8、

9、在网络子阶段中，将transformer与大核卷积相结合，设计双通道大核注意力机制(dual-large kernel attention, dual-lka)，实现对原transformer中自注意力机制的替换，使其具有获取全局上下文信息的能力，同时，使网络更适用于图像结构，降低了计算复杂度。

10、本专利技术的目的是通过下述技术方案来实现的：

11、(1) 数据集获取：在自然图像数据集bsds500中，选取train与test共400张图像作为训练集，并通过旋转、镜像等操作进行数据增强，将图像随机划分为大小的不重叠的图像块，记作。

12、(2) 自适应采样：利用卷积实现自适应采样，初始化可学习的测量矩阵，其中，基于即得到测量值，将采样模块表述为。

13、(3) 初始重构：基于，利用测量矩阵的转置卷积，实现对图像的压缩感知初始重构，得到图像的初始重构，将初始化重构模块表述为，则。

14、(4) 深度重构：将展开网络子阶段记作tc模块，即深度重构网络由子阶段迭代次而来，包含了梯度下降与近端映射模块，将tc模块表述为，表示卷积操作，则，，最终重构图像为。将送入第个tc模块，首先经过梯度下降模块得到，随后与依次经过通道concat、卷积、特征提取模块、注意力模块和前馈神经网络模块，得到，再通过卷积得到。

15、(5) 损失函数：利用重构图像与原始图像间的mse，来衡量两者之间的差异。

16、(6) 训练：使用adam优化器对网络进行初始学习率训练，并使用余弦退火策略调节学习率。

17、(7) 测试：将基准数据集图像输入训练好的深度重构网络，得到重构图像，并通过计算原始图像与重构图像间的峰值信噪比（peak signal to noise ratio, psnr）、结构相似性（structural simi本文档来自技高网...

【技术保护点】

1.一种基于Transformer和大核卷积的自然图像压缩感知方法，包括如下步骤：

【技术特征摘要】

1.一种基于transformer和大核卷...

【专利技术属性】
技术研发人员：孙桂玲，南瑞丽，郑博文，张彭晨，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人