一种基于Swin-Transformer和自回归的图像压缩方法和系统技术方案

技术编号:36786662 阅读:11 留言:0更新日期:2023-03-08 22:30
本发明专利技术公开一种基于Swin

【技术实现步骤摘要】
一种基于Swin

Transformer和自回归的图像压缩方法和系统


[0001]本专利技术涉及基于深度学习的图像压缩
,特别涉及基于Swin
‑ꢀ
Transformer和自回归的图像压缩方法和系统。

技术介绍

[0002]随着互联网技术的快速发展,以及信息化时代的到来,人们获取信息的方式日益丰富,特别是现在智能设备的普及,越来越多的信息需要在这些设备上进行传递有数据表明,人们通过视觉从外界获取信息占比很高,而图像作为视觉信息表示的主要方式,通过对客观事物的直观表达,以形象化、生动化的形式向人们传递着事物本身的信息。所以图像成为了人们生活中获取信息最重要途径之一。在利用图像进行信息传递时,由于原始图像内部存在大量冗余,在信息传递的过程中会占用较多的网络资源和存储空间。因此,原始图像没有经过压缩处理,在一定程度上限制了信息的存储和传输。所以,对原始图像进行压缩,进而缓解互联网的传输及储存压力,能够使人们更快捷、方便的接收信息。近年来,越来越多的领域需要用图像来传递信息,数字化图像数据为信息传递带来便利的同时,也对计算机存储资源和网络传输带宽提出了挑战。图片未经压缩与经过压缩后的对比,人眼视觉效果相差无几,但是图像所占内存却相差几十倍若是将海量的原始图像进行存储,以目前的硬件存储技术,必然会增加存储器的压力。因此,未经过压缩的图像,极大的增加了日常网络传输和数据存储的负担,所以,如何研究高效、合适的图像压缩方法,通过去除图像中的多余数据,进而降低图像的存储空间,并提高图像在网络中的传输速率,成为了图像领域的研究的重点。
[0003]文献1(韩逸飞.基于深度学习的图像压缩算法研究[D].北京邮电大学, 2020.)是基于循环神经网络的模型,使用LSTM单元来学习记忆每次迭代过程中预测输出与输入的残差的方法提高特征信息表达,以提升重构图像效果。文献 2(Mentzer F,Toderici G D,Tschannen M,et al.High

fidelity generative imagecompression[J].Advances in Neural Information Processing Systems,2020,33:11913
‑ꢀ
11924.)利用生成对抗网络作为模型,提高重构图像效果。
[0004]在基于深度学习的图像压缩任务中模型多数使用卷积神经网络,重构出来的图像效果虽有提升,但是也不可避免增加了参数计算量,工业落地等问题。卷积神经网络虽然提供很大的贡献,但是它的一大缺点是:不是为了捕捉局部特征而设计的,严重影响了重构的图像的质量。

技术实现思路

[0005]为了解决卷积神经网络中不利于捕捉局部特征以及网络参数量大等问题,本专利技术提出一种基于Swin

Transformer和自回归的图像压缩方法,该方法使用 Swin

Transformer作为特征提取方法;使用自回归的方法对特征信息进行高斯建模;采用解耦的方式建模出均值u和方差σ。
[0006]一种基于Swin

Transformer和自回归的图像压缩方法,其特征在于,包括以下步骤:
[0007]S1、收集自然环境中多种不同图片,将收集的图片,随机按照9:1的比例分成两部分,前一部分构成训练集,后一部分构成测试集。并且对训练集进行预处理;
[0008]S2、构建图像压缩神经网络;将S1得到的图片随机水平翻转、随机裁剪和归一化后输入到构建的图像压缩神经网络中进行训练;损失函数使用均方误差、感知损失和率失真损失函数,设置超参数平衡损失权重,设置优化策略用于构建图像压缩网络,通过对网络进行循环迭代训练使损失函数不断减小,直到完成设定的迭代次数并将训练权重参数保存;
[0009]所述构建的图像压缩神经网络,具体为:网络结构大体上由三部分组成,分别为编码器Encoder、生成器Generator和Probability Model超先验模型。
[0010]Encoder依次设置8个Swin

Transformer块堆叠,每两个Swin

Transformer 块下采样一次,以及算术编码器;
[0011]Generator则是由算术解码器、9层残差网络堆叠和8个Swin

Transformer堆叠组成,残差网络不对特征进行上采样的操作,而是由8个Swin

Transformer完成上采样的任务,每两个Swin

Transformer块上采样一次;
[0012]Probability Model主要是由两个部分组成,第一个部分是由算术编码器和 Hyper

Encoder组成,其中Hyper

Encoder是由3个kernel_size=3,stride=2的卷积组成。而第二部分是由算术解码器、自回归网络Context Model和Hyper

Decoder 组成,其中Hyper

Decoder是由3个kernel_size=3,stride=2的转置卷积以及解耦头组成。自回归网络Context Model是由一个5*5的mask conv卷积构成。
[0013]编码时,依次将图片x输入图像压缩网络。将上述Encoder、Generator、Probability Model分别对应简称为E、G、P压缩时,图片x经过Encoder进行下采样操作得到特征y,其过程表示为:
[0014]y=E(x)
[0015]将特征y,经过Probability Model中的Hyper

Encoder从y中提取出边信息z,对z进行量化得到z

,对量化后的z

进行算术编码得到P(z)。将Hyper

Encoder简称为Ha,其过程表示为:
[0016]z=Ha(y)
[0017]z

=Quantized(z)
[0018]将P(z)解码后得到z

,通过Probability Model中的Hyper

Decoder、自回归 Context Model的方法以及解耦得到均值u和方差σ。将Hyper

Decoder简称为Hs,其过程能够表示为:
[0019]z=Dequantized(z

)
[0020](u,σ)=Hs(z

)
[0021]对y进行量化得到y

,通过均值u和方差σ,进行高斯建模后,便可以对y进行算术编码P(y),进而得到二进制码流。
[0022]解码时:将上述P(z)算术解码后得到z,通过Probabili本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Swin

Transformer和自回归的图像压缩方法,其特征包括以下步骤:S1、收集自然环境中多种不同图片,将收集的图片,随机按照9:1的比例分成两部分,前一部分构成训练集,后一部分构成测试集。并且对训练集进行预处理;S2、构建图像压缩神经网络;将S1得到的图片随机水平翻转、随机裁剪和归一化后输入到构建的图像压缩神经网络中进行训练;损失函数使用均方误差、感知损失和率失真损失函数,设置超参数平衡损失权重,设置优化策略用于构建图像压缩网络,通过对网络进行循环迭代训练使损失函数不断减小,直到完成设定的迭代次数并将训练权重参数保存;S3、利用步骤S2构建的图像压缩神经网络和获得的网络训练权重参数构建基于Swin

Transformer和自回归的图像压缩系统,并使用该压缩系统对图像进行压缩,并存储起来。需要使用图像时,使用本图像压缩系统将所需要的图像的压缩文件进行解压,从而获得所需的图片。2.根据权利要求1所述的一种基于Swin

Transformer和自回归的图像压缩方法,其特征在于,包括如下步骤:S21、使用Swin

Transformer构建的编码器和重构图片的生成器;S22、采用自回归的方式辅助对编码器Encoder提取的特征进行高斯建模;S23、高斯建模所用到的均值u和方差σ,使用解耦的方式得到;S24、生成器Generator采用卷积神经网络和Swin

Transformer相结合的方式。3.根据权利要求1所述的一种基于Swin

Transformer和自回归的图像压缩方法,其特征在于,步骤S2中所述构建的图像压缩神经网络,具体为:网络结构大体上由三部分组成,分别为编码器Encoder、生成器Generator和Probability Model超先验模型;Encoder依次设置8个Swin

Transformer块(其中每两个Swin

Transformer块下采样一次)和1个算术编码器;Generator则是由算术解码器、9层残差网络堆叠和8个Swin

Transformer堆叠组成,残差网络不对特征进行上采样的操作,而是由8个Swin

Transformer完成上采样的任务,每两个Swin

Transformer块上采样一次;Probability Model主要是由两个部分组成,第一个部分是由算术编码器和Hyper

Encoder组成,其中Hyper

【专利技术属性】
技术研发人员:程吉祥张宇进李志丹
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1