一种使用Transformer的多层次图像压缩方法技术

技术编号:31027614 阅读:37 留言:0更新日期:2021-11-30 03:32
本发明专利技术公开一种使用Transformer的多层次图像压缩方法,以Transformer模块为主,辅之以卷积层神经网络的多层次的图像压缩框架,Transformer模块包括多层编码器组件组件、解码器组件,编码端采用编码器组件,解码端采用解码器组件;解码器拥有交叉注意力机制,该交叉注意力机制将解码器的输入的自注意力特征与编码器的自注意力特征进行联合计算,对压缩压缩框架编码器的编码端学习到的特征充分利用。本发明专利技术保留了Transformer中的解码器组件及其交叉注意力机制,应用在解码端以实现对编码端学习到的特征的充分利用,达到更好的效果。且本发明专利技术框架对硬件的需求更小。果。且本发明专利技术框架对硬件的需求更小。果。且本发明专利技术框架对硬件的需求更小。

【技术实现步骤摘要】
一种使用Transformer的多层次图像压缩方法


[0001]本申请涉及计算机技术图像处理领域,尤其涉及一种使用Transformer的多层次图像压缩方法。

技术介绍

[0002]随着互联网和数字媒体的飞速发展、大数据时代的到来,互联网上每天都有海量的图像数据产生、存储和传输,这些数据会占用很大空间和带宽。为了实现更高效的存储和传输图像数据,图像压缩算法应运而生。图像压缩旨在通过去除图像数据中的冗余信息以减少表示数字图像时需要的数据量,从而实现对图像数据的高效压缩,这也是图像处理领域常见的基本研究问题之一。
[0003]在较早的时期,一些经典的传统图像压缩算法被研究出来,比如离散余弦变换(DCT变化)、矢量量化、差分脉冲编码调制、游程编码、哈夫曼编码、算术编码等,传统的图像压缩框架通过使用这些算法,实现了不错的压缩效果,比如经典的JPEG标准[G.K Wallace,“The JPEG still picture compression standard”,IEEE Trans.on Consumer Electronics,vol.本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种使用Transformer的多层次图像压缩方法,其特征在于,所述的多层次图像压缩方法为以Transformer模块为主,辅之以卷积层神经网络的多层次的图像压缩框架,该框架利用卷积层神经网降低特征图分辨率、提取局部特征的同时兼顾全局特征分布;其中,Transformer模块包括多层编码器组件组件、解码器组件,编码端采用编码器组件,解码端采用解码器组件;解码器拥有交叉注意力机制,该交叉注意力机制将解码器的输入的自注意力特征与编码器的自注意力特征进行联合计算,对压缩压缩框架编码器的编码端学习到的特征充分利用。2.根据权利要求1所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的图像压缩框架的编码端和解码端是对称的分层结构,每一层称之为一个阶段,每个阶段包含一个上下采样模块、一个Transformer模块和必要的特征变形;每个阶段的上下采样模块通过一个卷积层来实现,分阶段的上下采样有利于适应图像压缩任务输入图像分辨率大而提取特征分辨率小的特点;同时在卷积之后使用GDN/IGDN层对特征进行非线性变换处理,以使特征排列更有利于压缩。3.根据权利要求1或2所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的图像压缩框架包括:输入图像数据x先经过压缩框架的编码端计算得到图像的潜在特征y,随后超先验模块的编码部分对y进行计算提取出边信息z,z先经过量化再通过超先验模块的解码部分重建出特征出特征与经过掩码处理的y进行拼接,一同输入到上下文预测模块中以预测y的概率分布,概率模型采用由三个子高斯分布组成的混合高斯分布模型;其中,在训练的过程中,对y直接进行量化得到对y直接进行量化得到经过压缩框架解码端的计算实现对原图像x的重建;在测试过程中,则是基于对y的概率分布的预测,自回归地重建然后再重建原始图像x。4.根据权利要求2所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的特征变形包括两个操作:维度转变和分块拉长,维度转变适应Transformer在从自然语言处理领域迁移至计算机视觉领域的过程中数据维度的差异,分块拉长解决Transformer中注意力机制的显存占用过高导致内存溢出错误的问题。5.根据权利要求4所述的一种使用Transformer的多层次图像压缩方法,其特征在于,所述的分块拉长的操作发生在上下采样卷积之后、维度转变之前,由于图像特征图的高和宽的乘积相较于文本序列长度会很大,先分块拉长再转变维度输入到Transformer中有助于大幅度减少注意力机制的显存占用,注意力机制的计算公式如下:公式中的Q、K、V分别代表查询向量、键向量、值向量,这三个向量是通过输入特征经过三个不同的全连接层产生的,d
k
为单头注意力维度;注意力机制中显存占用最大的部分是计算Q与K点积得到的注意力矩阵,即公式中的QK
T,
Q与K的形状与Transformer的输入的形状相同,假定卷积后特征图的形状为(B,H,W,C),如果直接维度转变,形状变为(B,H
×
W,C)输入到Transfo...

【专利技术属性】
技术研发人员:刘美琴梁甲名林春雨白慧慧赵耀
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1