当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于特征堆叠注意力进行特征预处理的图像压缩方法及系统技术方案

技术编号:39164235 阅读:18 留言:0更新日期:2023-10-23 15:03
本发明专利技术涉及一种基于特征堆叠注意力进行特征预处理的图像压缩方法及系统,包括:特征预处理:对原始输入图像切分;对原始输入图像和子图像提取特征;进行堆叠,得到新的特征;进行细化,得到最终的待编码特征;编码,包括:先经过基础编码器得到潜在特征,送入超先验编码器得到超先验潜在特征,对潜在特征和超先验潜在特征分别进行量化;解码,包括:依次经过熵编码和熵解码,得到新的潜在特征和新的超先验潜在特征,经过超先验解码器得到超先验潜在特征的超先验;经过基础解码器生成解码后的特征;重构:解码后的特征通过特征预处理逆过程操作,得到重构的特征,实现图像压缩。本发明专利技术有效地增强网络工作的非线性表达能力并进一步消除冗余信息。除冗余信息。除冗余信息。

【技术实现步骤摘要】
al.Variational image compression with a scale hyperprior[J].arXiv preprint arXiv:1802.01436,2018.)。早稻田大学使用离散高斯混合模型来改进熵编码并在网络结构中引入了注意力机制(参见Cheng Z,Sun H,Takeuchi M,et al.Learned image compression with discretized gaussian mixture likelihoods and attention modules[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:7939

7948.)。近年来,随着自注意力的爆火VIT也受到了广泛关注。高通团队利用Swim transformer构造了非线性变换(参见Zhu Y,Yang Y,Cohen T.Transformer

based transform coding[C]//International Conference on Learning Representations.2022.)。南京大学在VAE架构的基础上采用神经变换单元(NTU)来实现特征的提取(参见Lu M,Guo P,Shi H,et al.Transformer

based image compression[J].arXiv preprint arXiv:2111.06707,2021.),随后他们进一步采用集成卷积和自注意力单元实现上下文自适应变换。
[0004]此前的工作在基于VAE的基础编解码器中试图引入更深层次的网络、注意模模块或可逆结构等。这些结构的引入虽然可以在一定程度上提升性能,但特征提取的能力仍然十分有限,特征中仍然存在冗余信息。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出了一种基于特征堆叠注意力进行特征预处理的图像压缩方法及系统
[0006]不同于已有方法直接对输入图像进行编解码,本专利技术提出了一种对输入图像进行特征预处理的方法,利用特征堆叠注意力模块来学习更有效的特征用于编码和解码。具体来说,本专利技术提出了一种特征预处理模块(FPM)对输入图像进行切分,而不是直接编码输入图像。得到的子图像存在帧内冗余和帧间冗余,利用特征提取模块从这些子图像中提取初步特征,接着使用构造的特征堆叠注意力模块(FSAM)对初步特征进一步进行提取。先将子图像的特征和原始图像的特征堆叠起来,然后利用一种基于级联三维卷积残差块的注意力细化模块(ARB)来捕获它们在通道、子图像帧内和子图像帧间维度上的相关性。通过该方法可以有效地增强网络工作的非线性表达能力并进一步消除冗余信息。
[0007]本专利技术还提出了一种基于特征堆叠注意力进行特征预处理的图像压缩系统。
[0008]术语解释:
[0009]1、LIC(Learned image compression):基于深度学习的图像编码算法。
[0010]2、VAE(Variational Autoencoders):变分自编码器是一种生成模型,用于学习输入数据的潜在表示和生成新的数据样本。
[0011]3、FPM(Feature Pre

processing Module):对输入图像进行特征预处理的模块。
[0012]4、FSAM(Feature Stack Attention Module):利用特征堆叠和注意力模块进一步提取特征的模块。
[0013]5、ARB(Attention Refinement Block):利用注意力机制和残差网络构成的特征细化模块。
[0014]6、ICSA(Integrated Convolution and Self

Attention):集成卷积和自注意力单元,由一个卷积层和多个残块邻域注意力块构成,动态的表示输入的特征信息。
[0015]7、MCM(Multi

stage Context Model):多阶段上下文模型,按照给定的空间通道顺序逐步使用可用的邻域信息并行执行概率估计。
[0016]8、Q(Quantization):量化环节,将信号连续取值映射为离散值的过程,是图像编码过程中的重要环节。
[0017]9、AE/AD(Arithmetic Encoding and Arithmetic Decoding):算术编码/算术解码,通过熵编码将量化后的特征在编码端写入码流以及在解码端进行解码。
[0018]本专利技术的技术方案为:
[0019]一种基于特征堆叠注意力进行特征预处理的图像压缩方法,包括:
[0020]特征预处理,包括:对原始输入图像进行切分,得到若干子图像;采用卷积堆叠的方法分别对原始输入图像和子图像提取特征,得到原始输入图像特征和子图像特征;将原始输入图像特征和子图像特征进行堆叠,得到新的特征;对新的特征进行细化,得到最终的待编码特征;
[0021]编码,包括:最终的待编码特征先经过基础编码器得到潜在特征,潜在特征进一步送入超先验编码器得到超先验潜在特征,对潜在特征和超先验潜在特征分别进行量化;
[0022]解码,包括:对量化后的潜在特征和超先验潜在特征,依次经过熵编码和熵解码,得到新的潜在特征和新的超先验潜在特征,新的超先验潜在特征经过超先验解码器得到超先验潜在特征的超先验;新的潜在特征经过基础解码器生成解码后的特征;
[0023]重构:解码后的特征通过特征预处理逆过程操作,得到重构的特征,实现图像压缩。
[0024]根据本专利技术优选的,采用卷积堆叠的方法分别对原始图像和子图像提取特征,得到输入图像特征和子图像特征,包括:分别将子图像S
t
经过两个卷积层得到对应的子图像特征,记为f
St
;这两个卷积层的卷积核大小均为3
×
3,步长为1;t=1,2,3,4。此外,再依次利用一个卷积核大小为5
×
5、步长为1的卷积和一个卷积核大小为3
×
3、步长为2的卷积来提取原始输入图像x的特征,得到原始输入图像特征,记为f
x

[0025]根据本专利技术优选的,将原始输入图像特征和子图像特征进行堆叠,得到新的特征,包括:
[0026]增加一个时间维度,对子图像特征进行特征堆叠操作;添加f
x
的分支,构造了一个新的特征具体如式(I):
[0027][0028]式(I)中,表示特征堆叠操作。
[0029]根据本专利技术优选的,对新的特征进行细化,得到最终的待编码特征,包括:
[0030]特征f

经过一个卷积核大小为5
×5×
5的三维卷积和一个卷积核大小为3
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征堆叠注意力进行特征预处理的图像压缩方法,其特征在于,包括:特征预处理,包括:对原始输入图像进行切分,得到若干子图像;采用卷积堆叠的方法分别对原始输入图像和子图像提取特征,得到原始输入图像特征和子图像特征;将原始输入图像特征和子图像特征进行堆叠,得到新的特征;对新的特征进行细化,得到最终的待编码特征;编码,包括:最终的待编码特征先经过基础编码器得到潜在特征,潜在特征进一步送入超先验编码器得到超先验潜在特征,对潜在特征和超先验潜在特征分别进行量化;解码,包括:对量化后的潜在特征和超先验潜在特征,依次经过熵编码和熵解码,得到新的潜在特征和新的超先验潜在特征,新的超先验潜在特征经过超先验解码器得到超先验潜在特征的超先验;新的潜在特征经过基础解码器生成解码后的特征;重构:解码后的特征通过特征预处理逆过程操作,得到重构的特征,实现图像压缩。2.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法,其特征在于,采用卷积堆叠的方法分别对原始图像和子图像提取特征,得到输入图像特征和子图像特征,包括:分别将子图像S
t
经过两个卷积层得到对应的子图像特征,记为这两个卷积层的卷积核大小均为3
×
3,步长为1;t=1,2,3,4;再依次利用一个卷积核大小为5
×
5、步长为1的卷积和一个卷积核大小为3
×
3、步长为2的卷积来提取原始输入图像x的特征,得到原始输入图像特征,记为f
x
。3.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法,其特征在于,将原始输入图像特征和子图像特征进行堆叠,得到新的特征,包括:增加一个时间维度,对子图像特征进行特征堆叠操作;添加f
x
的分支,构造了一个新的特征具体如式(I):式(I)中,表示特征堆叠操作。4.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法,其特征在于,对新的特征进行细化,得到最终的待编码特征,包括:特征f

经过一个卷积核大小为5
×5×
5的三维卷积和一个卷积核大小为3
×3×
3的三维卷积来提取特征;使用PReLU激活函数和跳跃连接结构,提取得到的特征f

送入到特征注意力块;特征注意力中,首先,特征f

送入三个串联的三维卷积残差块,每个三维卷积残差块包括两个级联的残差块,采用PReLU作为激活函数并使用跳跃连接,得到特征f
3dr
;其次,特征f
3dr
经过一个具有全局残差的通道注意力块,输出的特征与特征f

相加得到特征f
ca
;然后,特征f
ca
经过一个空间注意力块,得到输出的特征f
sa
;最后,特征f
sa
经过一个特征注意力块生成特征f
att
,特征注意力块包括三个支路,利用级联的三维卷积残差块进行特征提取,再将特征注意力块输出的特征的维度变为W/2
×
H/2
×
5C,得到经过细化处理的最终的待编码特征f;进一步优选的,三维卷积残差块包括三种不同方式的网络结构,第一种方式是:三维卷积残差块包括一个残差块;第二种方式是:三维卷积残差块包括采用跳跃连接构成的两个
残差块;第三种方式是:三维卷积残差块包括串联到一起并采用跳跃连接构成的三个残差块;两个使用PReLU作为激活函数的三维卷积以及跳跃连接构成的模块称为一个残差块。5.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法,其特征在于,最终的待编码特征先经过基础编码器得到潜在特征,潜在特征进一步送入超先验编码器得到超先验潜在特征,对潜在特征和超先验潜在特征分别进行量化;具体实现公式如式(II)、式(III)、式(IV)、式(V)、式(VI)、式(VII)所示:y=g
a
(f;θ
me
)
ꢀꢀ
(II)(II)z=h
a
(y;θ
he
)
ꢀꢀ
(V)(V)式(II)、式(III)、式(IV)中,待编码特征f经过基础编码器g
a
,生成潜在特征y;是y量化后的结果,Q表示量化操作,经过基础解码器g
s
得到...

【专利技术属性】
技术研发人员:元辉姜世奇李帅高艳博
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1