一种基于特征堆叠注意力进行特征预处理的图像压缩方法及系统技术方案

技术编号：39164235 阅读：18 留言：0更新日期：2023-10-23 15:03

本发明专利技术涉及一种基于特征堆叠注意力进行特征预处理的图像压缩方法及系统，包括：特征预处理：对原始输入图像切分；对原始输入图像和子图像提取特征；进行堆叠，得到新的特征；进行细化，得到最终的待编码特征；编码，包括：先经过基础编码器得到潜在特征，送入超先验编码器得到超先验潜在特征，对潜在特征和超先验潜在特征分别进行量化；解码，包括：依次经过熵编码和熵解码，得到新的潜在特征和新的超先验潜在特征，经过超先验解码器得到超先验潜在特征的超先验；经过基础解码器生成解码后的特征；重构：解码后的特征通过特征预处理逆过程操作，得到重构的特征，实现图像压缩。本发明专利技术有效地增强网络工作的非线性表达能力并进一步消除冗余信息。除冗余信息。除冗余信息。

全部详细技术资料下载

【技术实现步骤摘要】
al.Variational image compression with a scale hyperprior[J].arXiv preprint arXiv:1802.01436,2018.)。早稻田大学使用离散高斯混合模型来改进熵编码并在网络结构中引入了注意力机制(参见Cheng Z,Sun H,Takeuchi M,et al.Learned image compression with discretized gaussian mixture likelihoods and attention modules[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:7939
‑
7948.)。近年来，随着自注意力的爆火VIT也受到了广泛关注。高通团队利用Swim transformer构造了非线性变换(参见Zhu Y,Yang Y,Cohen T.Transformer
‑
based transform coding[C]//International Conference on Learning Representations.2022.)。南京大学在VAE架构的基础上采用神经变换单元(NTU)来实现特征的提取(参见Lu M,Guo P,Shi H,et al.Transformer
‑
based image compression[J].arXiv preprint a...

【技术保护点】

【技术特征摘要】
1.一种基于特征堆叠注意力进行特征预处理的图像压缩方法，其特征在于，包括：特征预处理，包括：对原始输入图像进行切分，得到若干子图像；采用卷积堆叠的方法分别对原始输入图像和子图像提取特征，得到原始输入图像特征和子图像特征；将原始输入图像特征和子图像特征进行堆叠，得到新的特征；对新的特征进行细化，得到最终的待编码特征；编码，包括：最终的待编码特征先经过基础编码器得到潜在特征，潜在特征进一步送入超先验编码器得到超先验潜在特征，对潜在特征和超先验潜在特征分别进行量化；解码，包括：对量化后的潜在特征和超先验潜在特征，依次经过熵编码和熵解码，得到新的潜在特征和新的超先验潜在特征，新的超先验潜在特征经过超先验解码器得到超先验潜在特征的超先验；新的潜在特征经过基础解码器生成解码后的特征；重构：解码后的特征通过特征预处理逆过程操作，得到重构的特征，实现图像压缩。2.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法，其特征在于，采用卷积堆叠的方法分别对原始图像和子图像提取特征，得到输入图像特征和子图像特征，包括：分别将子图像S
t
经过两个卷积层得到对应的子图像特征，记为这两个卷积层的卷积核大小均为3
×
3，步长为1；t＝1,2,3,4；再依次利用一个卷积核大小为5
×
5、步长为1的卷积和一个卷积核大小为3
×
3、步长为2的卷积来提取原始输入图像x的特征，得到原始输入图像特征，记为f
x
。3.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法，其特征在于，将原始输入图像特征和子图像特征进行堆叠，得到新的特征，包括：增加一个时间维度，对子图像特征进行特征堆叠操作；添加f
x
的分支，构造了一个新的特征具体如式(I)：式(I)中，表示特征堆叠操作。4.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法，其特征在于，对新的特征进行细化，得到最终的待编码特征，包括：特征f
′
经过一个卷积核大小为5
×5×
5的三维卷积和一个卷积核大小为3
×3×
3的三维卷积来提取特征；使用PReLU激活函数和跳跃连接结构，提取得到的特征f
″
送入到特征注意力块；特征注意力中，首先，特征f
″
送入三个串联的三维卷积残差块，每个三维卷积残差块包括两个级联的残差块，采用PReLU作为激活函数并使用跳跃连接，得到特征f
3dr
；其次，特征f
3dr
经过一个具有全局残差的通道注意力块，输出的特征与特征f
″
相加得到特征f
ca
；然后，特征f
ca
经过一个空间注意力块，得到输出的特征f
sa
；最后，特征f
sa
经过一个特征注意力块生成特征f
att
，特征注意力块包括三个支路，利用级联的三维卷积残差块进行特征提取，再将特征注意力块输出的特征的维度变为W/2
×
H/2
×
5C，得到经过细化处理的最终的待编码特征f；进一步优选的，三维卷积残差块包括三种不同方式的网络结构，第一种方式是：三维卷积残差块包括一个残差块；第二种方式是：三维卷积残差块包括采用跳跃连接构成的两个
残差块；第三种方式是：三维卷积残差块包括串联到一起并采用跳跃连接构成的三个残差块；两个使用PReLU作为激活函数的三维卷积以及跳跃连接构成的模块称为一个残差块。5.根据权利要求1所述的一种基于特征堆叠注意力进行特征预处理的图像压缩方法，其特征在于，最终的待编码特征先经过基础编码器得到潜在特征，潜在特征进一步送入超先验编码器得到超先验潜在特征，对潜在特征和超先验潜在特征分别进行量化；具体实现公式如式(II)、式(III)、式(IV)、式(V)、式(VI)、式(VII)所示：y＝g
a
(f；θ
me
)
ꢀꢀ
(II)(II)z＝h
a
(y；θ
he
)
ꢀꢀ
(V)(V)式(II)、式(III)、式(IV)中，待编码特征f经过基础编码器g
a
，生成潜在特征y；是y量化后的结果，Q表示量化操作，经过基础解码器g
s
得到...

【专利技术属性】
技术研发人员：元辉，姜世奇，李帅，高艳博，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人