一种基于字典学习和深度学习的图像压缩方法技术

技术编号:43709519 阅读:44 留言:0更新日期:2024-12-18 21:21
本发明专利技术提出了一种基于字典学习和深度学习的端到端图像压缩方法。该方法首先通过一个可学习的网络参数作为字典,该字典在神经网络的梯度下降训练过程中被用来捕捉自然图像中常见的纹理和图案。随后,在自回归编解码的过程中,我们使用包含部分纹理信息的特征通过交叉注意力的方法来查询包含完整纹理信息的字典,目的是利用已解码的部分信息中提取出完整纹理信息的字典特征,这些特征将用于概率分布建模。此字典能够总结训练数据集中有用的信息,提供先验知识。在自回归编解码时,通过利用这种先验信息,可以更精确地对当前编解码的信息进行概率分布建模,从而实现更短的编码长度。这一方法不仅提高了图像压缩的效率,还增强了重构图像的质量。

【技术实现步骤摘要】

本专利技术属于图像压缩领域,特别涉及基于字典学习和深度学习的图像压缩方法


技术介绍

1、图像压缩是图像信号处理领域中一个重要且长期存在的研究方向。现代社会对高分辨率图像的广泛需求对于高分辨率图片存储和传输方面带来的严峻的挑战。因此,一种强大的图像压缩技术急待研制。而这种图像压缩技术不仅需要能够将图像进行更为紧密的压缩以满足高分辨图像的存储和传输需求,还需要保证所重构图像的保真度,以提供给用户高质量的高分辨率图像。

2、最近基于深度学习的图像压缩算法(lic)已经展现出卓越的性能,甚至超越了当前最先进的图像和视频编码标准vvc。这主要归因于其强大的非线性变换能力和端到端的联合优化方法。基于深度学习的图像压缩算法主要有两个关键的组件组成:非线性的编解码器和熵模型。编码器和解码器的作用是将图像和潜在表示进行互相的转换;而熵模型则用于估计量化后的潜在表示的概率分布。这个概率分布将进一步被用来进行熵编码,将潜在表示编码为比特流,或者将比特流解码回潜在表示。

3、为了利用非线性映射能力将输入图像转换为更加紧密的潜在表示,一些学者研究于设计强大本文档来自技高网...

【技术保护点】

1.一种基于字典学习和深度学习的图像压缩方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于字典学习和深度学习的图像压缩方法,其特征在于,所述超先验模块从潜在表示y中提取一个侧信息z,侧信息z会进一步被量化,然后被超先验解码器映射到超先验特征

3.根据权利要求1所述的一种基于字典学习和深度学习的图像压缩方法,其特征在于,所述基于字典的熵模型包括基于字典的交叉注意力模块DCA和概率分布估计网络fE和量化误差预测网络fLRP;具体的,将超先验特征与解码后的潜在表示切片作为基于字典的交叉注意力模块的输入来产生对于字典的查询,然后得到查询完字典后的携带着完整...

【技术特征摘要】

1.一种基于字典学习和深度学习的图像压缩方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于字典学习和深度学习的图像压缩方法,其特征在于,所述超先验模块从潜在表示y中提取一个侧信息z,侧信息z会进一步被量化,然后被超先验解码器映射到超先验特征

3.根据权利要求1所述的一种基于字典学习和深度学习的图像压缩方法,其特征在于,所述基于字典的熵模型包括基于字典的交叉注意力模块dca和概率分布估计网络fe和量化误差预测网络flrp;具体的,将超先验特征与解码后的潜在表示切片作为基于字典的交叉注意力模块的输入来产生对于字典的查询,然后得到查询完字典后的携带着完整纹理的特征

4.根据权利要求3所述的一种基于字典学习和深度学习的图像压缩方法,其特征在于,潜在表示y被量化后得到量化后的潜在表示然后沿通道维度均分为n个切片,这n个切片按照先后顺序进行熵编码;

5...

【专利技术属性】
技术研发人员:顾舒航卢景博张乐恒
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1