一种基于深度学习的图像编码方法、设备技术

技术编号:43673382 阅读:23 留言:0更新日期:2024-12-18 20:58
本发明专利技术提供一种基于深度学习的图像编码方法及设备,属于图像编码领域,所述图像编码方法包括:编码端使用非线性变换将原始图像投影至隐空间;编码端利用因果上下文进行概率分布估计;编码端使用熵编码技术对隐变量进行编码;解码端利用因果上下文进行概率分布估计;解码端使用熵编码技术对隐变量进行解码;编码端使用非线性变换将隐变量重建为原始图像;使用率失真损失函数和因果上下文调整损失函数对图像编解码过程进行端到端反向梯度传播优化。通过使用更优的因果上下文调整损失函数及更高效的网络结构,获得更佳的图像压缩能力和更高的率失真性能。

【技术实现步骤摘要】

本专利技术涉及图像编码领域,具体涉及一种基于深度学习的图像编码方法、设备


技术介绍

1、当代高质量、高分辨率照片的不断增长推动了对先进图像存储和传输技术日益增长的需求。因此,近年来有损图像压缩技术发展迅猛。与传统编码技术(如jpeg、bpg、webp、vvc)并行的,出现了一系列基于深度学习的图像压缩方法(lic),它们在保持了相当快的运行速度的同时,实现了高峰值信噪比(psnr)和多尺度结构相似性(ms-ssim)。它们相较于vvc的卓越压缩效果表明了lic技术在不久的将来有望与传统技术齐头并进。

2、基于深度学习的有损图像压缩方法建立在ballé等人提出的变分自编码器(vae)框架上。基于vae的lic框架主要包括自编码器和熵模型。自编码器在图像空间和隐空间之间进行非线性变换;而熵模型通过估计隐变量的概率分布来最小化编码长度。与自编码器相比,熵模型是lic的一个独特重要组成部分,对最终的压缩结果有着重要影响。

3、在lic的文献中,熵模型通常指的是一个参数化的分布模型。在一些的开创性工作中,ballé等人建立了端到端的率失真优本文档来自技高网...

【技术保护点】

1.一种基于深度学习的图像编码方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的图像编码方法,其特征在于,所述图像量化隐变量在通道维度均分为n个隐变量部分然后通过熵模型的估计概率分布对传输得到的隐变量部分进行自回归解码,自回归解码即利用因果上下文进行的逐部分解码过程,所述因果上下文包括已经解码的部分,所述自回归解码具体而言:考虑一个n个隐变量部分解码过程,首先解码第一部分,而后通过利用已解码的第一部分对第二部分进行解码…以此类推完成所有部分的解码;

3.根据权利要求1所述的一种基于深度学习的图像编码方法,其特征在于,所述端到端反向梯度传播...

【技术特征摘要】

1.一种基于深度学习的图像编码方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的图像编码方法,其特征在于,所述图像量化隐变量在通道维度均分为n个隐变量部分然后通过熵模型的估计概率分布对传输得到的隐变量部分进行自回归解码,自回归解码即利用因果上下文进行的逐部分解码过程,所述因果上下文包括已经解码的部分,所述自回归解码具体而言:考虑一个n个隐变量部分解码过程,首先解码第一部分,而后通过利用已解码的第一部分对第二部分进行解码…以此类推完成所有部分的解码;

3.根据权利要求1所述的一种基于深度学习的图像编码方法,其特征在于,所述端到端反向梯度传播优化的率失真损失函数的表达式为:

4.根据权利要求3所述的一种基于深度学习的图像编码方法,其特征在于,所述编码器具体包括下采样模块、残差模块、无非线性激活函数模块;进一步的,输入图像经过下采样模块后,经过残差模块、4个堆叠的无非线性激活函数模块、下采样模块这三个模块处理序列3次后得到图像隐变量;

5.根据权利要求4所述的一种基于深度学习的图像编码方法,其特征在于,所述超先验编码器具体包括下采样模块、高斯误差线性单元;图像隐变量依次经过下采样模块、高斯误差线性单元、下采样模...

【专利技术属性】
技术研发人员:顾舒航韩铭昊江世银朱策
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1