基于深度学习的可变码率图像编码、解码系统及方法技术方案

技术编号:21577707 阅读:21 留言:0更新日期:2019-07-10 17:08
本发明专利技术公开了一种基于深度学习的可变码率图像编码系统及方法,包括:正向多尺度分解变换网络模块,将输入原始图像分解为多个尺度的图像特征;量化模块,将图像特征量化成整数;自适应码率分配模块,根据给定的目标码率对量化成整数的图像特征进行块级别的码率分配;熵编解码模块,将进行码率分配后的图像特征编码为二进制码流;同时提供了一种可变码率图像解码系统及方法,用于解码上述编码系统及方法形成的编码。本发明专利技术使用深度卷积神经网络构建正反多尺度分解变换,利用大量数据进行训练得到最优模型参数,结合基于图像复杂度的自适应码率分配方法,在实际应用中可实现可变码率图像编解码。

Variable Bit Rate Image Coding and Decoding System and Method Based on Deep Learning

【技术实现步骤摘要】
基于深度学习的可变码率图像编码、解码系统及方法
本专利技术涉及一种图像编码系统及方法,特别是涉及一种基于深度学习的可变码率图像编码、解码系统及方法。
技术介绍
如今多媒体数据占据了互联网的绝大部分流量。对于视频图像数据的压缩对于多媒体数据的存储和高效传输有着至关重要的作用。所以图像编码是一项具有重大实用价值的技术。对于图像编码的研究已经有较长的历史了,研究人员提出了大量的方法,并制定了多种国际标准,比如JPEG,JPEG2000,WebP,BPG等图像编码标准。这些编码方法虽然在目前都得到了广泛应用,但是针对现在不断增长的图像数据量及不断出现的新媒体类型,这些传统方法显示出了某些局限性。由于这些方法都是针对某种类型的图像基于特征工程,手工设计的操作,因此对于不断出现的新媒体类型,比如虚拟现实图像,全景图像,广场图像等,缺乏自适应性。因此在未来的图像应用中,需要改进的或全新的编码方法。近年来,开始有研究人员开展了基于深度学习图像编码方法的研究。有些研究人员已经取得了不错的成果,比如Ballé等人提出了一种端到端优化的图像编码方法,取得了超越目前最好的图像编码性能,甚至超越了目前最好的传统编码标准BPG。不过目前大多数基于深度卷积网络的图像编码都有一个缺陷,即一个训练好的模型针对一种输入图像只能输出一种编码结果,而不能根据实际需求,得到目标码率的编码结果。这个缺点严重限制了基于深度学习的图像编码的实际应用,因为根据带宽过存储需求,输出目标码率对于实际应用至关重要。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种基于深度学习的可变码率图像编码、解码系统及方法、同时提供了一种基于上述编码、解码系统及方法实现的编码器、解码器以及终端,结合深度学习技术,在保持优越编码性能的同时,实现输出目标码率的图像压缩。本专利技术是通过以下技术方案实现的。根据本专利技术的第一个方面,提供了一种基于深度学习的可变码率图像编码系统,包括:正向多尺度分解变换网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并发送至量化模块,其中每一个尺度的图像特征对应于一个质量等级的编码结果;量化模块,将每一个尺度的图像特征量化成整数,并发送至自适应码率分配模块;自适应码率分配模块,根据给定的目标码率对整数图像特征进行块级别的码率分配,得到当前图像块的目标码率,选择与当前图像块的目标码率最接近的整数图像特征作为编码结果发送至熵编码模块;熵编码模块,将整数图像特征编码为二进制码流并输出。优选地,所述正向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层采用广义归一化层;通道连接操作将特征图在通道维度上连接在一起,输出多个尺度的图像特征。优选地,所述量化模块采用四舍五入量化、矢量量化、量化表量化等方式进行量化操作。优选地,所述自适应码率分配模块采用基于图像复杂度的码率分配方法,将当前图像块复杂度与剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,得到当前图像块的目标码率。优选地,所述熵编码模块基于二进制数字编码,采用的熵编码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵编码模块中。优选地,所述概率模型可以采用基于线性样条插值的概率模型,也可以采用其他概率密度估计模型,例如混合高斯模型、混合拉普拉斯模型、基于深度学习的概率估计模型等。优选地,所述网络训练过程为:利用随机梯度下降算法,对概率模型参数进行优化,直到率失真损失收敛。根据本专利技术第第二个方面,提供了一种可变码率图像解码系统,用于解码上述编码系统形成的编码,包括:熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到的图像特征并输出至反向多尺度分解变换网络模块;反向多尺度分解变换网络模块,基于深度卷积神经网络,将熵解码得到的图像特征重构为解码图像并输出。优选地,所述反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。优选地,所述熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。根据本专利技术的第三个方面,提供了一种基于深度学习的可变码率图像编码方法,包括:S1,采用深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征,输出得到多尺度图像特征;S2,对S1中得到的每一个尺度图像特征量化为整数;S3,根据给定的目标码率,结合各个尺度的预测码率和失真度,对S2中得到的量化成整数的多尺度图像特征逐图像块进行最优尺度分配;S4,采用概率模型,对S3中得到的分配最优尺度后的图像特征进行熵编码,得到二进制码流并输出。优选地,所述S4中,熵编码是将分配最优尺度后的图像特征编码为二进制码流,包括:分别对图像特征中的长、宽、最优尺度以及保留下来的特征进行熵编码;其中长和宽采用16比特进行二进制化,不进行算术编码;最优尺度中的每个元素采用8比特二进制化,不进行算术编码;保留下来的特征采用二进制算术编码。优选地,还包括参数离线训练过程,步骤如下:A1:在高清自然训练图像中随机裁剪图像块组成训练集,并对图像块进行随机翻转以扩充训练数据;A2:利用随机梯度下降算法,对用于分解输入原始图像的网络参数以及用于熵编码的概率模型参数进行联合优化,直到率失真损失收敛。优选地,在所述随机梯度下降算法中,损失函数采用各个尺度的率失真损失的平均值;其中每个尺度的率失真平衡因子根据尺度不同选取不同值,使得不同尺度对应不同质量等级的编码结果。根据本专利技术的第四个方面,提供了一种基于深度学习的可变码率图像解码方法,用于解码上述编码方法形成的编码,包括:s1,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;s2,采用深度卷积神经网络,对s1中得到的解码图像特征重构为解码图像并输出。优选地,所述s2中,根据元信息,将解码图像特征进行重构,得到解码图像。优选地,所述s1中,熵解码针对二进制码流进行解码,包括:对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征。根据本专利技术的第五个方面,提供了一种编码器,执行上述任一项所述的编码方法,将输入原始图像编码后形成二进制码流输出。根据本专利技术的第六个方面,提供了一种解码器,执行上述任一项所述的解码方法,将经过编码后形成的二进制码流重构为解码图像。根据本专利技术第第七个方面,提供了一种终端,安装有上述任一项所述的编码系统和/或解码系统;或,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行上述任一项所述的编码方法和/或解码方法;或,安装上述任一项所述的编码器和/或解码器。与现有技术相比,本专利技术具有如下的有益效果:1、本专利技术利用深度学习技术,学习得到自适应本文档来自技高网...

【技术保护点】
1.一种基于深度学习的可变码率图像编码系统,其特征在于,包括:正向多尺度分解变换网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并发送至量化模块,其中每一个尺度的图像特征对应于一个质量等级的编码结果;量化模块,将每一个尺度的图像特征量化成整数,并发送至自适应码率分配模块;自适应码率分配模块,根据给定的目标码率对整数图像特征进行块级别的码率分配,得到当前图像块的目标码率,选择与当前图像块的目标码率最接近的整数图像特征作为编码结果发送至熵编码模块;熵编码模块,将整数图像特征编码为二进制码流并输出。

【技术特征摘要】
1.一种基于深度学习的可变码率图像编码系统,其特征在于,包括:正向多尺度分解变换网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并发送至量化模块,其中每一个尺度的图像特征对应于一个质量等级的编码结果;量化模块,将每一个尺度的图像特征量化成整数,并发送至自适应码率分配模块;自适应码率分配模块,根据给定的目标码率对整数图像特征进行块级别的码率分配,得到当前图像块的目标码率,选择与当前图像块的目标码率最接近的整数图像特征作为编码结果发送至熵编码模块;熵编码模块,将整数图像特征编码为二进制码流并输出。2.根据权利要求1所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述正向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层采用广义归一化层;通道连接操作将特征图在通道维度上连接在一起,输出多个尺度的图像特征。3.根据权利要求1所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述自适应码率分配模块采用基于图像复杂度的码率分配方法,将当前图像块复杂度与剩余图像块复杂度和的比值作为分配比率,将给定的目标码率按照分配比率分配到当前图像块,得到当前图像块的目标码率。4.根据权利要求1所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述熵编码模块基于二进制数字编码,采用的熵编码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵编码模块中。5.根据权利要求4所述的一种基于深度学习的可变码率图像编码系统,其特征在于,所述网络训练过程为:利用随机梯度下降算法,对概率模型参数进行优化,直到率失真损失收敛。6.一种可变码率图像解码系统,其特征在于,用于解码权利要求1所述系统形成的编码,包括:熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到图像特征并输出至反向多尺度分解变换网络模块;反向多尺度分解变换网络模块,基于深度卷积神经网络将熵解码得到的图像特征重构为解码图像并输出。7.根据权利要求6所述的一种可变码率图像解码系统,其特征在于,所述反向多尺度分解变换网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将熵解码得到的图像特征在通道维度上平均分成多组特征图输出。8.根据权利要求6所述的一种可变码率图像解码系统,其特征在于,所述熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。9.一种基于深度学习的可变码率图像编码方法,其特征在于,包括:S1,采用深度卷积神经网络,...

【专利技术属性】
技术研发人员:陈立蔡春磊张小云高志勇鲁国
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1