神经图像压缩中具有替代项的非线性量化制造技术

技术编号:38032217 阅读:15 留言:0更新日期:2023-06-30 10:58
用于使用具有替代项的非线性量化进行端到端神经图像压缩的方法、装置和非暂时性存储介质,包括:接收一个或多个输入图像;基于输入图像,使用基于神经网络的替代特征生成器生成与输入图像相关联的替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。压缩表示。压缩表示。

【技术实现步骤摘要】
【国外来华专利技术】神经图像压缩中具有替代项的非线性量化
[0001]相关申请的交叉引用
[0002]本申请基于并要求于2021年6月18日提交的第63/212,452号美国临时专利申请的优先权和于2022年5月26日提交的第17/825,594号美国申请的优先权,这两个美国申请的公开内容通过引用整体并入本文中。

技术介绍

[0003]近来,ISO/IEC MPEG(JTC 1/SC 29/WG 11)一直在积极尝试对未来的视频编解码技术进行标准化,特别是可利用机器学习或人工智能(ML/AI)的标准化。ISO/IEC JPEG已建立专注于基于AI的端到端神经图像压缩的JPEG

AI小组。中国AVS标准还成立AVS

AI特别小组来致力于神经图像和视频压缩技术的研究。此外,还对神经图像压缩(NIC)方面的专门研究项目提供资金。
[0004]在基于神经网络的视频或图像编解码框架中,可使用多个模型,且每个模型可能需要大数据集并实现多个机器学习模型。传统的混合视频编解码器框架可专注于单独地训练和优化多个模型中的每一个模型,这可增加率失真损失或增加视频或图像编解码框架的计算成本,导致图像或视频框架/过程的总体性能降低。
[0005]因此,需要优化编解码框架并提高总体性能的方法。

技术实现思路

[0006]根据实施例,可提供一种用于使用具有替代项(substitution)的非线性量化进行神经图像压缩的方法。该方法可由一个或多个处理器执行。该方法可包括:接收待压缩的输入图像;基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
[0007]根据实施例,可提供一种用于使用具有替代项的非线性量化进行神经图像压缩的装置。该装置可包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取程序代码并按照程序代码的指令进行操作。程序代码可包括:第一接收代码,配置成使得至少一个处理器接收输入图像;第一生成代码,配置成使得至少一个处理器基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩代码,配置成使得至少一个处理器压缩替代图像;量化代码,配置成使得至少一个处理器通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及编码代码,配置成使得至少一个处理器使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
[0008]根据实施例,可提供一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储有指令。当指令由用于使用具有替代项的非线性量化进行神经图像压缩的至少一个处理器运行时,指令可使得至少一个处理器:接收输入图像;基于输入图像,使用基于神经网
络的替代特征生成器生成替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
附图说明
[0009]图1是根据实施例的可实现本文描述的方法、装置和系统的环境的图。
[0010]图2是图1的一个或多个设备的示例组件的框图。
[0011]图3是根据实施例的示例性非线性量化过程的图。
[0012]图4是根据实施例的使用具有替代项的非线性量化的端到端神经图像压缩框架的框图。
[0013]图5A和图5B示出了根据实施例的使用具有替代项的非线性量化的用于端到端神经图像的方法的流程图。
具体实施方式
[0014]本公开的实施例涉及用于端到端(E2E)神经图像压缩(NIC)的方法、装置和系统,其可包括:接收输入图像;通过执行变换和量化来确定输入图像的替代表示;以及压缩该替代表示。E2E NIC框架可通过优化E2E NIC框架的多个质量度量(quality metrics)(例如,率失真性能)来调整生成压缩表示的、基于深度神经网络的模型/层。
[0015]如上所述,传统的混合视频编解码器框架可专注于单独地训练和优化图像或视频编解码框架中所涉及的机器学习模型,导致压缩性能的总体损失。另一方面,E2E NIC框架能够作为单个模块对从输入到输出(使用位于输入和输出之间的层)的图像或视频编解码进行联合优化,以提高最终目标(例如,最小化率失真损失)。因此,E2E NIC框架可优化整个编解码系统以实现更好的性能,且在某些情况下,可减少框架的总体计算负载。
[0016]在E2E NIC框架中,量化过程和压缩过程可能特别重要。虽然量化可能是图像和视频压缩中的核心过程,但是量化还可能是压缩质量损失的来源。因此,提高量化效率可实现图像或视频编解码框架的总体性能的提高。根据本公开的实施例,利用输入图像的卓越改变,卓越的替代图像或替代图像是可被更好地量化并因此被更好地压缩的图像。因此,本公开的实施例涉及一种新颖的E2E NIC框架,其可使用基于神经网络的模型来利用更好的可压缩替代图像生成替代图像,然后量化替代图像以获得更好的压缩性能。利用包括非线性量化(非线性量化使用更好地适合于压缩的替代图像)的该E2E NIC框架,提高了总体编解码性能,并减少了在原始输入图像的量化期间引入的压缩损失。
[0017]根据实施例,E2E NIC框架可以是基于深度神经网络的图像或视频编解码方法。量化过程可利用非线性量化器,且量化表示可被熵编码以生成压缩表示。在一些实施例中,E2E NIC框架可包括任何合适的基于神经网络的方法、模型或层。本文公开的实施例不旨在是限制性或排他性的。E2E NIC框架可使用本文公开的方法来预训练和微调。根据本公开的一些实施例,E2E NIC框架可被联合训练并用于推断(inference)。
[0018]根据一些实施例,基于神经网络的图像压缩的过程可以如下。给定输入图像或视频序列x,基于神经网络的编码器(例如,基于深度神经网络(DNN)的编码器)可基于输入x计算压缩表示f,当与输入图像x相比时,压缩表示f更易于存储和传输。然后,压缩表示f可量
化成离散值量化表示然后,该离散值量化表示可(使用例如算术编码或霍夫曼编码)无损地或有损地熵编码成比特流,以易于存储和传输。在解码器侧,比特流可经过无损或有损熵解码,以恢复离散值量化表示然后,该离散值量化表示可输入到基于神经网络的解码器(例如,基于DNN的解码器)中,以恢复和/或重建输入图像或视频序列
[0019]根据输入图像的质量和特性、一条或多条辅助信息以及一个或多个目标质量度量,输入图像的压缩表示可具有超过特定阈值的损失。此外,在上述基于神经网络的图像压缩过程中,量化是核心步骤,也是压缩质量损失的一个主要来源。提高量化效率可以在所有图像和视频压缩任务中带来较大的性能增益。因此,根据本公开的实施例,提供一种用于使用输入图像的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用具有替代项的非线性量化进行神经图像压缩的方法,所述方法由一个或多个处理器执行,所述方法包括:接收输入图像;基于所述输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩所述替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的所述输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成所述量化表示的压缩表示。2.根据权利要求1所述的方法,其中,所述非线性量化器是对数量化器。3.根据权利要求2所述的方法,其中,所述获得量化表示包括:接收与所述替代图像相关联的一个或多个特征;生成与所述替代图像相关联的所述一个或多个特征的一个或多个相应的对数值;以及基于所述一个或多个相应的对数值的整数舍入来生成所述量化表示。4.根据权利要求1所述的方法,其中,所述方法进一步包括:接收所述压缩表示;使用基于神经网络的解码器对所述压缩表示进行解码;以及基于已解码的压缩表示来生成重建图像。5.根据权利要求4所述的方法,其中,最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。6.根据权利要求1所述的方法,其中,所述生成压缩表示包括:使用基于超先验神经网络的编码器对已编码的替代图像进行超编码;使用第二非线性量化器和熵编码生成已超编码的替代图像的超压缩表示;使用基于超先验神经网络的解码器对所述超压缩表示进行超解码,以生成超重建图像;基于所述超重建图像和所述量化表示来训练上下文神经网络模型;以及使用熵编码和所述上下文神经网络模型生成所述量化表示的压缩表示。7.根据权利要求1所述的方法,其中,所述神经图像压缩包括预训练模型,并且其中,与所述预训练模型相关联的一个或多个模型权重是固定的。8.根据权利要求7所述的方法,其中,使用所述非线性量化器对所述预训练模型进行微调。9.根据权利要求1所述的方法,其中,所述神经图像压缩包括训练模型,并且其中,训练所述训练模型包括:初始化所述训练模型的学习速率;以阈值次数调整所述训练模型的学习速率,其中,所述调整基于一个或多个训练图像的图像属性;以及基于以下至少一项终止所述训练:确定连续迭代之间的学习速率之差小于学习阈值,确定对于第一迭代次数,损失函数的输出损失是一致的,或者
确定对于最大迭代次数,已调整所述学习速率。10.根据权利要求9所述的方法,其中,基于所述损失函数的输出损失来反向调整所述学习速率。11.一种用于使用具有替代项的非线性量化进行神经图像压缩的装置,所述装置包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取所述程序代码并按照所述程序代码的指令进行操作,所述程序代码包括:第一接收代码,配置成使得所述至少一个处理器接收输入图像;第一生成代码,配置成使得所述至少一个处理器基于所述输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩代码,配置成使得所述至少一个处理器压缩所述替代图像;量化...

【专利技术属性】
技术研发人员:林晟蒋薇刘杉王炜
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1