神经图像压缩中具有替代项的非线性量化制造技术

技术编号：38032217 阅读：15 留言：0更新日期：2023-06-30 10:58

用于使用具有替代项的非线性量化进行端到端神经图像压缩的方法、装置和非暂时性存储介质，包括：接收一个或多个输入图像；基于输入图像，使用基于神经网络的替代特征生成器生成与输入图像相关联的替代图像；压缩替代图像；通过使用非线性量化器，对已压缩的替代图像进行量化，以获得具有更高压缩性能的输入图像的量化表示；以及使用基于神经网络的编码器对已量化的替代图像进行熵编码，以生成量化表示的压缩表示。压缩表示。压缩表示。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】神经图像压缩中具有替代项的非线性量化
[0001]相关申请的交叉引用
[0002]本申请基于并要求于2021年6月18日提交的第63/212,452号美国临时专利申请的优先权和于2022年5月26日提交的第17/825,594号美国申请的优先权，这两个美国申请的公开内容通过引用整体并入本文中。

技术介绍

[0003]近来，ISO/IEC MPEG(JTC 1/SC 29/WG 11)一直在积极尝试对未来的视频编解码技术进行标准化，特别是可利用机器学习或人工智能(ML/AI)的标准化。ISO/IEC JPEG已建立专注于基于AI的端到端神经图像压缩的JPEG
‑
AI小组。中国AVS标准还成立AVS
‑
AI特别小组来致力于神经图像和视频压缩技术的研究。此外，还对神经图像压缩(NIC)方面的专门研究项目提供资金。
[0004]在基于神经网络的视频或图像编解码框架中，可使用多个模型，且每个模型可能需要大数据集并实现多个机器学习模型。传统的混合视频编解码器框架可专注于单独地训练和优化多个模型中的每一个模型，这可增加率失真损失或增加视频或图像编解码框架的计算成本，导致图像或视频框架/过程的总体性能降低。
[0005]因此，需要优化编解码框架并提高总体性能的方法。

技术实现思路

[0006]根据实施例，可提供一种用于使用具有替代项(substitution)的非线性量化进行神经图像压缩的方法。该方法可由一个或多个处理器执行。该方法可包括：接收待压缩的输入图像；基于输入图像，...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用具有替代项的非线性量化进行神经图像压缩的方法，所述方法由一个或多个处理器执行，所述方法包括：接收输入图像；基于所述输入图像，使用基于神经网络的替代特征生成器生成替代图像；压缩所述替代图像；通过使用非线性量化器，对已压缩的替代图像进行量化，以获得具有更高压缩性能的所述输入图像的量化表示；以及使用基于神经网络的编码器对已量化的替代图像进行熵编码，以生成所述量化表示的压缩表示。2.根据权利要求1所述的方法，其中，所述非线性量化器是对数量化器。3.根据权利要求2所述的方法，其中，所述获得量化表示包括：接收与所述替代图像相关联的一个或多个特征；生成与所述替代图像相关联的所述一个或多个特征的一个或多个相应的对数值；以及基于所述一个或多个相应的对数值的整数舍入来生成所述量化表示。4.根据权利要求1所述的方法，其中，所述方法进一步包括：接收所述压缩表示；使用基于神经网络的解码器对所述压缩表示进行解码；以及基于已解码的压缩表示来生成重建图像。5.根据权利要求4所述的方法，其中，最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。6.根据权利要求1所述的方法，其中，所述生成压缩表示包括：使用基于超先验神经网络的编码器对已编码的替代图像进行超编码；使用第二非线性量化器和熵编码生成已超编码的替代图像的超压缩表示；使用基于超先验神经网络的解码器对所述超压缩表示进行超解码，以生成超重建图像；基于所述超重建图像和所述量化表示来训练上下文神经网络模型；以及使用熵编码和所述上下文神经网络模型生成所述量化表示的压缩表示。7.根据权利要求1所述的方法，其中，所述神经图像压缩包括预训练模型，并且其中，与所述预训练模型相关联的一个或多个模型权重是固定的。8.根据权利要求7所述的方法，其中，使用所述非线性量化器对所述预训练模型进行微调。9.根据权利要求1所述的方法，其中，所述神经图像压缩包括训练模型，并且其中，训练所述训练模型包括：初始化所述训练模型的学习速率；以阈值次数调整所述训练模型的学习速率，其中，所述调整基于一个或多个训练图像的图像属性；以及基于以下至少一项终止所述训练：确定连续迭代之间的学习速率之差小于学习阈值，确定对于第一迭代次数，损失函数的输出损失是一致的，或者
确定对于最大迭代次数，已调整所述学习速率。10.根据权利要求9所述的方法，其中，基于所述损失函数的输出损失来反向调整所述学习速率。11.一种用于使用具有替代项的非线性量化进行神经图像压缩的装置，所述装置包括：至少一个存储器，配置成存储程序代码；以及至少一个处理器，配置成读取所述程序代码并按照所述程序代码的指令进行操作，所述程序代码包括：第一接收代码，配置成使得所述至少一个处理器接收输入图像；第一生成代码，配置成使得所述至少一个处理器基于所述输入图像，使用基于神经网络的替代特征生成器生成替代图像；压缩代码，配置成使得所述至少一个处理器压缩所述替代图像；量化...

【专利技术属性】
技术研发人员：林晟，蒋薇，刘杉，王炜，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人