用于神经图像压缩的任务自适应预处理的方法和设备技术

技术编号:35893486 阅读:17 留言:0更新日期:2022-12-10 10:26
用于神经图像压缩的任务自适应预处理(TAPP)的方法由至少一个处理器执行,并且该方法包括:使用TAPP神经网络基于输入图像生成替代图像,以及使用第一神经网络对所生成的替代图像进行编码以生成压缩表示。通过以下操作来训练TAPP神经网络:使用TAPP神经网络基于输入训练图像生成替代训练图像;使用第一神经网络对所生成的替代训练图像进行编码以生成压缩训练表示;使用第二神经网络对所生成的压缩训练表示进行解码以重建输出训练图像;生成基于输入训练图像、重建的输出训练图像和生成的压缩训练表示生成的率失真(R

【技术实现步骤摘要】
【国外来华专利技术】用于神经图像压缩的任务自适应预处理的方法和设备
相关申请的交叉引用
[0001]本申请要求基于2021年1月19日提交的美国临时申请第63/138,901号和2021年7月1日提交的美国申请第17/365,395号的优先权,上述申请通过引用整体并入本文。

技术介绍

[0002]ISO(International Organization for Standardization,ISO)/IEC(International Electrotechnical Commission,IEC)MPEG(Moving Picture Experts Group,MPEG)(JTC 1/SC 29/WG 11)一直在积极寻找对未来视频编码技术标准化的潜在需求。ISO/IEC JPEG建立了JPEG(Joint Photographic Experts Group,JPEG)

AI(Artificial Intelligence,AI)组,该JPEG

AI组专注于使用神经网络(Neural Network,NN)的基于AI的端到端神经图像压缩(Neural Image Compression,NIC)。最新方法的成功带来对先进的神经图像和视频压缩方法的越来越多的工业兴趣。
[0003]尽管现有技术已经显示出有前景的性能,但是NIC方法的一个主要问题是训练后控制的困难。例如,灵活的比特率控制具有挑战性,这是因为传统的NIC方法可能需要针对每个所期望的率失真(Rate

Distortion,R

D)权衡单独训练多个模型实例。类似地,对于每个目标质量损失(例如峰值信噪比(Peak Signal

to

Noise Ratio,PSNR)或结构相似性指数测量(Structural Similarity Index Measure,SSIM)),单独训练模型实例。一旦针对目标任务(例如,针对目标比特率或目标质量损失)进行训练,模型实例就不能用于其他任务(例如,其他比特率或其他质量损失)。

技术实现思路

[0004]根据实施方式,一种用于神经图像压缩的任务自适应预处理(TAPP)的方法由至少一个处理器执行,并且该方法包括:使用TAPP神经网络基于输入图像生成替代图像;以及使用第一神经网络对所生成的替代图像进行编码以生成压缩表示。通过以下操作来训练TAPP神经网络:使用TAPP神经网络基于输入训练图像生成替代训练图像;使用第一神经网络对所生成的替代训练图像进行编码以生成压缩训练表示;使用第二神经网络对所生成的压缩训练表示进行解码以重建输出训练图像;生成基于输入训练图像、重建的输出训练图像和生成的压缩训练表示生成的率失真(R

D)损失的梯度;以及基于所生成的R

D损失的梯度更新生成的替代训练图像。
[0005]根据实施方式,一种用于神经图像压缩的任务自适应预处理(TAPP)的设备包括:至少一个存储器,所述至少一个存储器被配置成存储程序代码;以及至少一个处理器,所述至少一个处理器被配置成读取程序代码并且如程序代码指示的进行操作。该程序代码包括:生成代码,该生成代码被配置成使至少一个处理器使用TAPP神经网络基于输入图像生成替代图像;以及编码代码,该编码代码被配置成使至少一个处理器使用第一神经网络对所生成的替代图像进行编码以生成压缩表示。通过以下操作来训练TAPP神经网络:使用TAPP神经网络基于输入训练图像生成替代训练图像;使用第一神经网络对所生成的替代训
练图像进行编码以生成压缩训练表示;使用第二神经网络对所生成的压缩训练表示进行解码以重建输出训练图像;生成基于输入训练图像、重建的输出训练图像和生成的压缩训练表示生成的率失真(R

D)损失的梯度;以及基于所生成的R

D损失的梯度更新生成的替代训练图像。
[0006]根据实施方式,一种非暂态计算机可读介质存储指令,所述指令在由至少一个处理器执行用于神经图像压缩的任务自适应预处理(TAPP)时使至少一个处理器:使用TAPP神经网络基于输入图像生成替代图像;以及使用第一神经网络对所生成的替代图像进行编码以生成压缩表示。通过以下操作来训练TAPP神经网络:使用TAPP神经网络基于输入训练图像生成替代训练图像;使用第一神经网络对所生成的替代训练图像进行编码以生成压缩训练表示;使用第二神经网络对所生成的压缩训练表示进行解码以重建输出训练图像;生成基于输入训练图像、重建的输出训练图像和生成的压缩训练表示生成的率失真(R

D)损失的梯度;以及基于所生成的R

D损失的梯度更新生成的替代训练图像。
附图说明
[0007]图1是根据实施方式的可以实现本文中描述的方法、设备和系统的环境的图。
[0008]图2是图1的一个或更多个装置的示例部件的框图。
[0009]图3是根据实施方式的在测试阶段期间用于神经图像压缩的任务自适应预处理的设备的框图。
[0010]图4A是根据实施方式的在训练阶段的第一步骤期间用于神经图像压缩的任务自适应预处理的训练设备的框图。
[0011]图4B是根据实施方式的在训练阶段的第一步骤期间用于神经图像压缩的任务自适应预处理的训练设备的另一框图。
[0012]图4C是根据实施方式的在训练阶段的第二步骤期间用于神经图像压缩的任务自适应预处理的训练设备的框图。
[0013]图5是根据实施方式的用于神经图像压缩的任务自适应预处理的方法的流程图。
[0014]图6是根据实施方式的用于神经图像压缩的任务自适应预处理的设备的框图。
具体实施方式
[0015]本公开内容描述了用于对NIC方法的输入图像进行预处理以灵活地适应压缩任务例如质量度量或比特率的任务自适应预处理(Task

Adaptive Pre

Processing,TAPP)框架的方法和设备。当适应的目标任务与底层NIC模型被训练用于的原始任务相同时,预处理将输入图像适应性调整为为比原始图像更好的替代版本以进行压缩。
[0016]图1是根据实施方式的可以实现本文中描述的方法、设备和系统的环境100的图。
[0017]如图1所示,环境100可以包括用户装置110、平台120和网络130。环境100中的装置可以经由有线连接、无线连接或者有线连接和无线连接的组合进行互连。
[0018]用户装置110包括能够接收、生成、存储、处理和/或提供与平台120相关联的信息的一个或更多个装置。例如,用户装置110可以包括计算装置(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴装置(例如,一副智能眼镜或智能手表)或类似装置。在一些实现方式中,用
户装置110可以从平台120接收信息并且/或者向平本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于神经图像压缩的任务自适应预处理(TAPP)的方法,所述方法由至少一个处理器执行,并且所述方法包括:使用TAPP神经网络基于输入图像生成替代图像;以及使用第一神经网络对所生成的替代图像进行编码以生成压缩表示,其中,通过以下操作来训练所述TAPP神经网络:使用所述TAPP神经网络基于输入训练图像生成替代训练图像;使用所述第一神经网络对所生成的替代训练图像进行编码以生成压缩训练表示;使用第二神经网络对所生成的压缩训练表示进行解码以重建输出训练图像;生成基于所述输入训练图像、所重建的输出训练图像和所生成的压缩训练表示生成的率失真(R

D)损失的梯度;以及基于所生成的R

D损失的梯度更新所生成的替代训练图像。2.根据权利要求1所述的方法,还包括使用所述第二神经网络对所述生成的压缩表示进行解码以重建输出图像。3.根据权利要求1所述的方法,其中,生成所述替代图像包括:使用所述TAPP神经网络基于所述输入图像生成替代扰动;以及生成作为所述输入图像和所生成的替代扰动之和的所述替代图像。4.根据权利要求1所述的方法,其中,通过基于超参数、作为所述输入训练图像与所重建的输出训练图像之间的重建误差的失真损失以及作为所生成的压缩训练表示的比特消耗的率损失生成所述R

D损失来进一步训练所述TAPP神经网络。5.根据权利要求1所述的方法,其中,生成所述R

D损失的梯度并且更新所生成的替代训练图像,直到执行了最大次数的迭代或直到所述R

D损失收敛为止。6.根据权利要求1所述的方法,其中,通过基于所生成的所述R

D损失的梯度更新所述输入训练图像来进一步训练所述TAPP神经网络,并且生成所述R

D损失的梯度并且更新所述输入训练图像,直到执行了最大次数的迭代或直到所述R

D损失收敛为止。7.根据权利要求1所述的方法,其中,通过以下操作来进一步训练所述TAPP神经网络:生成作为真实替代图像与所生成的替代训练图像之间的差异的替代失真;生成所生成的替代失真的梯度;以及基于所生成的替代失真的所生成的梯度更新所述TAPP神经网络的参数。8.一种用于神经图像压缩的任务自适应预处理(TAPP)的设备,所述设备包括:至少一个存储器,所述至少一个存储器被配置成存储程序代码;以及至少一个处理器,所述至少一个处理器被配置成读取所述程序代码并且如所述程序代码指示的进行操作,所述程序代码包括:生成代码,所述生成代码被配置成使所述至少一个处理器使用TAPP神经网络基于输入图像生成替代图像;以及编码代码,所述编码代码被配置成使所述至少一个处理器使用第一神经网络对所生成的替代图像进行编码以生成压缩表示,其中,通过以下操作来训练所述TAPP神经网络:使用所述TAPP神经网络基于输入训练图像生成替代训练图像;
使用所述第一神经网络对所生成的替代训练图像进行编码以生成压缩训练表示;使用第二神经网络对所生成的压缩训练表示进行解码以重建输出训练图像;生成基于所述输入训练图像、所重建的输出训练图像和所生成的压缩训练表示生成的率失真(R

D)损失的梯度;以及基于所生成的所述R

D损失的梯度更新所生成的替代训练图像。9.根据权利要求8所述的设备,其中,所述程序代码还包括解码代码,所述解码代码被配置成使所述至少一个处理器使用所述第二神经网络对所生成的压缩表示进行解码以重建输出图像。10.根据权利要求8所述的设备,其中,所述生成代码还被配置成使所述至...

【专利技术属性】
技术研发人员:蒋薇王炜丁鼎刘杉许晓中
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1