使用潜在特征域帧内预测进行神经图像压缩制造技术

技术编号:35464496 阅读:17 留言:0更新日期:2022-11-05 16:06
一种使用潜在特征域帧内预测对图像进行解码的方法,由至少一个处理器执行且包括:接收潜在块集,且针对潜在块集中的每个块:基于先前恢复块集来预测块;接收指示当前恢复块的选择信号,基于选择信号,执行(1)和(2)中的一个:(1)生成紧凑残差、残差上下文参数集以及解码残差;以及生成第一解码块;(2)基于紧凑表示块和上下文参数集,生成第二解码块。方法还包括:生成恢复块集,恢复块集包括当前恢复块中的每一个;通过合并恢复块集中的所有块,来生成恢复潜像;以及对所恢复的潜像进行解码,以获得已重建图像。获得已重建图像。获得已重建图像。

【技术实现步骤摘要】
【国外来华专利技术】使用潜在特征域帧内预测进行神经图像压缩
[0001]相关申请的交叉引用
[0002]本申请基于并要求于2021年1月4日提交的美国临时专利申请No.63/133,704的优先权和于2021年8月31日提交的美国专利申请No.17/462,287的优先权,这两个美国申请的公开内容通过引用整体并入本文中。

技术介绍

[0003]标准组和公司已积极搜寻对未来视频编码技术进行标准化的潜在需求。这些标准组和公司已建立JPEG

AI组,JPEG

AI组专注于使用深度神经网络(Deep Neural Network,DNN)的、基于AI的端到端神经图像压缩。最近的方法的成功在高级神经图像和视频压缩方法中带来越来越多的工业兴趣。
[0004]给定输入图像x,NIC的目标使用图像x作为DNN编码器的输入,以计算压缩表示(压缩表示较为紧凑以便于存储和传输),然后使用作为DNN解码器的输入,以重建图像先前的NIC方法采用变分自编码器(variational autoencoder,VAE)结构,其中,DNN编码器直接使用整个图像x作为DNN编码器的输入,x经过像黑盒一样工作的一组网络层,以计算输出表示相应地,DNN解码器使用整个表示作为DNN解码器的输入,经过像另一黑盒一样工作的另一组网络层,以计算重建的
[0005]基于块的帧内预测和残差编码机制对预测块和原始块之间的残差进行编码,而不是直接对整个原始图像进行编码。已证明对于以诸如HEVC和VVC的现代视频编码标准来压缩图像帧,该机制非常有效。整个图像划分成各种大小的块,且通过沿着各种角度方向复制先前压缩块的边界像素来生成预测块,然后压缩原始块和预测块之间的残差。与原始像素相比,可更高效地对残差进行编码,因此可实现更好的编码性能。

技术实现思路

[0006]根据实施例,一种使用潜在特征域(latent feature domain)中的帧内预测机制进行神经图像压缩的方法,由至少一个处理器执行且包括:接收潜在块集,且针对潜在块集中的每个块:基于先前恢复块集,使用第一神经网络来预测块;接收指示当前恢复块的选择信号;基于所接收的选择信号,执行(1)和(2)中的一个:(1)生成紧凑残差、残差上下文参数集以及解码残差;以及基于预测块和解码残差,生成第一解码块;(2)基于紧凑表示块和上下文参数集,生成第二解码块。该方法还包括:生成恢复块集,恢复块集包括当前恢复块中的每一个;通过合并恢复块集中的所有块,生成恢复潜像;以及使用第二神经网络对所生成的恢复潜像进行解码,以获得已重建图像。
[0007]根据实施例,一种使用潜在特征域中的帧内预测机制进行神经图像压缩的装置,包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取程序代码并按照程序代码的指令进行操作,程序代码包括:接收代码,配置成使得至少一个处理器接收潜在块集;预测代码,配置成使得至少一个处理器基于先前恢复块集,使用第二神经网络来预测块;选择代码,配置成使得至少一个处理器接收指示当前恢复块的选择信号,针对潜
在块集中的每个块,基于所接收的选择信号,执行(1)和(2)中的一个:(1)第一生成代码,配置成使得至少一个处理器生成紧凑残差;第二生成代码,配置成使得至少一个处理器生成残差上下文参数集;第三生成代码,配置成使得至少一个处理器生成解码残差;以及第一解码代码,配置成使得至少一个处理器基于预测块和解码残差,生成第一解码块;(2)第二解码代码,配置成使得至少一个处理器基于紧凑表示块和上下文参数集,生成第二解码块。该程序还包括:恢复块生成代码,配置成使得至少一个处理器生成恢复块集,该恢复块集包括当前恢复块中的每一个;合并代码,配置成使得至少一个处理器合并恢复块集中的所有块,以生成恢复潜像;以及第三解码代码,配置成使得至少一个处理器使用第二神经网络对所生成的恢复潜像进行解码,以获得已重建图像。
[0008]根据实施例,一种非暂时性计算机可读介质,存储有指令,当该指令由至少一个处理器运行时,该指令使得:接收潜在块集;基于先前恢复块集,使用第二神经网络来预测块;接收指示当前恢复块的选择信号,针对潜在块集中的每个块,基于所接收的选择信号,执行(1)和(2)中的一个:(1)生成紧凑残差、残差上下文参数集以及解码残差;以及基于预测块和解码残差,生成第一解码块;(2)基于紧凑表示块和上下文参数集,生成第二解码块。该非暂时性计算机可读介质还包括指令,当该指令由至少一个处理器运行时,该指令使得:生成恢复块集,该恢复块集包括当前恢复块中的每一个;合并恢复块集中的所有块,以生成恢复潜像;以及使用第二神经网络对所生成的恢复潜像进行解码,以获得已重建图像。
附图说明
[0009]图1是根据实施例的可实现本文描述的方法、装置和系统的环境的图。
[0010]图2是图1的一个或多个设备的示例组件的框图。
[0011]图3是根据实施例的用于在测试阶段期间,使用潜在特征域中的帧内预测进行神经图像压缩的测试NIC编码器和NIC解码器装置的框图。
[0012]图4是根据实施例的在测试阶段期间,图3的测试NIC编码器和NIC解码器装置的解码器侧的框图。
[0013]图5是根据实施例的用于在训练阶段期间,使用潜在特征域中的帧内预测进行神经图像压缩的训练装置的框图。
[0014]图6是根据实施例的使用潜在特征域中的帧内预测进行神经图像压缩的方法的流程图。
[0015]图7是根据实施例的使用潜在特征域中的帧内预测进行神经图像压缩的装置的框图。
具体实施方式
[0016]实施例涉及神经图像压缩(Neural Image Compression,NIC)框架,NIC框架通过深度神经网络(DNN)使用潜在特征表示中的、基于块的帧内预测机制来压缩输入图像。下面将参考附图描述本专利技术的示例性实施例。在附图中,相同的模块由相同的附图标记表示,因此可根据需要省略重复的描述。图1是根据实施例的可实现本文描述的方法、装置和系统的环境100的图。
[0017]如图1所示,环境100可包括用户设备110、平台120和网络130。环境100的设备可经
由有线连接、无线连接或者有线连接和无线连接的组合来互连。
[0018]用户设备110包括能够接收、生成、存储、处理和/或提供与平台120相关联的信息的一个或多个设备。例如,用户设备110可包括计算设备(例如台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如智能电话、无线电电话等)、可穿戴设备(例如,智能眼镜或智能手表)或类似设备。在一些实现方式中,用户设备110可从平台120接收信息和/或向平台120发送信息。
[0019]平台120包括如本文其它位置所描述的一个或多个设备。在一些实现方式中,平台120可包括云服务器或一组云服务器。在一些实现方式中,平台120可设计成模块化平台,使得软件组件可被调入或调出。因此,平台120可针对不同用途而容易地和/或快速地重新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用潜在特征域帧内预测对神经图像进行解码的方法,所述方法由至少一个处理器执行,且所述方法包括:接收潜在块集,且针对所述潜在块集中的每个块:基于先前恢复块集,使用第一神经网络来预测块;接收指示当前恢复块的选择信号;基于所接收的选择信号,执行(1)和(2)中的一个:(1)生成紧凑残差、残差上下文参数集以及解码残差;以及基于预测块和所述解码残差,生成第一解码块;(2)基于紧凑表示块和上下文参数集,生成第二解码块;生成恢复块集,所述恢复块集包括所述当前恢复块中的每一个;通过合并所述恢复块集中的所有块,生成恢复潜像;以及使用第二神经网络对所生成的恢复潜像进行解码,以获得已重建图像。2.根据权利要求1所述的方法,其中,所述方法还包括:使用第三神经网络来生成输入图像的潜在表示;以及将所述潜在表示划分成所述潜在块集。3.根据权利要求1所述的方法,其中,所述方法还包括:通过将预测残差量化并进行熵编码,来生成所述紧凑残差;基于所述预测残差,使用第四神经网络来生成所述残差上下文参数集;以及通过将所述紧凑残差和所述残差上下文参数解码并进行解量化,来生成所述解码残差,其中,所述紧凑残差和所述残差上下文参数集同时生成。4.根据权利要求3所述的方法,其中,所述方法还包括:通过将来自所述潜在块集的当前潜在块量化并进行熵编码,来生成所述紧凑表示块;以及基于所述当前潜在块,使用第五神经网络来生成所述上下文参数集,其中,所述上下文参数集和所述紧凑表示同时生成。5.根据权利要求4所述的方法,其中,所述预测残差是所述预测块与来自所述潜在块集的所述当前潜在块之间的差。6.根据权利要求1所述的方法,其中,所述恢复块集用于更新所述先前恢复块集。7.根据权利要求1所述的方法,其中,所述方法还包括:所述选择信号选择所述第一解码块和所述第二解码块中的至少一个作为所述当前恢复块;当选择所述第一解码块时,将所述紧凑残差、所述残差上下文参数集和所述选择信号发送到解码器,作为所述解码器的输入;以及当选择所述第二解码块时,将所述紧凑表示、所述上下文参数集和所述选择信号发送到所述解码器,作为所述解码器的输入。8.一种用于使用潜在特征域帧内预测进行神经图像压缩的装置,所述装置包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取所述程序代码并按照所述程序代码的指令进行操作,所
述程序代码包括:接收代码,配置成使得所述至少一个处理器接收潜在块集;预测代码,配置成使得所述至少一个处理器基于先前恢复块集,使用第二神经网络来预测块;选择代码,配置成使得所述至少一个处理器接收指示当前恢复块的选择信号,针对所述潜在块集中的每个块,基于所接收的选择信号,执行(1)和(2)中的一个:(1)第一生成代码,配置成使得所述至少一个处理器生成紧凑残差;第二生成代码,配置成使得所述至少一个处理器生成残差上下文参数集;第三生成代码,配置成使得所述至少一个处理器生成解码残差;以及第一解码代码,配置成使得所述至少一个处理器基于预测块和所述解码残差,生成第一解码块;(2)第二解码代码,配置成使得所述至少一个处理器基于紧凑表示块和上下文参数集,生成第二解码块;恢复块生成代码,配置成使得所述至少一个处理器生成恢复块集,所述恢复块集包括所述当前恢复块中的每一个;合并代码,配置成使得所述至少一个处理器合并所述恢复块集中的所有块,以生成恢复潜像;以及第三解码代码,配置成使得所述至少一个处理器使用第二神经网络对所生成的恢复潜像进行解码,以获得已重建图像。9.根据权利要求8所述的装置,其中,所述装置还包括:潜像生成代码,配置成使得所述至少一个处理器使用第三神经网络来生成输入图像的潜在表示;以及划分代码,配置成使得所述至少一个处理器将所述输入图像的所述潜在表示划分成所述潜在块集。10.根据权利要求8所述的装置,其中,所述程序代码还包括:第一生成代码,配置成使得所述至少一个处理器通过将预测残差量化并进行熵编码,来生成所述紧凑残差;第二生成代码,配置成使得所述至少一个处理器基于所述预测残差,...

【专利技术属性】
技术研发人员:蒋薇王炜丁鼎刘杉许晓中
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1