使用潜在特征域帧内预测进行神经图像压缩制造技术

技术编号：35464496 阅读：17 留言：0更新日期：2022-11-05 16:06

一种使用潜在特征域帧内预测对图像进行解码的方法，由至少一个处理器执行且包括：接收潜在块集，且针对潜在块集中的每个块：基于先前恢复块集来预测块；接收指示当前恢复块的选择信号，基于选择信号，执行(1)和(2)中的一个：(1)生成紧凑残差、残差上下文参数集以及解码残差；以及生成第一解码块；(2)基于紧凑表示块和上下文参数集，生成第二解码块。方法还包括：生成恢复块集，恢复块集包括当前恢复块中的每一个；通过合并恢复块集中的所有块，来生成恢复潜像；以及对所恢复的潜像进行解码，以获得已重建图像。获得已重建图像。获得已重建图像。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用潜在特征域帧内预测进行神经图像压缩
[0001]相关申请的交叉引用
[0002]本申请基于并要求于2021年1月4日提交的美国临时专利申请No.63/133,704的优先权和于2021年8月31日提交的美国专利申请No.17/462,287的优先权，这两个美国申请的公开内容通过引用整体并入本文中。

技术介绍

[0003]标准组和公司已积极搜寻对未来视频编码技术进行标准化的潜在需求。这些标准组和公司已建立JPEG
‑
AI组，JPEG
‑
AI组专注于使用深度神经网络(Deep Neural Network，DNN)的、基于AI的端到端神经图像压缩。最近的方法的成功在高级神经图像和视频压缩方法中带来越来越多的工业兴趣。
[0004]给定输入图像x，NIC的目标使用图像x作为DNN编码器的输入，以计算压缩表示(压缩表示较为紧凑以便于存储和传输)，然后使用作为DNN解码器的输入，以重建图像先前的NIC方法采用变分自编码器(variational autoencoder，VAE)结构，其中，DNN编码器直接使用整个图像x作为DNN编码器的输入，x经过像黑盒一样工作的一组网络层，以计算输出表示相应地，DNN解码器使用整个表示作为DNN解码器的输入，经过像另一黑盒一样工作的另一组网络层，以计算重建的
[0005]基于块的帧内预测和残差编码机制对预测块和原始块之间的残差进行编码，而不是直接对整个原始图像进行编码。已证明对于以诸如HEVC和VVC的现代视频编码标准来压缩图像帧，该机制非常有效...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用潜在特征域帧内预测对神经图像进行解码的方法，所述方法由至少一个处理器执行，且所述方法包括：接收潜在块集，且针对所述潜在块集中的每个块：基于先前恢复块集，使用第一神经网络来预测块；接收指示当前恢复块的选择信号；基于所接收的选择信号，执行(1)和(2)中的一个：(1)生成紧凑残差、残差上下文参数集以及解码残差；以及基于预测块和所述解码残差，生成第一解码块；(2)基于紧凑表示块和上下文参数集，生成第二解码块；生成恢复块集，所述恢复块集包括所述当前恢复块中的每一个；通过合并所述恢复块集中的所有块，生成恢复潜像；以及使用第二神经网络对所生成的恢复潜像进行解码，以获得已重建图像。2.根据权利要求1所述的方法，其中，所述方法还包括：使用第三神经网络来生成输入图像的潜在表示；以及将所述潜在表示划分成所述潜在块集。3.根据权利要求1所述的方法，其中，所述方法还包括：通过将预测残差量化并进行熵编码，来生成所述紧凑残差；基于所述预测残差，使用第四神经网络来生成所述残差上下文参数集；以及通过将所述紧凑残差和所述残差上下文参数解码并进行解量化，来生成所述解码残差，其中，所述紧凑残差和所述残差上下文参数集同时生成。4.根据权利要求3所述的方法，其中，所述方法还包括：通过将来自所述潜在块集的当前潜在块量化并进行熵编码，来生成所述紧凑表示块；以及基于所述当前潜在块，使用第五神经网络来生成所述上下文参数集，其中，所述上下文参数集和所述紧凑表示同时生成。5.根据权利要求4所述的方法，其中，所述预测残差是所述预测块与来自所述潜在块集的所述当前潜在块之间的差。6.根据权利要求1所述的方法，其中，所述恢复块集用于更新所述先前恢复块集。7.根据权利要求1所述的方法，其中，所述方法还包括：所述选择信号选择所述第一解码块和所述第二解码块中的至少一个作为所述当前恢复块；当选择所述第一解码块时，将所述紧凑残差、所述残差上下文参数集和所述选择信号发送到解码器，作为所述解码器的输入；以及当选择所述第二解码块时，将所述紧凑表示、所述上下文参数集和所述选择信号发送到所述解码器，作为所述解码器的输入。8.一种用于使用潜在特征域帧内预测进行神经图像压缩的装置，所述装置包括：至少一个存储器，配置成存储程序代码；以及至少一个处理器，配置成读取所述程序代码并按照所述程序代码的指令进行操作，所
述程序代码包括：接收代码，配置成使得所述至少一个处理器接收潜在块集；预测代码，配置成使得所述至少一个处理器基于先前恢复块集，使用第二神经网络来预测块；选择代码，配置成使得所述至少一个处理器接收指示当前恢复块的选择信号，针对所述潜在块集中的每个块，基于所接收的选择信号，执行(1)和(2)中的一个：(1)第一生成代码，配置成使得所述至少一个处理器生成紧凑残差；第二生成代码，配置成使得所述至少一个处理器生成残差上下文参数集；第三生成代码，配置成使得所述至少一个处理器生成解码残差；以及第一解码代码，配置成使得所述至少一个处理器基于预测块和所述解码残差，生成第一解码块；(2)第二解码代码，配置成使得所述至少一个处理器基于紧凑表示块和上下文参数集，生成第二解码块；恢复块生成代码，配置成使得所述至少一个处理器生成恢复块集，所述恢复块集包括所述当前恢复块中的每一个；合并代码，配置成使得所述至少一个处理器合并所述恢复块集中的所有块，以生成恢复潜像；以及第三解码代码，配置成使得所述至少一个处理器使用第二神经网络对所生成的恢复潜像进行解码，以获得已重建图像。9.根据权利要求8所述的装置，其中，所述装置还包括：潜像生成代码，配置成使得所述至少一个处理器使用第三神经网络来生成输入图像的潜在表示；以及划分代码，配置成使得所述至少一个处理器将所述输入图像的所述潜在表示划分成所述潜在块集。10.根据权利要求8所述的装置，其中，所述程序代码还包括：第一生成代码，配置成使得所述至少一个处理器通过将预测残差量化并进行熵编码，来生成所述紧凑残差；第二生成代码，配置成使得所述至少一个处理器基于所述预测残差，...

【专利技术属性】
技术研发人员：蒋薇，王炜，丁鼎，刘杉，许晓中，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人