具有自适应迭代帧内预测的视频压缩制造技术

技术编号:35503697 阅读:16 留言:0更新日期:2022-11-09 14:14
一种在视频编码器处进行视频编码的方法包括:接收与当前第一块相关联的一个或多个语法元素,所述当前第一块属于从图片划分出的多个第一块,所述一个或多个语法元素用于指示:最佳分区,所述最佳分区指示如何将所述当前第一块划分成用于帧内预测的多个第二块、一组块选择信号,其中所述当前第一块被重新划分成多个第三块,每个块选择信号对应于所述多个第三块中的一个,并且指示相应的第三块是使用第一编码方法还是第二编码方法编码的、以及一组压缩表示,每个压缩表示对应于所述多个第三块中的一个。可以基于所述一个或多个语法元素重建所述当前第一块,以生成重建的当前第一块。以生成重建的当前第一块。以生成重建的当前第一块。

【技术实现步骤摘要】
【国外来华专利技术】具有自适应迭代帧内预测的视频压缩
引用并入
[0001]本公开要求于2021年9月27日提交的、申请号为17/486,533、名称为“具有自适应迭代帧内预测的视频压缩”的美国专利申请的优先权,其要求于2021年1月27日提交的、申请号为63/142,377、名称为“具有自适应迭代帧内预测的神经图像压缩”的美国临时申请的优先权。在先申请的公开内容通过引用整体并入本文。


[0002]本公开描述了总体上涉及基于人工神经网络的视频编解码的实施例。

技术介绍

[0003]本文所提供的背景描述旨在总体上呈现本公开的背景。在
技术介绍
部分以及本说明书的各个方面中所描述的目前已署名的专利技术人的工作所进行的程度,并不表明其在本公开提交时作为现有技术,且从未明示或暗示其被承认为本公开的现有技术。
[0004]神经网络基于一组连接的节点(也称为神经元),这些节点松散地模拟生物大脑中的神经元。神经元可以组织成多个层。一个层的神经元可以连接到紧邻的前一层和紧邻的后一层的神经元。
[0005]两个神经元之间的连接,就像生物大脑中的突触一样,可以将信号从一个神经元传输到另一个神经元。接收信号的神经元随后处理该信号,并可以向其它连接的神经元发出信号。在一些示例中,为了找到神经元的输出,通过从输入到神经元的连接的权重对神经元的输入进行加权,并对加权输入求和,以生成加权和。可以将偏差(bias)添加到加权和。进一步地,加权和随后通过激活函数,以生成输出。
[0006]国际标准化组织(ISO)和国际电工委员会(IEC)运动图像专家组(MPEG)(JTC 1/SC 29/WG 11)一直在积极寻找对未来视频编解码技术标准化的潜在需要。ISO/IEC联合图像专家组(JPEG)建立了一个JPEG人工智能(AI)组,其专注于使用神经网络(NN)的基于AI的端到端神经图像压缩。一些公司资助了神经图像压缩(NIC)的专门研究项目。中国音频视频标准(AVS)还成立了AVS

AI特别小组,以致力于神经图像和视频压缩技术。最近方法的成功为先进的神经图像和视频压缩方法带来了越来越多的工业兴趣。

技术实现思路

[0007]本公开的各方面提供了一种在视频编码器处进行视频编码的方法。该方法可以包括:将图片划分成多个第一块;对属于多个第一块的当前第一块进行处理,以生成以下输出:最佳分区,其中最佳分区指示如何将当前第一块划分成用于帧内预测的多个第二块、一组块选择信号,其中当前第一块被重新划分成多个第三块,每个块选择信号对应于多个第三块中的一个,并且指示相应的第三块是使用第一编码方法还是第二编码方法编码的、以及一组压缩表示,每个压缩表示对应于多个第三块中的一个;以及对输出进行编码,以生成与图片对应的编码比特。
[0008]在实施例中,基于迭代预测估计神经网络(NN),生成使用最佳分区划分出的当前第一块的估计块。估计块包括与多个第二块对应的多个估计第二块。在实施例中,对于使用第一编码方法编码的每个第三块,基于神经压缩NN对相应第三块中的多个估计第二块进行编码,以生成相应第三块的相应压缩表示。对于使用第二编码方法编码的每个第三块,执行帧内预测,以为相应第三块中的每个第二块生成残差块,基于残差神经压缩NN,对相应第三块的多个残差块进行压缩,以生成相应第三块的相应压缩表示。
[0009]在实施例中,为相应第三块中的每个第二块生成残差块的帧内预测是基于多个估计第二块和多个第一块的一个或多个估计块的,其中多个估计第二块是在当前第一块的估计块中的相应第二块的估计第二块之前处理的,一个或多个估计块是在当前第一块之前处理的。
[0010]在实施例中,使用最佳分区划分的当前第一块的估计块可以基于迭代预测估计NN在以下步骤中生成:在当前迭代中,使用当前第一块的一组当前估计第二块和在当前第一块之前处理的多个第一块的可选估计块作为帧内预测NN的输入,以生成与当前第一块的多个当前估计第二块对应的多个预测第二块;生成与多个预测第二块对应的多个残差第二块,将多个残差第二块的集合重新划分成与多个第三块对应的多个残差第三块;基于残差神经压缩NN对多个残差第三块进行压缩,以生成多个压缩的第三块;基于残差神经解压缩NN对多个压缩的第三块进行解压缩,以恢复多个残差第三块;以及将恢复的多个残差第三块与对应的多个预测第二块组合,以生成多个重建的第二块。使用多个重建的第二块代替所述一组当前估计第二块作为下一次迭代的输入。
[0011]在实施例中,对于每个第三块,确定与使用第一编码方法编码的第三块对应的第一率失真(R

D)损失和与使用第二编码方法编码的第三块对应的第二R

D损失。基于第一和第二R

D损失,可以确定第三块的块选择信号,以指示选择第一编码方法和第二编码方法中的哪一种来编码第三块。
[0012]在实施例中,该处理进一步包括:确定与用于将当前第一块划分成多个第二块的最佳分区相对应的当前第一块的第一总损失,该第一总损失是与为每个第三块所选择的第一编码方法和第二编码方法中的其中一种相对应的相应第三块的R

D损失的组合;确定与多种不同方式中的每一种相对应的当前第一块的第二总损失,该多种不同方式是除了用于将当前第一块划分成多个第二块的最佳分区之外的方式;比较第一总损失和第二总损失,以确定与最佳分区相对应的当前第一块的第一总损失是第一总损失和第二总损失中的最小损失。
[0013]本公开的方面还提供了一种在视频解码器处进行视频解码的方法。该方法可以包括:接收与当前第一块相关联的一个或多个语法元素,所述当前第一块属于从图片划分出的多个第一块,所述一个或多个语法元素用于指示:最佳分区,所述最佳分区指示如何将所述当前第一块划分成用于帧内预测的多个第二块、一组块选择信号,其中所述当前第一块被重新划分成多个第三块,每个块选择信号对应于所述多个第三块中的一个,并且指示相应的第三块是使用第一编码方法还是第二编码方法编码的、以及一组压缩表示,每个压缩表示对应于所述多个第三块中的一个。可以基于所述一个或多个语法元素重建所述当前第一块,以生成重建的当前第一块。
[0014]在实施例中,所述重建包括:对于使用所述第一编码方法编码的每个第三块,基于
神经解压缩神经网络(NN)生成重建的第三块,所述第一编码方法由所述一组块选择信号中的相应一个来指示,所述第三块的相应的压缩表示作为所述神经解压缩NN的输入;以及对于使用所述第二编码方法编码的每个第三块,基于残差神经解压缩NN生成残差第三块,所述第二编码方法由所述一组块选择信号中的相应一个来指示,所述第三块的相应的压缩表示作为所述残差神经解压缩NN的输入。
[0015]在实施例中,所述重建进一步包括:对于使用所述第二编码方法编码的每个第三块,基于相应的残差第三块和相应的预测的第三块生成重建的第三块。
[0016]在实施例中,所述重建进一步包括:对于使用所述第二编码方法编码的每个第三块,基于帧内预测NN执行帧内预测,以生成与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在视频解码器处进行视频解码的方法,其特征在于,包括:接收与当前第一块相关联的一个或多个语法元素,所述当前第一块属于从图片划分出的多个第一块,所述一个或多个语法元素用于指示:最佳分区,所述最佳分区指示如何将所述当前第一块划分成用于帧内预测的多个第二块,一组块选择信号,其中所述当前第一块被重新划分成多个第三块,每个块选择信号对应于所述多个第三块中的一个,并且指示相应的第三块是使用第一编码方法还是第二编码方法编码的,以及一组压缩表示,每个压缩表示对应于所述多个第三块中的一个;以及基于所述一个或多个语法元素重建所述当前第一块,以生成重建的当前第一块。2.根据权利要求1所述的方法,其特征在于,所述重建包括:对于使用所述第一编码方法编码的每个第三块,基于神经解压缩神经网络NN生成重建的第三块,所述第一编码方法由所述一组块选择信号中的相应一个来指示,所述第三块的相应的压缩表示作为所述神经解压缩神经网络NN的输入;以及对于使用所述第二编码方法编码的每个第三块,基于残差神经解压缩神经网络NN生成残差第三块,所述第二编码方法由所述一组块选择信号中的相应一个来指示,所述第三块的相应的压缩表示作为所述残差神经解压缩神经网络NN的输入。3.根据权利要求2所述的方法,其特征在于,所述重建进一步包括:对于使用所述第二编码方法编码的每个第三块,基于相应的残差第三块和相应的预测的第三块生成重建的第三块。4.根据权利要求3所述的方法,其特征在于,所述重建进一步包括:对于使用所述第二编码方法编码的每个第三块,基于帧内预测神经网络NN执行帧内预测,以生成与所述相应的第三块对应的一组预测的第二块,多个先前重建的第一块和多个先前生成的重建的第三块作为所述帧内预测神经网络NN的输入。5.根据权利要求4所述的方法,其特征在于,与所述相应的第三块对应的所述一组预测的第二块形成所述相应的预测的第三块。6.根据权利要求5所述的方法,其特征在于,所述重建进一步包括:对于使用所述第二编码方法编码的每个第三块,使用所述最佳分区执行相应的帧内预测,所述最佳分区作为所述帧内预测神经网络NN的输入,并指示如何将所述当前第一块划分成用于帧内预测的多个第二块。7.根据权利要求2所述的方法,其特征在于,所述重建进一步包括:合并所述多个重建的第三块,以生成所述重建的当前第一块,所述多个重建的第三块与使用所述第一编码方法或所述第二编码方法编码的所述多个第三块相对应。8.一种在视频解码器处进行视频解码装置,其特征在于,包括电路,被配置为:接收与当前第一块相关联的一个或多个语法元素,所述当前第一块属于从图片划分出的多个第一块,所述一个或多个语法元素用于指示:最佳分区,所述最佳分区指示如何将所述当前第一块划分成用于帧内预测的多个第二块,一组块选择信号,其中所述当前第一块被重新划分成多个第三块,每个块选择信号对
应于所述多个第三块中的一个,并且指示相应的第三块是使用第一编码方法还是第二编码方法编码的,以及一组压缩表示,每个压缩表示对应于所述多个第三块中的一个;以及基于所述一个或多个语法元素重建所述当前第一块,以生成重建的当前第一块。9.根据权利要求8所述的装置,其特征在于,所述电路被进一步配置为:对于使用所述第一编码方法编码的每个第三块,基于神经解压缩神经网络NN生成重建的第三块,所述第一编码方法由所述一组块选择信号中的相应一个来指示,所述第三块的相应的压缩表示作为所述神经解压缩神经网络NN的输入;以及对于使用所述第二编码方法编码的每个第三块,基于残差神经解压缩神经网络NN生成残差第三块,所述第二编码方法由所述一组块选择信号中的相应一个来指示,所述第三块的相应的压缩表示作为所述残差神经解压缩神...

【专利技术属性】
技术研发人员:蒋薇王炜丁鼎刘杉许晓中
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1