用于神经图像压缩中的内容自适应在线训练的方法和设备技术

技术编号:36761971 阅读:43 留言:0更新日期:2023-03-04 10:57
本公开内容的各方面提供了用于视频解码的方法、设备和非暂态计算机可读存储介质。该设备可以包括处理电路系统。处理电路系统被配置成对编码比特流中的用于视频解码器中的神经网络的神经网络更新信息进行解码。神经网络被配置有预训练参数。神经网络更新信息对应于要重构的编码图像并且指示与所述预训练参数中的预训练参数对应的替换参数。处理电路系统被配置成基于替换参数更新视频解码器中的神经网络。处理电路系统被配置成基于用于编码图像的更新的神经网络对编码图像进行解码。像的更新的神经网络对编码图像进行解码。像的更新的神经网络对编码图像进行解码。

【技术实现步骤摘要】
【国外来华专利技术】用于神经图像压缩中的内容自适应在线训练的方法和设备
[0001]相关申请的交叉引用
[0002]本申请要求于2022年4月26日提交的美国专利申请第17/729,994号,“METHOD AND APPARATUS FOR CONTENT

ADAPTIVE ONLINE TRAINING IN NEURAL IMAGE COMPRESSION”的优先权的权益,该美国专利申请要求于2021年4月30日提交的美国临时申请第63/182,396号,“CONTENT

ADAPTIVE ONLINE TRAINING IN NEURAL IMAGE COMPRESSION”的优先权的权益。在先申请的公开内容在此通过引用整体并入。


[0003]本公开内容描述了总体上涉及视频编码的实施方式。

技术介绍

[0004]本文中提供的
技术介绍
描述的目的在于总体上呈现本公开内容的背景。就在该
技术介绍
部分中描述的工作的程度而言,目前署名的专利技术人的工作以及在提交时可能未以其他方式描述为现有技术的描述的各方面既没有明确地也没有隐含地被承认为针对本公开内容的现有技术。
[0005]可以使用带有运动补偿的图片间预测来执行视频编码和解码。未压缩的数字图像和/或视频可以包括一系列图片,每个图片具有例如,1920
×
1080的亮度样本和相关联的色度样本的空间维度。这一系列图片可以具有例如,每秒60幅图片或60Hz的固定或可变的图片速率(非正式地也称为帧速率)。未压缩的图像和/或视频具有特定的比特率要求。例如,每个样本8比特的1080p60 4:2:0视频(60Hz帧速率下的1920
×
1080亮度样本分辨率)需要接近1.5Gbit/s的带宽。一小时这样的视频需要超过600千兆字节的存储空间。
[0006]视频编码和解码的一个目的可以是通过压缩减少输入图像和/或视频信号中的冗余。压缩可以有助于降低前面提到的带宽和/或存储空间要求,在一些情况下可以降低两个数量级或更多。可以采用无损压缩和有损压缩两者,以及其组合。无损压缩是指可以根据压缩的原始信号重构原始信号的精确副本的技术。当使用有损压缩时,重构的信号可能与原始信号不同,但是原始信号与重构的信号之间的失真足够小,以使得重构的信号能够用于预期应用。在视频的情况下,广泛地采用有损压缩。容忍的失真量取决于应用;例如,某些消费者流媒体应用的用户可能比电视分配应用的用户容忍更高的失真。可实现的压缩比可以反映出:越高的可允许/可容忍的失真可以产生越高的压缩比。尽管本文中的描述使用视频编码/解码作为说明性示例,但是在不脱离本公开内容的精神的情况下,相同的技术可以以类似的方式应用于图像编码/解码。
[0007]视频编码器和解码器可以利用来自包括例如,运动补偿、变换、量化和熵编码的若干大类的技术。
[0008]视频编解码器技术可以包括被称为帧内编码的技术。在帧内编码中,在不参考来自先前重构的参考图片的样本或其他数据的情况下表示样本值。在一些视频编解码器中,图片在空间上被细分为样本块。当所有的样本块都以帧内模式编码时,该图片可以是帧内
图片。帧内图片及其派生(例如,独立解码器刷新图片)可以用于重置解码器状态,并且因此可以用作编码视频比特流和视频会话中的第一幅图片,或用作静止图像。可以使帧内块的样本经受变换,并且可以在熵编码之前对变换系数进行量化。帧内预测可以是使预变换域中的样本值最小化的技术。在一些情况下,变换之后的DC值越小并且AC系数越小,在给定量化步长下表示熵编码之后的块所需的比特就越少。
[0009]传统的帧内编码,例如从例如MPEG

2代编码技术中已知的帧内编码,不使用帧内预测。然而,一些较新的视频压缩技术包括根据周围样本数据和/或例如在对空间上邻近并且解码顺序在先的数据块的编码和/或解码期间获得的元数据进行尝试的技术。这样的技术在下文中称为“帧内预测”技术。注意,在至少一些情况下,帧内预测使用仅来自重构下的当前图片的参考数据,而不使用来自参考图片的参考数据。
[0010]可以存在许多不同形式的帧内预测。当在给定视频编码技术中可以使用多于一种的这样的技术时,使用的技术可以在帧内预测模式下进行编码。在某些情况下,模式可以具有子模式和/或参数,并且这些子模式和/或参数可以被单独编码或被包括在模式码字中。针对给定模式、子模式和/或参数组合使用哪个码字可以通过帧内预测影响编码效率增益,并且因此用于将码字转换成比特流的熵编码技术也可以通过帧内预测影响编码效率增益。
[0011]帧内预测的某些模式通过H.264引入、在H.265中被细化,并且在诸如联合开发模型(joint exploration model,JEM)、通用视频编码(versatile video coding,VVC)和基准集(benchmark set,BMS)的较新编码技术中被进一步细化。使用属于已可用样本的邻近样本值,可以形成预测器块。根据方向将邻近样本的样本值复制到预测器块中。可以将对使用的方向的参考编码在比特流中,或者可以自己预测对使用的方向的参考。
[0012]参照图1A,右下方描绘的是从H.265的33个可能预测器方向(对应于35个帧内模式的33个角度模式)已知的九个预测器方向的子集。箭头相交的点(101)表示正被预测的样本。箭头表示对样本进行预测的方向。例如,箭头(102)指示根据右上方的与水平线成45度角的一个或多个样本对样本(101)进行预测。类似地,箭头(103)指示根据样本(101)左下方的与水平线成22.5度角的一个或多个样本对样本(101)进行预测。
[0013]仍然参照图1A,左上方描绘的是4
×
4个样本的正方形块(104)(由黑体虚线指示)。正方形块(104)包括16个样本,每个样本均用“S”、其在Y维度上的位置(例如,行索引)以及其在X维度上的位置(例如,列索引)来标记。例如,样本S21是Y维度上(从顶部起)的第二样本并且是X维度上(从左侧起)的第一样本。类似地,样本S44是在Y维度和X维度两者上块(104)中的第四个样本。由于块的大小是4
×
4个样本,因此S44在右下方。另外示出的是遵循类似的编号方案的参考样本。参考样本用R、其相对于块(104)的Y位置(例如,行索引)和X位置(列索引)来标记。在H.264和H.265二者中,预测样本与重构下的块相邻;因此不需要使用负值。
[0014]帧内图片预测可以通过从沿着用信令通知的预测方向合适的相邻样本复制参考样本值来工作。例如,假设编码视频比特流包括信令,针对该块,该信令指示与箭头(102)一致的预测方向——即,根据与水平线成45度角的右上方的一个或多个预测样本来预测样本。在这种情况下,根据同一参考样本R05来预测样本S41、S32、S23和S14。然后,根据参考样本R08来预测样本S44。
[0015]在某些情况下,可以例如,通过插值将多个参考样本的值进行组合以便计算参考本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于视频解码器中的视频解码的方法,包括:对编码比特流中的用于所述视频解码器中的神经网络的神经网络更新信息进行解码,所述神经网络被配置有预训练参数,所述神经网络更新信息对应于要重构的编码图像并且指示与所述预训练参数中的预训练参数对应的替换参数;基于所述替换参数更新所述视频解码器中的神经网络;以及基于用于所述编码图像的所更新的神经网络对所述编码图像进行解码。2.根据权利要求1所述的方法,其中所述神经网络更新信息还指示用于所述视频解码器中的一个或更多个剩余神经网络的一个或更多个替换参数,并且所述方法还包括基于所述一个或更多个替换参数更新所述一个或更多个剩余神经网络。3.根据权利要求1所述的方法,其中所述编码比特流还指示一个或更多个编码比特,所述一个或更多个编码比特被用来确定用于对所述编码图像进行解码的上下文模型,所述视频解码器包括主解码器网络、上下文模型网络、熵参数网络和超解码器网络,所述神经网络是所述主解码器网络、所述上下文模型网络、所述熵参数网络和所述超解码器网络中的一者,所述方法还包括:使用所述超解码器网络对所述一个或更多个编码比特进行解码,以及基于所述上下文模型网络可用的所述编码图像的经量化的潜在和一个或更多个所解码的比特使用所述上下文模型网络和所述熵参数网络来确定上下文模型,并且对所述编码图像进行解码包括使用所述主解码器网络和所述上下文模型对所述编码图像进行解码。4.根据权利要求1所述的方法,其中所述预训练参数是预训练偏置项。5.根据权利要求1所述的方法,其中所述预训练参数是预训练权重系数。6.根据权利要求1所述的方法,其中所述神经网络更新信息指示与用于所述神经网络的所述预训练参数中的多个预训练参数对应的多个替换参数,所述多个预训练参数包括所述预训练参数,并且所述多个预训练参数包括一个或更多个预训练偏置项以及一个或更多个预训练权重系数,并且所述更新包括基于包括所述替换参数的所述多个替换参数来更新所述视频解码器中的所述神经网络。7.根据权利要求1所述的方法,其中所述神经网络更新信息指示所述替换参数与所述预训练参数之间的差,并且所述方法还包括根据所述差和所述预训练参数的和确定所述替换参数。8.根据权利要求1所述的方法,还包括:基于所更新的神经网络对所述编码比特流中的另外的编码图像进行解码。9.一种用于视频解码的设备,包括处理电路系统,所述处理电路系统被配置成:
对编码比特流中的用于视频解码器中的神经网络的神经网络更新信息进行解码,所述神经网络被配置有预训练参数,所述神经网络更新信息对应于要重构的编码图像并且指示与所述预训练参数中的预训练参数对应的替换参数;基于所述替换参数更新所述视频解码器中的神经网络;以及基于用于所述编码图像的所更新的神经网络对所述编码图像进行解码。10.根据权利要求9所述的设备,其中所述神经网络更新信息还包括用于所述视频解码器中的一个或更多个剩余神经网络的一个或更多个替换参数,并且所述处理电路系统被配置成基于所述一个或更多个替换参数更新所述一个或更多个剩余神经网络。11.根据权利要求9所述的设备,其中所述编码比...

【专利技术属性】
技术研发人员:丁鼎蒋薇王炜刘杉
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1