用于低码率视频压缩的微量处理制造技术

技术编号:35259563 阅读:18 留言:0更新日期:2022-10-19 10:18
一种系统包括:基于机器学习(ML)模型的视频编码器,被配置为:接收包括多个视频帧的未压缩视频序列;从该多个视频帧中确定第一视频帧子集和第二视频帧子集;编码该第一视频帧子集以产生第一压缩视频帧子集;和识别用于该第一压缩视频帧子集的第一解压缩数据。该基于ML模型的视频编码器进一步被配置为:编码该第二视频帧子集以产生第二压缩视频帧子集;和识别用于该第二压缩视频帧子集的第二解压缩数据。该第一解压缩数据专用于解码所述第一压缩视频帧子集而专用于该第二压缩视频帧子集,并且该第二解压缩数据专用于解码该第二压缩视频帧子集而不专用于该第一压缩视频帧子集。帧子集而不专用于该第一压缩视频帧子集。帧子集而不专用于该第一压缩视频帧子集。

【技术实现步骤摘要】
用于低码率视频压缩的微量处理
[0001]相关申请的交叉引用
[0002]本申请要求在2021年4月8日提交的标题为“Neural Network Based Video Codecs”的第63/172,315号临时专利申请以及在2021年10月13号提交的标题为“Microdosing For Low Bitrate Video Compression”第63/255,280号临时专利申请的权益和优先权,其全部内容通过引用并入本申请。

技术介绍

[0003]视频内容代表总的因特网流量的大部分,并且随着空间分辨率帧率、视频的色深增加以及更多的用户采用流服务,视频内容预期会增加得更多。尽管现有编解码器已经实现了令人印象深刻的性能,但是它们已经被设计到这样的程度,即,进一步添加小的改进不可能满足未来的需求。因此,探索从根本上不同的方式以执行视频编码可能有利地产生具有改进的性能和灵活性的新类别的视频编解码器。
[0004]例如,使用训练好的机器学习(ML)模型(例如神经网络(NN)),以例如生成对抗网络(GAN)的形式来执行视频压缩的一个优点在于,它能够使得ML模型推断视觉细节,否则在要获取的数据传输方面将会代价较高。然而,模型尺寸在当前的技术发展水平的提案中仍然是重要的问题,并且现有的解决方案在解码侧需要显著的计算量。也就是说,现有的基于GAN的压缩框架的一个显著缺点是它们通常需要有时在私有数据集上训练的大型解码器模型。因此,将这些模型重新训练到它们的原始的性能通常是不可能的,并且即使当训练数据是可用的时,重新训练模型将是复杂且耗时的。此外,现有大型解码器模型的存储器和推断时间的需求使得它们不太实用,尤其是在视频编码的环境中。
附图说明
[0005]图1示出了根据一个实施方式的提供基于机器学习(ML)模型的视频编解码器的示例性系统的图;
[0006]图2示出了根据一个实现方式的将神经压缩的现有方法与示例性微量压缩方法进行比较的图;
[0007]图3示出了根据一个实施方式的包括大型解码器的现有高性能编解码器;
[0008]图4A描绘了根据本专利技术概念的一个示例性实施方式的使用教师解码器的小型学生解码器的训练;
[0009]图4B描绘了根据一个实施方式的适合于在图4A中所示的小型学生解码器中使用的示例性的基于ML模型的解码网络;
[0010]图5示出了根据一个实施方式的用于实现知识蒸馏(KD)技术的视频压缩流水线,所述知识蒸馏(KD)技术包括用于低码率视频压缩的微量处理;
[0011]图6示出了根据一个实施方式的概述执行用于低码率视频压缩的微量处理的示例性方法的流程图;和
[0012]图7示出了根据一个实施方式的描述了用于扩展图6中概述的方法的附加动作的
流程图。
具体实施方式
[0013]以下描述包含与本公开中的实施方式有关的具体信息。本领域技术人员应当认识到,本公开可能以与本文具体地讨论的不同的方式来实现。本申请中的附图及其详细描述仅针对示例性实施方式。除非另外指出,否则附图中的相同或相应的元件可能由相同或相应的附图标记表示。此外,本申请中的附图和图示通常不是按比例的,并且不旨在对应于实际的相对大小。
[0014]本申请涉及用于提供基于机器学习(ML)模型的视频编解码器的系统和方法。此外,本申请披露了一种知识蒸馏(KD)方法,其能够在减小解码器尺寸的同时保持良好的感知图像质量。根据本新颖的和有创造性的原理,KD的目标是将教师网络的学习到的知识传输到较小的学生网络,该较小的学生网络相对于教师网络的性能仍然具有竞争力。通过比初始的教师网络需要更少的存储和计算能力,学生网络能够,举例说在较低功率的设备诸如移动电话或专用设备上运行。如本文所披露的,在自动编码器设置中压缩生成器网络或解码器的能力在存储器要求和计算效率方面均是有利的。这对于图像和视频压缩尤其重要,其中大部分计算应当优选地在发送器(编码器)侧执行,而解码应当简单。尤其在视频流的上下文中,有用的东西通常将被编码一次以用于分配,但是可能被解码数百万次。
[0015]使用训练好的机器学习模型例如人工神经网络(NN)等以执行视频压缩的一个优点是,它使得机器学习模型能够推断视觉细节,否则在要获取的数据传输方面将代价较大。因此,所得到的图像通常是视觉上令人愉悦的,而不需要高码率。当使用基于机器学习模型的视频编解码器时合成的一些图像细节可能看起来逼真,然而稍微偏离真实值。然而,本专利技术的基于机器学习模型的视频压缩方案能够提供在常规方法中使用相同量的传输的数据不可能得到的图像质量。此外,在一些实施方式中,本专利技术的基于机器学习模型的方案能够被实现为大体上自动的系统和方法。
[0016]注意到,如在本申请中所使用的,术语“自动化”、“自动化的”和“使

自动化”是指不需要人类用户诸如人类编辑师或系统管理员参与的系统和过程。尽管在一些实施方式中,人类系统管理员可能检查根据本文所描述的自动化的过程运作的自动化的系统的性能,这种人类参与是可选的。因此,本申请中所描述的过程可能在所披露的系统的硬件处理组件的控制下执行。
[0017]还注意到,如本申请中所定义的,表述“机器学习模型”(下文中称为“ML模型”)是指用于基于从一组可靠的已知的匹配和已知的不匹配(称为训练数据)获得的数据样本中学习的模式来进行未来预测的数学模型。各种学习算法能够用于映射输入数据和输出数据之间的相关性。这些相关性形成了能够用于对新输入数据进行未来预测的数学模型。例如,这种预测模型可能包括一个或多个逻辑回归模型、贝叶斯模型或NN。此外,机器学习模型可能被设计为逐渐地改善它们对特定任务的性能。
[0018]在深度学习的背景中,“深度神经网络”(deep NN,深度NN)可能指利用输入层和输出层之间的多个隐藏层的NN,其可能允许基于未在原始数据中明确地定义的特征的学习。如在本申请中所使用的,标记为NN的特征指的是深度神经网络。在各种实施方式中,NN可能用于执行图像处理或自然语言处理。尽管本新颖的和有创造性的原理在下面通过参考被称
为生成对抗网络(GAN)的示例性NN类来描述,但是该描述仅是为了概念清楚而提供的。
[0019]图1示出了根据一个实施方式的用于执行基于机器学习(ML)模型的视频压缩的示例性系统。如图1所示,系统100包括计算平台102,该计算平台102具有处理硬件104和被实施为计算机可读非暂态存储介质的系统存储器106。根据本示例性实施方式,系统存储器106存储未压缩的视频序列116和基于ML模型的视频编码器108。
[0020]如图1进一步所示,系统100在包括通信网络110和被配置成由用户114使用的用户系统120的使用环境中实施。用户系统120包括显示器122、用户系统处理硬件124和用户系统存储器126,用户系统存储器126被实施为存储基于ML模型的视频解码器128的计算机可读非暂态存储介质。此外,图1示出了通过通信网络110交互地连接用户系统120和系统100的网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:基于机器学习(ML)模型的视频编码器,被配置为:接收包括多个视频帧的未压缩视频序列;从所述多个视频帧中确定第一视频帧子集和第二视频帧子集;编码所述第一视频帧子集以产生第一压缩视频帧子集;识别用于所述第一压缩视频帧子集的第一解压缩数据;编码所述第二视频帧子集以产生第二压缩视频帧子集;和识别用于所述第二压缩视频帧子集的第二解压缩数据。2.根据权利要求1所述的系统,其中,识别所述第一解压缩数据包括,在所述第一视频帧子集的所述编码期间过度拟合所述第一解压缩数据,并且其中,识别所述第二解压缩数据包括,在所述第二视频帧子集的所述编码期间过度拟合所述第二解压缩数据。3.根据权利要求1所述的系统,其中所述第一视频帧子集包括视觉上彼此类似的视频帧,并且其中所述第二视频帧子集包括,与所述第一视频帧子集的所述视频帧相比视觉上更彼此类似的其它视频帧。4.根据权利要求1所述的系统,进一步包括基于ML模型的视频解码器;所述基于ML模型的视频编码器进一步被配置为:将所述第一压缩视频帧子集、所述第二压缩视频帧子集、所述第一解压缩数据和所述第二解压缩数据发送至所述基于ML模型的视频解码器;所述基于ML模型的视频解码器被配置为:接收所述第一压缩视频帧子集、所述第二压缩视频帧子集、所述第一解压缩数据和所述第二解压缩数据;使用所述第一解压缩数据解码所述第一压缩视频帧子集;和使用所述第二解压缩数据解码所述第二压缩视频帧子集。5.根据权利要求4所述的系统,其中,所述第一解压缩数据专用于解码所述第一压缩视频帧子集而不专用于所述第二压缩视频帧子集,并且所述第二解压缩数据专用于解码所述第二压缩视频帧子集而不专用于所述第一压缩视频帧子集。6.根据权利要求4所述的系统,其中,所述基于ML模型的视频解码器包括人工神经网络(NN)。7.根据权利要求4所述的系统,其中,所述基于ML模型的视频解码器包括微残差网络(Micro

Residual

Network,MicroRN),并且其中所述第一解压缩数据与所述第二解压缩数据仅包含所述微残差网络的权重。8.根据权利要求4所述的系统,其中,所述基于ML模型的视频编码器包括高保真度压缩(High

Fidelity Compression,HiFiC)编码器,并且其中,所述基于ML模型的视频解码器,相比于不使用所述第一解压缩数据和所述第二解压缩数据的HiFiC解码器,包括更少的参数。9.根据权利要求4所述的系统,其中,所述基于ML模型的视频编码器包含HiFiC编码器,并且其中所述基于ML模型的视频解码器被配置为,相比于不使用所述第一解压缩数据和所述第二解压缩数据的HiFiC解码器,实现更快的解码时间。10.根据权利要求4所述的系统,其中,所述第一解压缩数据仅被接收一次以用于所述
第一压缩视频帧子集的解码,并且其中所述第二解压缩数据仅被接收一次以用于所述第二压缩视频帧子集的解码。11.一种方法,由包括基于机器学习(ML)模型的视频编码器的系统所使用,所述...

【专利技术属性】
技术研发人员:A
申请(专利权)人:苏黎世联邦理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1