用于基于学习的图像/视频编解码的整形器制造技术

技术编号：41267059 阅读：6 留言：0更新日期：2024-05-11 09:22

从输入视频信号接收在输入域中表示的输入图像。对所述输入图像执行前向整形以生成在整形图像域中表示的经前向整形的图像。执行非整形编码操作以将经整形的图像编码成经编码的视频信号。所述非整形编码操作中的至少一个是利用ML模型来实施的，所述ML模型先前已在先前训练阶段中用一个或多个训练数据集中的训练图像进行了训练。使得经编码的视频信号的接收设备从经前向整形的图像生成重建图像。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及图像处理操作。更具体地，本公开的实施例涉及视频编解码器。

技术介绍

1、如本文所使用的，术语“动态范围(dr)”可以涉及人类视觉系统(hvs)感知图像中的强度范围(例如，光亮度、亮度)的能力，例如，从最暗的黑色(深色)到最亮的白色(高光)。从这个意义上说，dr与“参考场景的(scene-referred)”强度有关。dr还可以涉及显示设备充分或近似渲染特定阔度(breadth)的强度范围的能力。从这个意义上说，dr与“参考显示的(display-referred)”强度有关。除非在本文的描述中的任何一点明确指定特定的意义具有特定的意思，否则应该推断为所述术语可以在任一意义上例如可互换地使用。

2、如本文所使用的，术语“高动态范围(hdr)”涉及跨越人类视觉系统(hvs)的大约14至15个或更多数量级的dr阔度。实际上，相对于hdr，人类可以同时感知强度范围中的广泛阔度的dr可能会被稍微截短。如本文所使用的，术语“增强动态范围(edr)或视觉动态范围(vdr)”可以单独地或可互换地与这种dr相关：所述dr可在场景或图像内由包括眼运动的人类视觉系统(hvs)感知，允许场景或图像上的一些光适应变化。如本文所使用的，edr可以涉及跨越5个到6个数量级的dr。虽然相对于参考真实场景的hdr可能稍微窄一些，但edr表示宽dr阔度并且也可以被称为hdr。

3、实际上，图像包括颜色空间的一个或多个颜色分量(例如，亮度y以及色度cb和cr)，其中每个颜色分量由每像素n位的精度表示(例如，n＝8)。使用非线性

4、给定显示器的参考电光传递函数(eotf)表征输入视频信号的颜色值(例如，光亮度)与由显示器产生的输出屏幕颜色值(例如，屏幕光亮度)之间的关系。例如，iturec.itu-r bt.1886,“reference electro-optical transfer function for flat paneldisplays used in hdtv studio production”(2011年3月)限定了平板显示器的参考eotf，其内容通过引用以其全文并入本文。在给定了视频流的情况下，关于其eotf的信息可以作为(图像)元数据嵌入比特流中。本文术语“元数据”涉及作为已编码比特流的一部分传输并且辅助解码器渲染经解码图像的任何辅助信息。这种元数据可以包括但不限于如本文描述的颜色空间或色域信息、参考显示器参数和辅助信号参数。

5、如本文所使用的术语“pq”是指感知光亮度幅度量化。人类视觉系统以极非线性方式响应于增加的光水平。人类观察刺激物的能力受到以下因素的影响：刺激物的光亮度、刺激物的大小、构成刺激物的空间频率以及在观看刺激物的特定时刻眼睛所适应的光亮度水平。在一些实施例中，感知量化器函数将线性输入灰度级映射到更好地匹配人类视觉系统中的对比度敏感度阈值的输出灰度级。在smpte st 2084:2014“high dynamic range eotfof mastering reference displays”(下文称为“smpte”)中描述了示例pq映射函数，其通过引用以其全文并入本文，其中，在给定固定刺激物大小的情况下，对于每个光亮度水平(例如，刺激水平等)，根据最敏感的适应水平和最敏感的空间频率(根据hvs模型)来选择所述光亮度水平处的最小可见对比度步长。

6、支持200至1,000cd/m2或尼特的光亮度的显示器代表了与edr(或hdr)相关的较低动态范围(ldr)，也被称为标准动态范围(sdr)。edr内容可以显示在支持较高动态范围(例如，从1,000尼特到5,000尼特或更高)的edr显示器上。这种显示器可以使用支持高光亮度能力(例如，0到10,000或更高尼特)的替代eotf来限定。在smpte 2084和rec.itu-rbt.2100,“image parameter values for high dynamic range television for use inproduction and international programme exchange”(06/2017)中定义了这种eotf的示例。如本专利技术人在此理解的，期望可以用于高效地支持各种显示设备的显示能力的用于合成视频内容数据的改进技术。

7、在本节中描述的方法是可以采用的方法，但不一定是先前已经设想到或采用过的方法。因此，除非另有指示，否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。类似地，除非另有指示，否则关于一种或多种方法所认定的问题不应该基于本节而认为在任何现有技术中被认定。

技术实现思路

0、概述

1、在一些方法下，基于学习的图像/视频编解码的性能可能高度依赖于训练数据集。例如，使用sdr图像/视频的训练数据集或数据库来训练机器学习(ml)模型。来自该经训练模型的带推断的图像/视频编解码与使用hdr图像/视频的训练数据集或数据库训练的相同模型相比对于hdr图像或视频可能表现得不够出色。即使当训练图像和非训练图像都是相同或相似颜色等级(例如，sdr等)的图像/视频时，训练图像可能仍然在某些图像/视频特性(例如，视觉可感知特性、非视觉特性等)上与非训练图像不同。例如，在模型的应用或推断阶段中的非训练图像/视频可以是包括文本和图形区域的合成图像/视频(诸如屏幕内容(scc)图像/视频)，而在模型的训练阶段中的训练图像/视频可以是非scc图像/视频。因此，来自经训练模型的带推断的图像/视频编解码对于scc图像/视频可能表现得不够出色。

2、相比之下，本文所述的整形技术可以在(基于深度学习的)图像/视频编解码器中与来自经训练ml模型的带推断的图像/视频编解码技术一起实施，以改善编解码效率，并提供针对可能具有或可能不具有与训练图像/视频相同(或相似)图像/视频特性的非训练图像/视频的自适应性。

3、可以在视频编解码器中的各种基于标准的和/或专有的系统配置中实施这些技术。如本文所述的一些或全部整形操作可以被实施为环内操作(作为图像/视频编码/解码操作的一部分)或环外操作(作为在图像/视频编码/解码操作之前的预处理或之后的后处理操作/工具的一部分)。可以在根据可适用的图像/视频编解码语法规范用语法或语法元素编码的视频信号中，将整形操作中使用的操作参数从上游编码设备用信号传输到接收设备。在美国专利10,080,026、于2019年5月9日提交的pct申请序列号pct/us2019/031620中描述了示例整形操作，其全部内容如本文充分阐述的那样特此通过引用并入。

4、示例图像/视频编解码语法规范可以包括但不一定仅限于以下各项中的任一项：杜比视觉编解码语法规范、通用视频编解码或vvc规范等。示例语法或语法元素可以包括但不一定仅限于本文档来自技高网...

【技术保护点】

1.一种方法，包括：

2.如权利要求1所述的方法，其中，经前向整形的图像是通过利用第一卷积神经网络执行的所述前向整形生成的，所述第一卷积神经网络使用空间核大小为1像素×1像素的卷积滤波器将所述输入图像中三个颜色通道中的每个输入码字前向整形为N个通道中的相应的经前向整形的码字，其中，N表示不小于三的整数；其中，所述重建图像是通过利用第二卷积神经网络执行的逆向整形生成的，所述第二卷积神经网络使用空间核大小为1像素×1像素的第二卷积滤波器将所述输入图像中所述N个通道中的每个经前向整形的码字逆向整形为所述三个颜色通道中的相应的重建码字；其中，所述第一卷积神经网络包括所述输入图像中的输入码字到所述N个通道中的经前向整形的码字的非线性映射。

3.如权利要求1或2所述的方法，其中，所述非整形编码操作包括以下各项中的一项或多项：光流分析、运动矢量编码、运动矢量解码、运动矢量量化、运动补偿、残差编码、残差解码或残差量化。

4.如权利要求1至3中任一项所述的方法，其中，所述前向整形是作为在所述非整形编码操作之前执行的环外图像处理操作来执行的。

5.如权

6.如权利要求5所述的方法，其中，所述整体环内图像处理操作是编码操作。

7.如权利要求1至6中任一项所述的方法，其中，经前向整形的图像的图像元数据部分是由经编码的视频信号携带的图像元数据的一部分；其中，所述图像元数据部分包括以下各项中的一项或多项：用于所述前向整形的前向整形参数、或用于逆向整形的后向整形参数。

8.如权利要求7所述的方法，其中，所述图像元数据部分包括显式地指定用于所述前向整形或所述逆向整形之一的整形映射的整形参数。

9.如权利要求8所述的方法，其中，显式地指定所述整形映射的整形参数是通过以下各项之一生成的：基于ML的整形映射预测方法、或非基于ML的整形映射生成方法。

10.如权利要求1至9中任一项所述的方法，其中，所述图像元数据部分包括将所述前向整形标识为以下各项之一的整形参数：全局映射、或图像自适应映射。

11.如权利要求1至10中任一项所述的方法，其中，所述前向整形是利用隐式整形映射来执行的，所述隐式整形映射是用先前已经用一个或多个训练数据集中的训练图像训练的神经网络的权重和偏差来体现的。

12.一种方法，包括：

13.如权利要求12所述的方法，其中，所述逆向整形是利用隐式整形映射来执行的，所述隐式整形映射是用先前已经用一个或多个训练数据集中的训练图像训练的神经网络的权重和偏差来体现的。

14.如权利要求12所述的方法，其中，所述逆向整形是利用在经前向整形的图像的图像元数据部分中用信号传输的整形映射来执行的，所述图像元数据部分是作为图像元数据的一部分在经编码的视频信号中携带的。

15.一种装置，包括处理器并且被配置为执行如权利要求1至14所述的方法中的任一种方法。

16.一种非暂态计算机可读存储介质，具有存储于其上的用于根据权利要求1至14所述的方法中的任一种方法、利用一个或多个处理器来执行方法的计算机可执行指令。

...

【技术特征摘要】
【国外来华专利技术】

1.一种方法，包括：

2.如权利要求1所述的方法，其中，经前向整形的图像是通过利用第一卷积神经网络执行的所述前向整形生成的，所述第一卷积神经网络使用空间核大小为1像素×1像素的卷积滤波器将所述输入图像中三个颜色通道中的每个输入码字前向整形为n个通道中的相应的经前向整形的码字，其中，n表示不小于三的整数；其中，所述重建图像是通过利用第二卷积神经网络执行的逆向整形生成的，所述第二卷积神经网络使用空间核大小为1像素×1像素的第二卷积滤波器将所述输入图像中所述n个通道中的每个经前向整形的码字逆向整形为所述三个颜色通道中的相应的重建码字；其中，所述第一卷积神经网络包括所述输入图像中的输入码字到所述n个通道中的经前向整形的码字的非线性映射。

4.如权利要求1至3中任一项所述的方法，其中，所述前向整形是作为在所述非整形编码操作之前执行的环外图像处理操作来执行的。

5.如权利要求1至3中任一项所述的方法，其中，所述前向整形是作为整体环内图像处理操作的包括所述非整形编码操作的一部分来执行的。

6.如权利要求5所述的方法，其中，所述整体环内图像处理操作是编码操作。

7.如权利要求1至6中任一项所述的方法，其中，经前向整形的图像的图像元数据部分是由经编码的视频信号携带的图像元数据的一部分；其中，所述图像元数据部分包括以下各项中的一项或多项：用于所述前向整形的...

【专利技术属性】
技术研发人员：尹鹏，浦方君，吕陶然，A·阿罗拉，苏冠铭，陈涛，S·T·麦卡锡，W·J·胡萨克，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人