当前位置: 首页 > 专利查询>罗伯特专利>正文

将视频内容有损压缩成图表示制造技术

技术编号:37276119 阅读:24 留言:0更新日期:2023-04-20 23:43
将视频内容有损压缩成图表示的方法,每个视频帧(1a

【技术实现步骤摘要】
将视频内容有损压缩成图表示


[0001]本专利技术涉及用于视频内容的数据压缩,其尤其可以用作使用图神经网络处理视频内容的预处理步骤。

技术介绍

[0002]许多视频处理任务是使用深度神经网络来执行的。这样的任务需要大量的计算资源,并且特别是内存。对于此的一个原因是视频帧序列是固有的高维类型的输入。例如,为视频处理而设计的典型神经网络以16帧的视频剪辑作为输入被馈送。这暗示着用于视频处理的典型神经网络比其基于图像的对应物具有更多的参数。

技术实现思路

[0003]本专利技术提供了一种用于无损压缩视频帧序列的方法。每个这样的视频帧包括携带颜色值的像素。通过有损压缩,意味着视频帧的原始序列的内容不被直接和明确地从压缩表示中可导出。
[0004]在该方法的过程中,每个视频帧被分割成超像素。这些超像素是共享至少一个预定公共特性(诸如相似的颜色或强度值)的像素组。对于每个超像素,从属于相应超像素的像素中导出的至少一个属性被分配。
[0005]例如,分配给每个超像素的属性可以包括最小颜色值、最大颜色值、平均颜色值、中间颜色值或从属于该超像素的像素的颜色值中导出的另一个聚合值。
[0006]在下文中,然后从超像素和分配给它们的一个或多个属性中创建所寻找的表示。仅这一点就已经大大降低了视频帧序列的维数。典型地,在分割步骤之后,每个视频帧中存在的原始像素是存在的超像素的大约1000倍那么多。
[0007]超像素被组合成图表示中的节点。也就是说,图中的每个节点对应于一个超像素。节点(超像素)由两种类型的边——即空间边和时间边——连接。
[0008]具体地,同一视频帧中的超像素通过与至少一个量相关联的空间边连接,该至少一个量是这些超像素之间的距离的度量。也就是说,典型地,视频帧中的每个超像素连接到同一视频帧中的每个其他超像素,但是给定超像素到其他超像素的连接将携带对应于不同距离的不同量。正在测量的距离例如可以是视频帧的坐标系中的空间距离。但是该距离例如也可以与相应超像素的内容之间的差异相关。
[0009]响应于序列中相邻视频帧中的超像素满足至少一个预定相关性标准,这些超像素通过时间边连接。也就是说,一个视频帧中的超像素通常不与相邻视频帧中的每个超像素连接。相反,在相邻的视频帧中,给定的超像素可能仅连接到几个超像素,或者甚至仅连接到一个超像素。甚至可能存在不与相邻帧中的任何其他超像素连接的超像素。
[0010]应当注意,从纯图论的角度来看,空间边和时间边之间不存在差异。一方面空间边集和另一方面时间边集的并集构成了总的边集,并且该总的边集与节点集一起唯一地定义了图表示。然而,空间边和时间边之间的区别将在下文中继续,因为它们是以不同方式创建
的,并且还涉及视频帧的原始序列的不同方面。
[0011]这样,与表征原始输入的参数数量相比,表征该表示的独立参数数量大大减少。设T、C、H和W分别是序列中的帧数、每帧中的颜色通道数、每帧的高度和每帧的宽度。则视频序列由个独立参数来表征,所述独立参数都必须由例如神经网络来处理,以便在下游任务中进一步处理。
[0012]现在设S是每帧中超像素的数量。则在每帧中的超像素之间存在个空间边。每个空间边需要两个参数来标示,例如,视频帧平面中的空间距离。此外,如果距离是纯空间距离,则表征空间边的参数对于所有视频帧将是相同的,因此它们可以被重复使用。如果每个超像素仅与相邻视频帧中的至多一个其他超像素连接,则至多存在个时间边。此外,照此的个超像素需要个参数来表征。则参数的总数是。这通常比小得多,因为超像素的数量S是使得被选择的。
[0013]另一个优点是,由于上面提出的空间和时间边的构造方案,图表示包括光流和过分割的概念。因此,重复使用了先前研究中发现的关于光流和过分割的强先验知识。例如,考虑光流导致了视频中动作识别的显著改进。此外,通过使用超像素的过分割来处理神经网络的输入是特别有用的,因为输入元素的数量以及因此在神经网络中处理的时间和内存消耗被大大减少,而仅很少的细节丢失。
[0014]在特别有利的实施例中,超像素之间的距离的度量包括超像素的空间坐标之间的欧几里德距离。例如,帧t中的超像素i和j之间的距离可以计算为。
[0015]在本文中,和是分别表示帧t中的超像素i和j的图节点。功能符号、、和意指对应于图节点和的超像素的空间坐标x、y。将超像素的坐标归一化为H和W从距离度量中移除了关于视频帧的分辨率的信息,该信息对于诸如视频流分类的许多下游任务是不相关的。因此,虽然该距离度量提供了关于超像素之间的空间关系的信息,但是它对于旋转和图像翻转是不变的。此结果是,在由神经网络处理表示的下游任务中,不需要用旋转或翻转的训练样本来增强训练数据以便教导网络产生相对于旋转或翻转的输入不变的输出。
[0016]因此,连接对应于视频帧t中的超像素的节点的空间边的集可以写成,其中[S]标示从原始视频帧t导出的超像素的S个索引的集。每个边可以与相
应的距离相关联。
[0017]特别地,超像素的空间坐标可以包括属于该超像素的像素的质心的空间坐标。质心可以例如被确定为属于超像素的像素的重心。
[0018]在另一个有利的实施例中,超像素之间的距离的度量包括在属于相应超像素的个体像素的特性直方图之间计算的差。例如,可以为每个直方图计算统计矩或统计量,或者这样的统计矩或统计量的聚合,并且从两个直方图获得的结果中,可以评估差异。这样,距离度量突出显示了视频帧的语义含义的另一个方面,即视频帧中哪些超像素属于哪些对象。不同的对象很可能具有不同的颜色和/或纹理,这在某种程度上依赖于颜色和/或纹理的直方图的统计中应当是可见的。
[0019]在特别有利的实施例中,用于确定时间边的相关性标准包括相对于超像素的空间坐标的接近度,和/或分配给这些超像素的属性的相似度。因此,视频帧t
q
中的超像素i和视频帧tp中的超像素j之间的距离可以计算为:。
[0020]例如,相关性标准可以包括该距离度量的阈值,和/或分配给这些子像素的属性的相似度(诸如中间颜色)的阈值。
[0021]在特别有利的实施例中,给定视频帧中的第一超像素,从序列中相邻视频帧中预选择满足关于接近度的第一相关性标准的超像素。然后,从这些预选择的超像素中,选择其分配的属性与第一超像素的属性最相似的超像素作为通过时间边连接到第一超像素的超像素。这样,接近度标准成为主导标准。例如,给定视频帧t中的超像素i,相邻视频帧t+1中的超像素j的邻域可以被计算为,其中d
P
是接近度的阈值。在该邻域之外,然后可以选择具有与给定超像素i的属性最接近的属性的超像素j来定义时间边,并且这可以从视频帧t中的所有超像素开始执行。因此源自视频帧t中的超像素的所有时间连接的集可以被计算为。
[0022]在本文中,标示分配给视频帧t中的超像素i的属性(诸如中间颜色值),并且标示分配给相邻视频帧t+1中的超像素j的属性。在该示例中,时间边仅朝向相邻视频帧t+1中的超像素j本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于将视频帧(1a

1f)的序列(1)有损压缩成表示(4)的方法(100),其中每个视频帧(1a

1f)包括携带颜色值的像素,所述方法包括以下步骤:
· 将每个视频帧(1a

1f)分割(110)成超像素(2),其中这些超像素(2)是共享至少一个预定公共特性的像素组;
· 向每个视频帧(1a

1f)中的每个超像素(2)分配(120)从属于相应超像素(2)的像素导出的至少一个属性(3);和
· 将超像素(2)组合(130)为图表示(4)中的节点,其中
○ꢀ
同一视频帧(1a

1f)中的超像素(2)通过与作为这些超像素(2)之间的距离的度量的至少一个量相关联的空间边(5)连接(131);并且
○ꢀ
响应于序列(1)中相邻视频帧(1a

1f)中的超像素(2)满足至少一个预定相关性标准(132),这些超像素(2)通过时间边(6)连接(133)。2.根据权利要求1所述的方法(100),其中,分配给每个超像素(2)的属性(3)包括最小颜色值、最大颜色值、平均颜色值、中间颜色值或从属于超像素(2)的像素的颜色值导出的另一个聚合值。3.根据权利要求1至2中任一项所述的方法(100),其中,超像素(2)之间的距离的度量包括(131a)超像素(2)的空间坐标之间的欧几里德距离。4.根据权利要求3所述的方法(100),其中,超像素(2)的空间坐标包括属于该超像素(2)的像素的质心的空间坐标。5.根据权利要求1至4中任一项所述的方法(100),其中,超像素(2)之间的距离的度量包括(131b)在属于相应超像素(2)的个体像素的特性直方图之间计算的差。6.根据权利要求1至5中任一项所述的方法(100),其中,所述相关性标准包括(132a)相对于超像素(2)的空间坐标的接近度,和/或分配给这些超像素(2)的属性(3)的相似度。7.根据权利要求1至6中任一项所述的方法(100),进一步包括:

【专利技术属性】
技术研发人员:D
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1