使用4D视频数据张量的2D卷积进行计算机视觉的方法、系统和介质技术方案

技术编号：41141224 阅读：28 留言：0更新日期：2024-04-30 18:11

描述了使用4D视频数据张量的2D卷积进行计算机视觉的方法、系统和介质。通过对4D张量执行2D卷积来模拟对5D输入张量执行的3D卷积运算。CNN的卷积块执行两个并行操作：空间处理分支使用2D卷积对4D张量执行空间特征提取，而时间处理分支使用2D卷积对不同的4D张量执行时间特征提取。将所述空间处理分支和所述时间处理分支的输出张量组合以生成所述卷积块的输出张量。所述卷积块可以包括附加操作，如再成形和/或进一步的卷积运算，以为每个分支生成相同大小的输出张量，从而消除了在组合分支输出张量之前对它们进行后处理的需要。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及人工神经网络，包括用于根据多帧视频数据执行计算机视觉任务的卷积神经网络。

技术介绍

1、人工神经网络是用于创建和应用模型以执行推理任务的计算结构。神经网络通常包括多层神经元，每个神经元接收来自上一层的输入，对输入应用一组权重，并组合这些加权输入以生成输出，该输出反过来作为输入提供给后续层的一个或多个神经元。

2、一层神经元使用滤波器来定义上一层神经元的输出和当前层神经元的输出之间的关系。神经网络的一层接收数据输入，通常以已知维度的数据数组的形式输入，通常称为张量。张量是一个数学对象，类似于向量，但比向量更通用，由作为空间坐标函数的分量数组表示。因此，张量可以是包含沿单个维度定位的一组元素的一维数组、包含具有由二维定义的位置的一组元素的2d矩阵、包含具有由三维定义的位置的一组元素的3d结构，等等。

3、在神经网络在图像数据(由两个空间维度、水平像素位置x和垂直像素位置y以及第三通道维度c定义，例如红/绿/蓝颜色通道)等3d数据上操作的情况下，神经网络的输入层接收3d图像数据作为3d输入张量，神经网络中的每个后续层通常接收数据输入，作为由一组多个2d输入激活映射(也称为输入特征映射或输入通道)组成的3d张量。通过将一组滤波器应用于一组输入激活映射，所述层生成数据输出，所述数据输出通常是具有已知维度的数据阵列：同样，在神经网络在3d数据上操作的情况下，网络的一层的数据张量通常是由一组多个2d输出激活映射(也称为输出特征映射或输出通道)组成的3d张量。每个输出激活映射包括空间维度x和y，所述多个2d

4、滤波器包括一组权重(也称为可学习参数，或简称参数)。在一些神经网络中，如卷积神经网络(convolutional neural network，cnn)，滤波器的权重被安排成卷积核，如2d卷积核，用于对一组2d输入激活映射(即3d输入张量)执行2d卷积。在图像处理的上下文中，滤波器的每个核对应于所述输入张量的通道(即单个2d输入激活映射)。将单个滤波器应用于所述输入张量(例如，通过将所述滤波器的所述核与所述数据输入的所述对应输入激活映射卷积)生成单个2d输出激活映射。由所述卷积层的一组滤波器生成的一组2d输出激活映射是所述卷积层的数据输出(即，所述3d输出张量)。

5、因此，在对3d输入张量执行2d卷积的上下文中，滤波器是排列成多个2d核的3d权重数组。

6、一些神经网络被配置和训练以处理视频数据(即，多个视频帧，每个帧由对应于不同时间点的多通道图像数据组成)。视频处理神经网络可以被训练以执行计算机视觉任务，例如识别视频中的人正在执行的活动、提高视频质量等。视频处理神经网络倾向于在具有大于三维的张量上运行。一些被配置为一次处理单个视频数据样本(即视频剪辑)，视频数据样本被表示为由水平位置、垂直位置、通道和帧的维度定义的4d输入张量。因此，单个帧对应于如上所述的图像数据的3d张量，并且所述视频数据样本包括沿着对应于不同时间点的多个帧的第四维度布置的多个这样的3d帧。因此，视频数据样本的帧维度可以被视为时间维度t。

7、许多当代视频处理神经网络一次对多个视频剪辑(即多个视频数据样本)进行批量操作，从而产生5d输入张量。这样的神经网络的每个5d输入张量包括沿着第五维度布置的如上所述的多个4d视频数据张量，所述第五维度对应于正在处理的视频数据批中的每个不同视频数据样本的索引值。所述维度可以称为批索引维度b。

8、许多特定于视频的计算机视觉任务需要沿着视频数据的时间维度分析视频数据。例如，处理视频数据样本以识别用户随着时间的推移正在执行的手势，要求所述视频数据样本的多个帧一起处理，而不是单独处理。因此，现有的视频处理cnn通常对5d输入张量执行3d卷积操作，以便在所述视频数据样本的两个空间维度以及时间维度上卷积3d核。3d卷积使用4d滤波器，每个4d滤波器包括多个3d核，在4d(或5d)输入张量的三个维度上遍历(即卷积)4d(或5d)输入张量(与2d卷积中的滤波器在两个维度上卷积相反)。通常，具有维度[b,t,x,y,c]的5d视频数据张量的3d卷积应用大小(t,d,d)的3d核来遍历5d输入张量的第2、3和4维，即时间维度和两个空间维度。3d卷积的计算成本通常比2d卷积更高：相对于2d核，3d核中包括的权重数量要多得多，导致神经网络更大，内存需求大大增加，3d卷积运算的计算成本比类似的2d卷积运算更高，从而对处理器提出了更高的要求。3d卷积视频处理cnn的内存和处理器要求更高，使得许多实时计算机视觉任务无法在手机等边缘设备上执行；在一些情况下，边缘设备中使用的硬件甚至不支持4d或5d张量的3d卷积，即使计算资源限制被克服，这些任务也不可能。

9、因此，需要解决上述现有方法的一个或多个限制的视频处理cnn技术。

技术实现思路

1、在各种示例中，本专利技术描述了使用4d视频数据张量的2d卷积用于计算机视觉的方法、系统和计算机可读介质。

2、各种方法试图解决使用上述3d卷积的视频处理cnn的局限性。这些方法包括级联方法、并行方法、混合方法和秩1方法。

3、级联方法，如r(2+1)d、s3d和p3d-a，通过在其中一个维度中使用大小为1的3d核，将每个3d卷积运算拆分为连续的空间和时间3d卷积运算。一种这样的方法是由tran,du等人2018年在ieee计算机视觉和模式识别会议记录“动作识别的时空卷积的更仔细研究(acloser look at spatiotemporal convolutions for action recognition)”中描述。所述方法使用级联方法，首先应用空间处理(使用时间维度中大小为1的核)，然后应用时间处理(使用空间维度中大小为1的核)。所述方法在其实现方式中仍然将3d卷积运算应用于5d输入张量(即，每个4d滤波器在三维中遍历5d张量)。级联方法通常需要大量的处理时间，因为空间处理必须在将结果提供给时间处理阶段之前完成。

4、p3d-b等并行方法应用空间和时间分析的并行流。qiu、zhaofan、ting yao和taomei在2017年ieee计算机视觉国际会议记录“通过伪-3d残差网络学习时空表示(learningspatio-temporal representation with pseudo-3d residual networks)”中描述了一种这样的方法。所述方法引入了空间处理和时间处理的不同组合，这些组合被实现为在5d输入张量上执行的3d卷积运算。还执行额外的处理，以使每个并行分支(即空间分析分支和时间分析分支)的输出具有相同的形状本文档来自技高网...

【技术保护点】

1.一种用于处理输入张量以生成输出张量的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，所述对所述4D空间输入张量执行2D卷积，生成所述4D空间特征张量包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述4D时间输入张量执行2D卷积，生成所述4D时间特征张量包括：

6.根据权利要求4所述的方法，其特征在于，所述处理所述4D空间特征张量和所述4D时间特征张量，生成所述输出张量包括：

7.根据权利要求6所述的方法，其特征在于，所述处理所述再成形的4D空间特征张量和所述4D时间特征张量，生成所述输出张量包括：

8.根据权利要求7所述的方法，其特征在于，所述处理所述时间下采样的4D空间特征张量和所述4D时间特征张量以生成所述输出张量包括将所述时间下采样的4D空间特征张量的元素添加到所述4D时间特征张量的相应元素中，生成所述输出张量。

9.根据权利要求1所述的方法，其特征在于，p>

10.一种用于处理输入张量以生成输出张量的系统，其特征在于，所述系统包括：

11.根据权利要求10所述的系统，其特征在于，

12.根据权利要求10所述的系统，其特征在于，

13.根据权利要求10所述的系统，其特征在于，所述对所述4D空间输入张量执行2D卷积，生成所述4D空间特征张量包括：

14.根据权利要求13所述的系统，其特征在于，所述对所述4D时间输入张量执行2D卷积，生成所述4D时间特征张量包括：

15.根据权利要求13所述的系统，其特征在于，所述处理所述4D空间特征张量和所述4D时间特征张量，生成所述输出张量包括：

16.根据权利要求15所述的系统，其特征在于，所述处理所述再成形的4D空间特征张量和所述4D时间特征张量，生成所述输出张量包括：

17.根据权利要求16所述的系统，其特征在于，所述处理所述时间下采样的4D空间特征张量和所述4D时间特征张量以生成所述输出张量包括将所述时间下采样的4D空间特征张量的元素添加到所述4D时间特征张量的相应元素中，生成所述输出张量。

18.根据权利要求10所述的系统，其特征在于，

19.一种非瞬时性处理器可读介质，其特征在于，所述非瞬时性处理器可读介质上存储有根据权利要求1所述的方法生成的输出张量。

20.一种非瞬时性处理器可读介质，其特征在于，所述非瞬时性处理器可读介质上存储有机器可执行指令，当由设备的处理器执行时，使所述设备执行权利要求1所述方法的步骤。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于处理输入张量以生成输出张量的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，所述对所述4d空间输入张量执行2d卷积，生成所述4d空间特征张量包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述4d时间输入张量执行2d卷积，生成所述4d时间特征张量包括：

6.根据权利要求4所述的方法，其特征在于，所述处理所述4d空间特征张量和所述4d时间特征张量，生成所述输出张量包括：

7.根据权利要求6所述的方法，其特征在于，所述处理所述再成形的4d空间特征张量和所述4d时间特征张量，生成所述输出张量包括：

8.根据权利要求7所述的方法，其特征在于，所述处理所述时间下采样的4d空间特征张量和所述4d时间特征张量以生成所述输出张量包括将所述时间下采样的4d空间特征张量的元素添加到所述4d时间特征张量的相应元素中，生成所述输出张量。

9.根据权利要求1所述的方法，其特征在于，

10.一种用于处理输入张量以生成输出张量的系统，其特征在于，所述系统包括：

11.根据权利要求10所述的系统，其特征在于，

12.根据权利要求1...

【专利技术属性】
技术研发人员：哈比卜·哈吉莫拉霍西尼，考沙尔·库马尔，戈登·邓，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人