用于3D CNN中的动态四重卷积的装置和方法制造方法及图纸

技术编号：40294501 阅读：5 留言：0更新日期：2024-02-07 20:43

提供了用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置、方法、设备和介质。该装置包括：多维注意力块，其被配置为接收视频数据样本的输入特征图；以及基于输入特征图动态地生成沿着3维卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及卷积块，其被配置为以矩阵‑向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得动态四重卷积的动态核。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开的实施例总体涉及卷积神经网络(cnn)的技术，具体涉及用于3维(3d)cnn中的动态四重卷积的装置和方法。

技术介绍

1、3d cnn是用3d卷积运算来构造的，这些运算在输入数据的时空空间中自然地执行。由于联合时空建模能力，3d cnn已经成为广泛用于高级视频分析任务的主流模型，高级视频分析任务包括视频动作识别和检测、视频对象检测和分割等。

技术实现思路

1、根据本公开的一个方面，提供了一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的装置。该装置包括：多维注意力块，其被配置为接收视频数据样本的输入特征图；以及基于输入特征图动态地生成沿着3d卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及卷积块，其被配置为以矩阵-向量积的方式将所生成的卷积核标量与静态3d卷积核顺序相乘，以获得动态四重卷积的动态核。

2、根据本公开的另一方面，提供了一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的方法。该方法包括：由多维注意力块接收视频数据样本的输入特征图；由多维注意力块基于输入特征图动态地生成沿着3d卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以矩阵-向量积的方式将所生成的卷积核标量与静态3d卷积核顺序相乘，以获得动态四重卷积的动态核。

3、本公开的另一方面提供了一种设备，包括用于实施本公开的方法的装置。

4、本公开的另一方面提供了一种上面存储

本文档来自技高网...

【技术保护点】

1.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置，包括：

2.根据权利要求1所述的装置，其中，所述多维注意力块包括：

3.根据权利要求2所述的装置，其中，所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

4.根据权利要求2所述的装置，其中，所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

5.根据权利要求2所述的装置，其中，所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

6.根据权利要求5所述的装置，其中，所述映射和缩放单元包括：

7.根据权利要求1所述的装置，其中，所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。

8.根据权利要求1所述的装置，其中，所述动态四重卷积应用于任何类型的3D CNN。

9.根据权利要求1所述的装置，其中，所述动态四重卷积被执行用于高级视频分析任务。

10.根据权利要

11.根据权利要求10所述的装置，其中，所述动态四重卷积被执行用于动作识别。

12.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法，包括：

13.根据权利要求12所述的方法，还包括：

14.根据权利要求13所述的方法，其中，所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

15.根据权利要求13所述的方法，其中，所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

16.根据权利要求13所述的方法，其中，所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

17.根据权利要求16所述的方法，其中，所述映射和缩放操作包括：

18.根据权利要求12所述的方法，其中，所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。

19.根据权利要求12所述的方法，其中，所述动态四重卷积应用于任何类型的3D CNN。

20.根据权利要求12所述的方法，其中，所述动态四重卷积被执行用于高级视频分析任务。

21.根据权利要求20所述的方法，其中，所述动态四重卷积被执行用于动作识别或迁移学习。

22.一种机器可读存储介质，其上存储有指令，所述指令在由机器执行时使得所述机器执行一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法，该方法包括：

23.根据权利要求22所述的机器可读存储介质，所述指令在由所述机器执行时使得所述机器：

24.一种设备，包括用于执行权利要求12至21中任一项所述的方法的装置。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的装置，包括：

2.根据权利要求1所述的装置，其中，所述多维注意力块包括：

3.根据权利要求2所述的装置，其中，所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

4.根据权利要求2所述的装置，其中，所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

5.根据权利要求2所述的装置，其中，所述映射和缩放操作使用全连接或1×1卷积层的运算以及softmax、sigmoid或tanh的运算来执行。

6.根据权利要求5所述的装置，其中，所述映射和缩放单元包括：

7.根据权利要求1所述的装置，其中，所述多维注意力块被嵌入在所述3d cnn的各个卷积层中。

8.根据权利要求1所述的装置，其中，所述动态四重卷积应用于任何类型的3d cnn。

9.根据权利要求1所述的装置，其中，所述动态四重卷积被执行用于高级视频分析任务。

10.根据权利要求9所述的装置，其中，所述动态四重卷积被执行用于迁移学习。

11.根据权利要求10所述的装置，其中，所述动态四重卷积被执行用于动作识别。

12.一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的方法，包括：

13.根据权利要求12所述的方法，还包括：

...

【专利技术属性】
技术研发人员：蔡东琪，姚安邦，陈玉荣，李超，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人