System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于3D CNN中的动态四重卷积的装置和方法制造方法及图纸_技高网
当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于3D CNN中的动态四重卷积的装置和方法制造方法及图纸

技术编号:40294501 阅读:5 留言:0更新日期:2024-02-07 20:43
提供了用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置、方法、设备和介质。该装置包括:多维注意力块,其被配置为接收视频数据样本的输入特征图;以及基于输入特征图动态地生成沿着3维卷积核空间的四个维度的卷积核标量,四个维度包括输出通道数、输入通道数、时间大小和空间大小;以及卷积块,其被配置为以矩阵‑向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘,以获得动态四重卷积的动态核。

【技术实现步骤摘要】
【国外来华专利技术】

本公开的实施例总体涉及卷积神经网络(cnn)的技术,具体涉及用于3维(3d)cnn中的动态四重卷积的装置和方法。


技术介绍

1、3d cnn是用3d卷积运算来构造的,这些运算在输入数据的时空空间中自然地执行。由于联合时空建模能力,3d cnn已经成为广泛用于高级视频分析任务的主流模型,高级视频分析任务包括视频动作识别和检测、视频对象检测和分割等。


技术实现思路

1、根据本公开的一个方面,提供了一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的装置。该装置包括:多维注意力块,其被配置为接收视频数据样本的输入特征图;以及基于输入特征图动态地生成沿着3d卷积核空间的四个维度的卷积核标量,四个维度包括输出通道数、输入通道数、时间大小和空间大小;以及卷积块,其被配置为以矩阵-向量积的方式将所生成的卷积核标量与静态3d卷积核顺序相乘,以获得动态四重卷积的动态核。

2、根据本公开的另一方面,提供了一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的方法。该方法包括:由多维注意力块接收视频数据样本的输入特征图;由多维注意力块基于输入特征图动态地生成沿着3d卷积核空间的四个维度的卷积核标量,四个维度包括输出通道数、输入通道数、时间大小和空间大小;以矩阵-向量积的方式将所生成的卷积核标量与静态3d卷积核顺序相乘,以获得动态四重卷积的动态核。

3、本公开的另一方面提供了一种设备,包括用于实施本公开的方法的装置。

4、本公开的另一方面提供了一种上面存储有指令的机器可读存储介质,指令在由机器执行时使得机器执行本公开的方法。

本文档来自技高网...

【技术保护点】

1.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置,包括:

2.根据权利要求1所述的装置,其中,所述多维注意力块包括:

3.根据权利要求2所述的装置,其中,所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

4.根据权利要求2所述的装置,其中,所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

5.根据权利要求2所述的装置,其中,所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

6.根据权利要求5所述的装置,其中,所述映射和缩放单元包括:

7.根据权利要求1所述的装置,其中,所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。

8.根据权利要求1所述的装置,其中,所述动态四重卷积应用于任何类型的3D CNN。

9.根据权利要求1所述的装置,其中,所述动态四重卷积被执行用于高级视频分析任务。

10.根据权利要求9所述的装置,其中,所述动态四重卷积被执行用于迁移学习。

11.根据权利要求10所述的装置,其中,所述动态四重卷积被执行用于动作识别。

12.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法,包括:

13.根据权利要求12所述的方法,还包括:

14.根据权利要求13所述的方法,其中,所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

15.根据权利要求13所述的方法,其中,所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

16.根据权利要求13所述的方法,其中,所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

17.根据权利要求16所述的方法,其中,所述映射和缩放操作包括:

18.根据权利要求12所述的方法,其中,所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。

19.根据权利要求12所述的方法,其中,所述动态四重卷积应用于任何类型的3D CNN。

20.根据权利要求12所述的方法,其中,所述动态四重卷积被执行用于高级视频分析任务。

21.根据权利要求20所述的方法,其中,所述动态四重卷积被执行用于动作识别或迁移学习。

22.一种机器可读存储介质,其上存储有指令,所述指令在由机器执行时使得所述机器执行一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法,该方法包括:

23.根据权利要求22所述的机器可读存储介质,所述指令在由所述机器执行时使得所述机器:

24.一种设备,包括用于执行权利要求12至21中任一项所述的方法的装置。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的装置,包括:

2.根据权利要求1所述的装置,其中,所述多维注意力块包括:

3.根据权利要求2所述的装置,其中,所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

4.根据权利要求2所述的装置,其中,所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

5.根据权利要求2所述的装置,其中,所述映射和缩放操作使用全连接或1×1卷积层的运算以及softmax、sigmoid或tanh的运算来执行。

6.根据权利要求5所述的装置,其中,所述映射和缩放单元包括:

7.根据权利要求1所述的装置,其中,所述多维注意力块被嵌入在所述3d cnn的各个卷积层中。

8.根据权利要求1所述的装置,其中,所述动态四重卷积应用于任何类型的3d cnn。

9.根据权利要求1所述的装置,其中,所述动态四重卷积被执行用于高级视频分析任务。

10.根据权利要求9所述的装置,其中,所述动态四重卷积被执行用于迁移学习。

11.根据权利要求10所述的装置,其中,所述动态四重卷积被执行用于动作识别。

12.一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的方法,包括:

13.根据权利要求12所述的方法,还包括:

...

【专利技术属性】
技术研发人员:蔡东琪姚安邦陈玉荣李超
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1