System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本公开的实施例总体涉及卷积神经网络(cnn)的技术,具体涉及用于3维(3d)cnn中的动态四重卷积的装置和方法。
技术介绍
1、3d cnn是用3d卷积运算来构造的,这些运算在输入数据的时空空间中自然地执行。由于联合时空建模能力,3d cnn已经成为广泛用于高级视频分析任务的主流模型,高级视频分析任务包括视频动作识别和检测、视频对象检测和分割等。
技术实现思路
1、根据本公开的一个方面,提供了一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的装置。该装置包括:多维注意力块,其被配置为接收视频数据样本的输入特征图;以及基于输入特征图动态地生成沿着3d卷积核空间的四个维度的卷积核标量,四个维度包括输出通道数、输入通道数、时间大小和空间大小;以及卷积块,其被配置为以矩阵-向量积的方式将所生成的卷积核标量与静态3d卷积核顺序相乘,以获得动态四重卷积的动态核。
2、根据本公开的另一方面,提供了一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的方法。该方法包括:由多维注意力块接收视频数据样本的输入特征图;由多维注意力块基于输入特征图动态地生成沿着3d卷积核空间的四个维度的卷积核标量,四个维度包括输出通道数、输入通道数、时间大小和空间大小;以矩阵-向量积的方式将所生成的卷积核标量与静态3d卷积核顺序相乘,以获得动态四重卷积的动态核。
3、本公开的另一方面提供了一种设备,包括用于实施本公开的方法的装置。
4、本公开的另一方面提供了一种上面存储
本文档来自技高网...【技术保护点】
1.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置,包括:
2.根据权利要求1所述的装置,其中,所述多维注意力块包括:
3.根据权利要求2所述的装置,其中,所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。
4.根据权利要求2所述的装置,其中,所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。
5.根据权利要求2所述的装置,其中,所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。
6.根据权利要求5所述的装置,其中,所述映射和缩放单元包括:
7.根据权利要求1所述的装置,其中,所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。
8.根据权利要求1所述的装置,其中,所述动态四重卷积应用于任何类型的3D CNN。
9.根据权利要求1所述的装置,其中,所述动态四重卷积被执行用于高级视频分析任务。
10.根据权利要
11.根据权利要求10所述的装置,其中,所述动态四重卷积被执行用于动作识别。
12.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法,包括:
13.根据权利要求12所述的方法,还包括:
14.根据权利要求13所述的方法,其中,所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。
15.根据权利要求13所述的方法,其中,所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。
16.根据权利要求13所述的方法,其中,所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。
17.根据权利要求16所述的方法,其中,所述映射和缩放操作包括:
18.根据权利要求12所述的方法,其中,所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。
19.根据权利要求12所述的方法,其中,所述动态四重卷积应用于任何类型的3D CNN。
20.根据权利要求12所述的方法,其中,所述动态四重卷积被执行用于高级视频分析任务。
21.根据权利要求20所述的方法,其中,所述动态四重卷积被执行用于动作识别或迁移学习。
22.一种机器可读存储介质,其上存储有指令,所述指令在由机器执行时使得所述机器执行一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法,该方法包括:
23.根据权利要求22所述的机器可读存储介质,所述指令在由所述机器执行时使得所述机器:
24.一种设备,包括用于执行权利要求12至21中任一项所述的方法的装置。
...【技术特征摘要】
【国外来华专利技术】
1.一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的装置,包括:
2.根据权利要求1所述的装置,其中,所述多维注意力块包括:
3.根据权利要求2所述的装置,其中,所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。
4.根据权利要求2所述的装置,其中,所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。
5.根据权利要求2所述的装置,其中,所述映射和缩放操作使用全连接或1×1卷积层的运算以及softmax、sigmoid或tanh的运算来执行。
6.根据权利要求5所述的装置,其中,所述映射和缩放单元包括:
7.根据权利要求1所述的装置,其中,所述多维注意力块被嵌入在所述3d cnn的各个卷积层中。
8.根据权利要求1所述的装置,其中,所述动态四重卷积应用于任何类型的3d cnn。
9.根据权利要求1所述的装置,其中,所述动态四重卷积被执行用于高级视频分析任务。
10.根据权利要求9所述的装置,其中,所述动态四重卷积被执行用于迁移学习。
11.根据权利要求10所述的装置,其中,所述动态四重卷积被执行用于动作识别。
12.一种用于3维(3d)卷积神经网络(cnn)中的动态四重卷积的方法,包括:
13.根据权利要求12所述的方法,还包括:
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。