用于加速密集3D分组卷积的方法和设备技术

技术编号:44751569 阅读:21 留言:0更新日期:2025-03-26 12:38
本申请涉及用于加速密集三维(3D)分组卷积的方法和设备。该方法包括:接收输入特征图;生成输入特征图的分组标签矩阵,该分组标签矩阵用于将输入特征图划分为多个不相交输入分组;基于分组标签矩阵来同时对多个不相交输入分组执行卷积操作;以及利用多个不相交输入分组的卷积结果直接生成与输入特征图相对应的输出特征图。

【技术实现步骤摘要】

本申请涉及神经网络领域,更具体地,涉及用于加速密集3d分组卷积的方法和设备。


技术介绍

1、由于深度学习的流行,3d卷积神经网络(3d cnn)正在成为3d视觉识别任务的主流解决方案(例如,intel®realsensetm和microsoft kinect)。然而,与传统的2d cnn形成鲜明对比的是,3d cnn在数学运算方面需要考虑一个附加的空间维度,从而造成了计算和存储器要求的三次增长问题。

2、risc-v指令集架构(isa)现在广泛应用于人工智能(ai),例如google、meta、t-head、sophgo等。用于ai的risc-v isa的主要特征是risc-v矢量指令(rvv),这是一种高度灵活的矢量数据处理指令扩展。rvv支持来自不同供应商的核心之间的二进制移植。rvv提供各种类型的算术计算和加载/存储操作,因此在包括卷积操作在内的人工智能工作负载方面实现了高效率。


技术实现思路

1、本申请提供了一种新的用于加速密集3d分组卷积的机制以及相应的指令,使得线性地降低了3d卷积神经本文档来自技高网...

【技术保护点】

1.一种用于加速密集三维3D分组卷积的方法,包括:

2.根据权利要求1所述的方法,其中,多个不相交输入分组的数据在卷积操作期间是作为一个整体被存储和处理的。

3.根据权利要求1或2所述的方法,其中,基于分组标签矩阵来同时对多个不相交输入分组执行卷积操作包括:

4.根据权利要求3所述的方法,其中,利用多个不相交输入分组的卷积结果直接生成与输入特征图相对应的输出特征图包括:

5.根据权利要求1所述的方法,还包括:

6.根据权利要求5所述的方法,其中,用于执行加速的密集3D分组卷积的RVV矢量指令指示处理器在计算单元中同时为多个不相交...

【技术特征摘要】

1.一种用于加速密集三维3d分组卷积的方法,包括:

2.根据权利要求1所述的方法,其中,多个不相交输入分组的数据在卷积操作期间是作为一个整体被存储和处理的。

3.根据权利要求1或2所述的方法,其中,基于分组标签矩阵来同时对多个不相交输入分组执行卷积操作包括:

4.根据权利要求3所述的方法,其中,利用多个不相交输入分组的卷积结果直接生成与输入特征图相对应的输出特征图包括:

5.根据权利要求1所述的方法,还包括:

6.根据权利要求5所述的方法,其中,用于执行加速的密集3d分组卷积的rvv矢量指令指示处理器在计算单元中同时为多个不相交输入分组执行卷积运算。

7.根据权利要求5所述的方法,其中,用于执行加速的密集3d分组卷积的rvv矢量指令指示处理器在计算单元中同时执行多次卷积运算,其中多次卷积运算的数量等于多个不相交输入分组的数量。

8. 一种用于加速密集三维(3d)分组卷积的设备,包括:

9.根据权利要求8所述的设备,其中,多个不相交输入分组的数据在卷积操作期间是作为一个整体被存储和处理的。

10.根据权利要求8或9所述的设备,其中,所述指令还使得所述处理器:

11.根...

【专利技术属性】
技术研发人员:梁华岳姚安邦
申请(专利权)人:英特尔中国研究中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1