一种基于深度学习加速核的反卷积运算方法技术

技术编号:46600320 阅读:2 留言:0更新日期:2025-10-10 21:32
本发明专利技术涉及神经网络处理器NPU,具体涉及一种基于深度学习加速核的反卷积运算方法,直接加载输入张量、权重张量和偏置张量至对应的buffer,并排布成所需的结构,使用uop指定参与运算的输入地址、权重地址、偏置地址和输出地址,利用深度学习加速核中卷积运算加速的特点生成反卷积指令,进行反卷积运算;其中,深度学习加速核利用二维卷积过程中,滑动窗口在行方向或列方向上移动步长固定不变的特点,采用四重循环控制二维卷积滑动窗口在二维特征图上的移动,并且使用一条卷积指令即可完成二维卷积运算;本发明专利技术提供的技术方案能够有效克服现有技术所存在的反卷积运算效率较低的缺陷。

【技术实现步骤摘要】

本专利技术涉及神经网络处理器npu,具体涉及一种基于深度学习加速核的反卷积运算方法


技术介绍

1、反卷积也称为转置卷积,是一种深度学习算法层,其广泛应用于图像的上采样过程。反卷积主要应用在计算机视觉的深度学习领域,由于输入图像通过卷积神经网络(cnn)提取特征后,输出的尺寸往往会变小,而有时需要将图像恢复到原来的尺寸以便进行进一步的计算(图像的语义分割等)。这个扩大图像尺寸,实现图像由小分辨率到大分辨率的映射操作,叫做上采样(upsample)。反卷积是上采样的一种方式,但并不是正向卷积的完全逆过程,用一句话来解释:反卷积是一种特殊的正向卷积,先按照一定的比例通过补0和插0来扩大输入图像的尺寸,再进行正向卷积。

2、常规的反卷积步骤:

3、①对输入进行补0和插0操作:

4、1)首先根据输入参数和输入尺寸确定输出大小,output.size[0]=(input.size[0]-1)*deconv2d.stride[0]-deconv2d.pad[0]-deco nv2d.pad[1]+deconv2d.ksize[0]+本文档来自技高网...

【技术保护点】

1.一种基于深度学习加速核的反卷积运算方法,其特征在于:直接加载输入张量、权重张量和偏置张量至对应的buffer,并排布成所需的结构,使用uop指定参与运算的输入地址、权重地址、偏置地址和输出地址,利用深度学习加速核中卷积运算加速的特点生成反卷积指令,进行反卷积运算;

2.根据权利要求1所述的基于深度学习加速核的反卷积运算方法,其特征在于:所述直接加载输入张量、权重张量和偏置张量至对应的buffer,并排布成所需的结构,包括:

3.根据权利要求2所述的基于深度学习加速核的反卷积运算方法,其特征在于:所述使用uop指定参与运算的输入地址、权重地址、偏置地址和输出地址...

【技术特征摘要】

1.一种基于深度学习加速核的反卷积运算方法,其特征在于:直接加载输入张量、权重张量和偏置张量至对应的buffer,并排布成所需的结构,使用uop指定参与运算的输入地址、权重地址、偏置地址和输出地址,利用深度学习加速核中卷积运算加速的特点生成反卷积指令,进行反卷积运算;

2.根据权利要求1所述的基于深度学习加速核的反卷积运算方法,其特征在于:所述直接加载输入张量、权重张量和偏置张量至对应的buffer,并排布成所需的结构,包括:

3.根据权利要求2所述的基于深度学习加速核的反卷积运算方法,其特征在于:所述使用uop指定参与运算的输入地址、权重地址、偏置地址和输出地址,包括:

4.根据权利要求3所述的基于深度学习加速核的反卷积运算方法,其特征在于:对于uop的跨bank情况,跨bank时使用的uop集合与不跨bank时使用的uop集合一致,区别在于出现跨bank情况时,由于得到输出张量的最后一列需要参与运算的输入数目与前若干列不同,所以需要对得到输出张量的最后一列使用单独的uop进行特殊运算。

5.根据权利要求4所述的基于深度学习加速核的反卷积运算方法,其特征在于:所述根据实际参与运算的数据的不同情况,生成对应的uop,构成uop集合之后,包括:

6.根据权利要求5所述的基于深度学习加速核的反卷积运算方法,其特征在于:所述利用...

【专利技术属性】
技术研发人员:吴尔杰林广栋黄光红赵旭东
申请(专利权)人:安徽芯纪元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1