System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 神经网络模型的加速方法、装置、电子设备及存储介质制造方法及图纸_技高网

神经网络模型的加速方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41324121 阅读:18 留言:0更新日期:2024-05-13 15:02
本发明专利技术公开了神经网络模型的加速方法、装置、电子设备及存储介质,包括:响应于神经网络模型的加速事件被触发,获取训练好的卷积神经网络模型;针对卷积神经网络模型的每个二维卷积算子,将二维卷积算子拆分成至少两个一维卷积算子;其中,一维卷积算子的输入特征图的宽度与二维卷积算子的初始卷积核的宽度相同;基于初始卷积核在输入特征图的高度方向进行滑动过程中,对每次滑动时的初始卷积核在高度维度上进行扩展,生成目标卷积核;将目标卷积核展开为二维卷积核数据,并将二维卷积核数据及与二维卷积算子对应的偏置数据映射至存算阵列;基于至少两个一维卷积算子及存算阵列对输入特征图进行处理。本方案可提高卷积神经网络模型的计算性能。

【技术实现步骤摘要】

本专利技术涉及机器学习,尤其涉及神经网络模型的加速方法、装置、电子设备及存储介质


技术介绍

1、目前,卷积神经网络在计算视觉、语音处理、自然语音处理、智能交通等诸多领域取得了巨大的成功,获得了越来越多的科研及工程人员的关注。为了更好的解决各个领域中复杂的问题,卷积神经网络的网络参数越来越多,计算量也越来越大,传统的基于约翰·冯·诺依曼架构的芯片虽然性能有了突破性的发展,但是往往会带来较大的功耗。尤其对于耳机、助听器、手表、眼镜等低功耗的终端设备,对其芯片的性能和功耗的平衡提出了更大的挑战。为此,不少研究人员开始探索一条打破约翰·冯·诺依曼的计算机架构的存内计算架构,将神经网络的权重和偏置存储到存算阵列节点的电导上,在将以电压表示的输入数据特征图送入阵列的同时,由欧姆定律可知输出的电流为电压和电导的乘积,从而完成了输入数据特征图和网络权重的矩阵乘法运算。

2、相关技术中,基于gpu的并行计算实现卷积处理的计算加速过程。通用gpu并行计算的过程一般是将大规模的计算任务划分为并行计算的小任务,通过将输入数据或者权重数据分配给不同的gpu核进行并行计算,使得每个gpu核只完成输入数据的一部分或者权重数据的一部分运算,最后再通过彼此之前的关系将中间特征图进行整合,最后生成完整的特征图。

3、然而,在使用gpu进行卷积计算时,需要将数据、权重和偏置参数加载到gpu内存中。当计算任务规模较大时,gpu运行时消耗的内存也很大,可能会导致内存不足或需要较大的内存交换。这会进一步增加卷积操作的计算时间。并且在使用多个gpu进行卷积计算时,需要通过高速网络进行通信,以实现不同gpu之间的数据或参数交互。网络通信的延迟和带宽可能成为性能瓶颈,影响并行计算的效率和可扩展性。而且gpu的并行计算能力非常强大,但同时也伴随着较高的能耗。gpu的大量计算单元和高频率操作会消耗大量电能,导致功耗较高。这可能会加重设备的电能负荷,并带来额外的电费成本。另外,gpu并行计算的实现需要对gpu架构和并行编程进行深入了解和掌握,需要针对不同的硬件平台和深度学习框架进行调整和优化。这对于普通程序员来说可能具有一定的门槛。

4、相关技术中,还采用img2col的方法将输入的特征图转换为一个二维矩阵,并将权重数据转换为二维矩阵,从而将卷积运算转换为两个矩阵的向量化计算,这种转换可以大幅度减少卷积操作中的循环次数,提高了计算效率。然而,img2col的优化方法在展开输入特征图的过程中会增加输入特征图的数据量,尤其对于输入卷积核较大时会额外增加很大的内存空间存放输入特征图,会带来额外较大的计算量,所以不适用于计算资源受限的嵌入式设备等场景下卷积的优化处理。


技术实现思路

1、本专利技术提供了一种神经网络模型的加速方法、装置、电子设备及存储介质,在不额外引入太多内存开销的同时,可以有效提高卷积神经网络模型的计算性能。

2、根据本专利技术的一方面,提供了一种神经网络模型的加速方法,包括:

3、响应于神经网络模型的加速事件被触发,获取训练好的卷积神经网络模型;

4、针对所述卷积神经网络模型的每个二维卷积算子,将所述二维卷积算子拆分成至少两个一维卷积算子;其中,所述一维卷积算子的输入特征图的宽度与所述二维卷积算子的初始卷积核的宽度相同;

5、基于所述初始卷积核在所述输入特征图的高度方向进行滑动过程中,对每次滑动时的所述初始卷积核在高度维度上进行扩展,生成目标卷积核;

6、将所述目标卷积核展开为二维卷积核数据,并将所述二维卷积核数据及与所述二维卷积算子对应的偏置数据映射至存算阵列;

7、基于所述至少两个一维卷积算子及所述存算阵列对所述输入特征图进行处理。

8、根据本专利技术的另一方面,提供了一种神经网络模型的加速装置,包括:

9、神经网络模型获取模块,用于响应于神经网络模型的加速事件被触发,获取训练好的卷积神经网络模型;

10、二维卷积算子拆分模块,用于针对所述卷积神经网络模型的每个二维卷积算子,将所述二维卷积算子拆分成至少两个一维卷积算子;其中,所述一维卷积算子的输入特征图的宽度与所述二维卷积算子的初始卷积核的宽度相同;

11、卷积核扩展模块,用于基于所述初始卷积核在所述输入特征图的高度方向进行滑动过程中,对每次滑动时的所述初始卷积核在高度维度上进行扩展,生成目标卷积核;

12、卷积数据映射模块,用于将所述目标卷积核展开为二维卷积核数据,并将所述二维卷积核数据及与所述二维卷积算子对应的偏置数据映射至存算阵列;

13、特征图处理模块,用于基于所述至少两个一维卷积算子及所述存算阵列对所述输入特征图进行处理。

14、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:

15、至少一个处理器;以及

16、与所述至少一个处理器通信连接的存储器;其中,

17、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的神经网络模型的加速方法。

18、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的神经网络模型的加速方法。

19、本专利技术实施例的神经网络模型的加速方案,包括:响应于神经网络模型的加速事件被触发,获取训练好的卷积神经网络模型;针对所述卷积神经网络模型的每个二维卷积算子,将所述二维卷积算子拆分成至少两个一维卷积算子;其中,所述一维卷积算子的输入特征图的宽度与所述二维卷积算子的初始卷积核的宽度相同;基于所述初始卷积核在所述输入特征图的高度方向进行滑动过程中,对每次滑动时的所述初始卷积核在高度维度上进行扩展,生成目标卷积核;将所述目标卷积核展开为二维卷积核数据,并将所述二维卷积核数据及与所述二维卷积算子对应的偏置数据映射至存算阵列;基于所述至少两个一维卷积算子及所述存算阵列对所述输入特征图进行处理。通过本专利技术实施例提供的技术方案,在不额外引入太多内存开销的同时,可以有效提高卷积神经网络模型的计算性能,可以满足卷积神经网络模型在低功耗终端设备的应用场景的要求。

20、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种神经网络模型的加速方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述初始卷积核在所述输入特征图的高度方向进行滑动过程中,对每次滑动时的所述初始卷积核在高度维度上进行扩展,生成目标卷积核,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述初始卷积核在所述输入特征图的高度方向进行滑动过程中,根据所述高度方向卷积步长及所述多点并行度,对每次滑动时的所述初始卷积核在高度维度上进行扩展,生成目标卷积核,包括:

4.根据权利要求2所述的方法,其特征在于,所述目标卷积核在高度维度的尺寸为所述高度方向卷积步长及所述多点并行度减1的乘积与所述初始卷积核在高度维度的尺寸的和。

5.根据权利要求1所述的方法,其特征在于,所述一维卷积算子的数量与所述二维卷积算子的输出特征图的宽度相同。

6.根据权利要求1所述的方法,其特征在于,基于所述至少两个一维卷积算子及所述存算阵列对所述输入特征图进行处理,包括:

7.根据权利要求1所述的方法,其特征在于,在将所述二维卷积核数据及与所述二维卷积算子对应的偏置数据映射至存算阵列之后,还包括:

8.一种神经网络模型的加速装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的神经网络模型的加速方法。

...

【技术特征摘要】

1.一种神经网络模型的加速方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述初始卷积核在所述输入特征图的高度方向进行滑动过程中,对每次滑动时的所述初始卷积核在高度维度上进行扩展,生成目标卷积核,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述初始卷积核在所述输入特征图的高度方向进行滑动过程中,根据所述高度方向卷积步长及所述多点并行度,对每次滑动时的所述初始卷积核在高度维度上进行扩展,生成目标卷积核,包括:

4.根据权利要求2所述的方法,其特征在于,所述目标卷积核在高度维度的尺寸为所述高度方向卷积步长及所述多点并行度减1的乘积与所述初始卷积核在高度维度的尺寸的和。

5.根据权利要求...

【专利技术属性】
技术研发人员:肖照刘帅开付世航白天朔刘翰杰张爱飞
申请(专利权)人:杭州知存智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1