【技术实现步骤摘要】
【国外来华专利技术】
领域本公开的各方面一般涉及卷积计算的处理。
技术介绍
人工神经网络可包括互连的人工神经元群(例如,神经元模型)。人工神经网络可以是计算设备或表示为要由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(cnn)(诸如深度卷积神经网络(dcnn))具有众多应用。具体而言,这些神经网络架构被用于各种技术,诸如图像识别、模式识别、语音识别、自动驾驶和其他分类任务。深度神经网络已极大地提高了流送数据(例如,图像、视频、惯性测量单元(imu)数据、雷达和wifi)分类性能。期望将此类网络与物联网(iot)设备、智能手机、或流送数据的其他低功率设备结合起来。遗憾的是,由于所涉及的计算量,分类所消耗的大量资源使得在实时、能量密集型应用上利用深度神经网络具有挑战性。
技术介绍
技术实现思路
0、概述
1、本公开在独立权利要求中分别阐述。本公开的一些方面在从属权利要求中描述。
2、在本公开的一方面,提供
...【技术保护点】
1.一种方法,包括:
2.如权利要求1所述的方法,进一步包括:展开所述一个或多个嵌套循环中的至少一个循环。
3.如权利要求2所述的方法,其中所述至少一个循环包括输出循环。
4.如权利要求1所述的方法,进一步包括:将用于从存储器单元检索用于计算输入通道中的输出特征的一个或多个阵列元素的值的至少一条指令替换为用于将与所述一个或多个阵列元素的值相对应的标量值存储在本地寄存器中的指令。
5.如权利要求1所述的方法,进一步包括:将用于把用于计算输出通道中的输出特征的一个或多个阵列元素的值写入存储器单元的至少一条指令替换为用于将与所
...【技术特征摘要】
【国外来华专利技术】
1.一种方法,包括:
2.如权利要求1所述的方法,进一步包括:展开所述一个或多个嵌套循环中的至少一个循环。
3.如权利要求2所述的方法,其中所述至少一个循环包括输出循环。
4.如权利要求1所述的方法,进一步包括:将用于从存储器单元检索用于计算输入通道中的输出特征的一个或多个阵列元素的值的至少一条指令替换为用于将与所述一个或多个阵列元素的值相对应的标量值存储在本地寄存器中的指令。
5.如权利要求1所述的方法,进一步包括:将用于把用于计算输出通道中的输出特征的一个或多个阵列元素的值写入存储器单元的至少一条指令替换为用于将与所述值相对应的值存储在本地寄存器中的指令。
6.如权利要求1所述的方法,其中所述第一程序代码被配置成将输入特征图阵列与内核阵列卷积以产生输出特征图阵列。
7.如权利要求6所述的方法,其中所述第二程序代码被配置成实现用于读取所述输入特征图阵列和写入所述输出特征图阵列的步幅-1引用模式。
8.一种装置,包括:
9.如权利要求8所述的装置,其中所述至少一个处理器被进一步配置成:展开所述一个或多个嵌套循环中的至少一个循环。
10.如权利要求9所述的装置,其中所述至少一个循环包括输出循环。
11.如权利要求8所述的装置,其中所述至少一个处理器被进一步配置成:将用于从存储器单元检索用于计算输入通道中的输出特征的一个或多个阵列元素的值的至少一条指令替换为用于将与所述一个或多个阵列元素的值相对应的标量值存储在本地寄存器中的指令。
12.如权利要求8所述的装置,其中所述至少一个处理器被进一步配置成:将用于把用于计算输出通道中的输出特征的一个或多个阵列元素的值写入存储器单元的至少一条指令替换为用于将与所述值相对应的值存储在本地寄存器中的指令。
13.如权利要求8所述的装置,其中所述第一程序代码被配置成将输入特征图阵列与内核阵列卷积以产生输出特征图阵列。
14.如权利要求13所述的装置,其中所述第二程序代码被配置成实现用于读取所述输入特征图阵列和写入所述输出特征图阵列的步幅-1引用模式。
15.一种设备,包括:
16.如权利要求15所述的设备,进一步包括:用于展开所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。