通道引导的嵌套循环变换和标量替换制造技术

技术编号:40878175 阅读:19 留言:0更新日期:2024-04-08 16:48
一种方法接收包括一个或多个嵌套循环的第一程序代码。针对(诸)嵌套循环确定循环顺序。所确定的循环顺序对齐输入数据布局和输出数据布局。基于循环顺序变换(诸)嵌套循环。基于经变换的(诸)嵌套循环来生成第二程序代码。

【技术实现步骤摘要】
【国外来华专利技术】

领域本公开的各方面一般涉及卷积计算的处理。
技术介绍
人工神经网络可包括互连的人工神经元群(例如,神经元模型)。人工神经网络可以是计算设备或表示为要由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(cnn)(诸如深度卷积神经网络(dcnn))具有众多应用。具体而言,这些神经网络架构被用于各种技术,诸如图像识别、模式识别、语音识别、自动驾驶和其他分类任务。深度神经网络已极大地提高了流送数据(例如,图像、视频、惯性测量单元(imu)数据、雷达和wifi)分类性能。期望将此类网络与物联网(iot)设备、智能手机、或流送数据的其他低功率设备结合起来。遗憾的是,由于所涉及的计算量,分类所消耗的大量资源使得在实时、能量密集型应用上利用深度神经网络具有挑战性。


技术介绍


技术实现思路

0、概述

1、本公开在独立权利要求中分别阐述。本公开的一些方面在从属权利要求中描述。

2、在本公开的一方面,提供了一种方法。该方法包本文档来自技高网...

【技术保护点】

1.一种方法,包括:

2.如权利要求1所述的方法,进一步包括:展开所述一个或多个嵌套循环中的至少一个循环。

3.如权利要求2所述的方法,其中所述至少一个循环包括输出循环。

4.如权利要求1所述的方法,进一步包括:将用于从存储器单元检索用于计算输入通道中的输出特征的一个或多个阵列元素的值的至少一条指令替换为用于将与所述一个或多个阵列元素的值相对应的标量值存储在本地寄存器中的指令。

5.如权利要求1所述的方法,进一步包括:将用于把用于计算输出通道中的输出特征的一个或多个阵列元素的值写入存储器单元的至少一条指令替换为用于将与所述值相对应的值存储在...

【技术特征摘要】
【国外来华专利技术】

1.一种方法,包括:

2.如权利要求1所述的方法,进一步包括:展开所述一个或多个嵌套循环中的至少一个循环。

3.如权利要求2所述的方法,其中所述至少一个循环包括输出循环。

4.如权利要求1所述的方法,进一步包括:将用于从存储器单元检索用于计算输入通道中的输出特征的一个或多个阵列元素的值的至少一条指令替换为用于将与所述一个或多个阵列元素的值相对应的标量值存储在本地寄存器中的指令。

5.如权利要求1所述的方法,进一步包括:将用于把用于计算输出通道中的输出特征的一个或多个阵列元素的值写入存储器单元的至少一条指令替换为用于将与所述值相对应的值存储在本地寄存器中的指令。

6.如权利要求1所述的方法,其中所述第一程序代码被配置成将输入特征图阵列与内核阵列卷积以产生输出特征图阵列。

7.如权利要求6所述的方法,其中所述第二程序代码被配置成实现用于读取所述输入特征图阵列和写入所述输出特征图阵列的步幅-1引用模式。

8.一种装置,包括:

9.如权利要求8所述的装置,其中所述至少一个处理器被进一步配置成:展开所述一个或多个嵌套循环中的至少一个循环。

10.如权利要求9所述的装置,其中所述至少一个循环包括输出循环。

11.如权利要求8所述的装置,其中所述至少一个处理器被进一步配置成:将用于从存储器单元检索用于计算输入通道中的输出特征的一个或多个阵列元素的值的至少一条指令替换为用于将与所述一个或多个阵列元素的值相对应的标量值存储在本地寄存器中的指令。

12.如权利要求8所述的装置,其中所述至少一个处理器被进一步配置成:将用于把用于计算输出通道中的输出特征的一个或多个阵列元素的值写入存储器单元的至少一条指令替换为用于将与所述值相对应的值存储在本地寄存器中的指令。

13.如权利要求8所述的装置,其中所述第一程序代码被配置成将输入特征图阵列与内核阵列卷积以产生输出特征图阵列。

14.如权利要求13所述的装置,其中所述第二程序代码被配置成实现用于读取所述输入特征图阵列和写入所述输出特征图阵列的步幅-1引用模式。

15.一种设备,包括:

16.如权利要求15所述的设备,进一步包括:用于展开所...

【专利技术属性】
技术研发人员:赵海军
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1