【技术实现步骤摘要】
【国外来华专利技术】低功率卷积神经网络推理应用程序的存储器带宽减少技术
技术介绍
相关技术描述一种新兴
是机器学习,其中卷积神经网络是一种类型的机器学习模型。卷积神经网络在诸如手写数字分类和面部检测的任务方面表现出优异的性能。另外,卷积神经网络还显示出在其他的更具挑战性的视觉分类任务中表现良好的潜力。机器学习模型利用显著量的处理资源和外部存储器带宽。因此,期望用于改进机器学习模型的性能和/或减少其存储器带宽利用的技术。附图说明通过结合附图参考以下描述,可更好地理解本文所述的方法和机制的优点,在附图中:图1是计算系统的一个实施方案的框图。图2是计算系统的另一个实施方案的框图。图3是神经网络的实现方式的一个实施方案的框图。图4是推理引擎的一个实施方案的框图。图5是推理引擎的另一个实施方案的框图。图6是将信道数据分区成3D块的一个实施方案的框图。图7是推理引擎的另一个实施方案的框图。图8是使用竖直顺序处理存储器块以减少神经网络实现中的外部存储器带宽利用的一个实施方案的框图 ...
【技术保护点】
1.一种系统,其包括:/n处理单元;以及/n外部存储器,所述外部存储器联接到所述处理单元;/n其中所述系统被配置来:/n检测对来自多个信道的输入数据实施卷积操作的请求;/n响应于检测到所述请求:/n针对第一多个信道针对一个或多个特征生成卷积输出数据;以及/n在将卷积输出数据写入到所述外部存储器之前跨所述第一多个信道将所述卷积输出数据加在一起。/n
【技术特征摘要】
【国外来华专利技术】20171114 US 15/812,3361.一种系统,其包括:
处理单元;以及
外部存储器,所述外部存储器联接到所述处理单元;
其中所述系统被配置来:
检测对来自多个信道的输入数据实施卷积操作的请求;
响应于检测到所述请求:
针对第一多个信道针对一个或多个特征生成卷积输出数据;以及
在将卷积输出数据写入到所述外部存储器之前跨所述第一多个信道将所述卷积输出数据加在一起。
2.如权利要求1所述的系统,其中所述处理单元包括内部存储器,并且其中所述处理单元进一步被配置来响应于检测到所述请求,将来自所述第一多个信道的所述输入数据从所述外部存储器加载到所述内部存储器中。
3.如权利要求2所述的系统,其中所述系统进一步被配置来将来自所述多个信道的所述输入数据分区成N维块,之后将来自所述第一多个信道的数据的第一N维块从所述外部存储器加载到所述内部存储器中,其中N是大于一的正整数。
4.如权利要求3所述的系统,其中N是三,并且其中在处理所述第一三维块之后,所述系统被配置来在竖直方向上从顶部向底部且然后从左向右处理来自所述输入数据的随后的三维块。
5.如权利要求3所述的系统,其中N是三,并且其中所述系统进一步被配置来确定如何将来自所述多个信道的所述输入数据分区成三维块,以便使针对所述卷积操作的所述外部存储器带宽利用最小化。
6.如权利要求5所述的系统,其中所述系统进一步被配置来确定如何基于所述内部存储器的大小、所述一个或多个特征的大小以及所述卷积操作的大小将来自所述多个信道的所述输入数据分区成三维块。
7.如权利要求1所述的系统,其中所述卷积操作对应于卷积层,其中所述卷积层是正在所述系统上实现的神经网络的多个层中的一个。
8.一种方法,其包括:
检测对来自多个信道的输入数据实施卷积操作的请求;
响应于检测到所述请求:
针对第一多个信道针对一个或多个特征生成卷积输出数据;以及
在将卷积输出数据写入到所述外部存储器之前跨所述第一多个信道将所述卷积输出数据加在一起。
9.如权利要求8所述的方法,其还包括:响应于检测到所述请求,将来自所述第一多个信道的所述输入数据从所述外部存储器加载到所述内部存储器中。
10.如权利要求9所述的方法,其还包括:将来自所述多个信道的所述输入数据分区成N维块,之后将来自所述第一多个信道的数据的第一N维块从所述外部存储器加...
【专利技术属性】
技术研发人员:赛提什·拉古杜,张磊,艾伦·拉什,
申请(专利权)人:超威半导体公司,ATI科技无限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。