用于提高卷积效率的方法、系统和装置制造方法及图纸

技术编号：24105688 阅读：31 留言：0更新日期：2020-05-09 16:52

公开了用于提高卷积神经网络(CNN)加速器的卷积效率的方法、装置、系统和制品。示例装置包括：数据处理元件(DPE)库存引擎，其用于识别被包括在DPE阵列中的平台可用的DPE；模式选择器，其用于确定DPE中的所识别的DPE的卷积布置；DPE配置优化器，其用于基于DPE中的所识别的DPE来确定DPE利用率；以及卷积引擎，其用于当DPE利用率满足DPE利用率门限时，使用所识别的DPE来促进卷积运算。

Methods, systems and devices for improving convolution efficiency

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于提高卷积效率的方法、系统和装置相关申请该专利始自要求享有于2017年5月19日提交的序列号为62/508,896的美国临时专利申请的利益的申请。序列号为62/508,896的美国临时专利申请特此通过引用方式全部并入本文。特此要求享有序列号为62/508,896的美国临时专利申请的优先权。
概括而言，本公开涉及图像处理，并且更具体而言，涉及用于提高卷积效率的方法、系统和装置。
技术介绍
近年来，对图像处理能力的需求已经超出大功率专用桌上型硬件的范围，并且已经成为个人和/或其它移动设备的期望。移动设备通常包括受尺寸约束、温度管理约束和/或电源约束所限制的处理能力。附图说明图1示出了使用卷积的示例输入体积和示例输出体积的示例卷积运算。图2示出了基于“每个输出位置”的示例多通道卷积运算。图3示出了示例池化操作的示意图。图4示出了示例全连接操作的示意图。图5示出了示例卷积神经网络(CNN)加速器的框图。图6示出了示例数据路径元件(DPE)。图7是示例系数存储库的图示。图8是描述用于示例系数存储的示例寻址模型的示例表。图9是描述基于非FP16格式的示例系数存储库的示例寻址模型的示例表。图10示出了用于实现本文公开的示例的示例卷积运算。图11示出了基于示例1*256卷积布置的示例连接复用器的示例操作。图12示出了基于示例2*128卷积布置的示例连接复用器的示例操作。图13是用于实现图5的示例C...

【技术保护点】
1.一种用于提高卷积效率的装置，所述装置包括：/n数据处理元件(DPE)库存引擎，其用于识别被包括在DPE阵列中的平台可用的DPE；/n模式选择器，其用于确定所述DPE中的所识别的DPE的卷积布置；/nDPE配置优化器，其用于基于所述DPE中的所识别的DPE来确定DPE利用率；以及/n卷积引擎，其用于当所述DPE利用率满足DPE利用率门限时，使用所述DPE中的所识别的DPE来促进卷积运算。/n

【技术特征摘要】
【国外来华专利技术】20170519 US 62/508,8961.一种用于提高卷积效率的装置，所述装置包括：
数据处理元件(DPE)库存引擎，其用于识别被包括在DPE阵列中的平台可用的DPE；
模式选择器，其用于确定所述DPE中的所识别的DPE的卷积布置；
DPE配置优化器，其用于基于所述DPE中的所识别的DPE来确定DPE利用率；以及
卷积引擎，其用于当所述DPE利用率满足DPE利用率门限时，使用所述DPE中的所识别的DPE来促进卷积运算。

2.根据权利要求1所述的装置，其中，所述卷积引擎用于：
将(a)输入通道的输入位置的激活值与(b)对应于所述输入位置的滤波器系数相乘以生成卷积输出；以及
计算所述卷积输出的总和，以生成输出通道的输出位置。

3.根据权利要求2所述的装置，其中，所述输出位置是第一输出位置，并且所述卷积引擎用于：
计算包括包含所述第一输出位置在内的输出位置的池区域；以及
计算所述池区域的平均值或最大值中的至少一个。

4.根据权利要求3所述的装置，其中，所述卷积引擎用于对所述池区域的至少一个平均值或最大值执行偏置操作、缩放操作、参数整流器线性单元操作或整流器线性单元操作中的至少一个。

5.根据权利要求1所述的装置，其中，所述卷积布置是第一卷积布置，并且所述DPE利用率是第一DPE利用率，并且所述DPE配置优化器用于：
比较所述第一DPE利用率和所述DPE利用率门限；
当所述第一DPE利用率不满足所述DPE利用率门限时，阻止对所述卷积运算的所述促进；
将与第二卷积布置相关联的第二DPE利用率和所述DPE利用率门限进行比较；以及
所述卷积引擎用于基于所述比较，当所述第二DPE利用率满足所述DPE利用率门限时，使用所述第二卷积布置来促进所述卷积运算。

6.根据权利要求1所述的装置，其中，所述DPE阵列包括256个DPE。

7.根据权利要求1所述的装置，其中，所述卷积布置是1*256、2*128、4*64、8*32或16*16卷积布置中的至少一个。

8.根据权利要求1所述的装置，其中，所述卷积引擎使用所述DPE中的所识别的DPE来实质上并行地促进所述卷积运算。

9.根据权利要求1所述的装置，其中，所述卷积引擎通过调整累加器的整数比特数以修改所述累加器的范围或调整所述累加器的小数比特数以修改所述累加器的精度中的至少一个来促进所述卷积运算。

10.一种非暂时性计算机可读存储介质，其包括指令，所述指令当被执行时使机器至少执行：
识别被包括在数据处理元件(DPE)阵列中的平台可用的DPE；
确定所述DPE中的所识别的DPE的卷积布置；
基于所述DPE中的所识别的DPE来确定DPE利用率；以及
当所述DPE利用率满足DPE利用率门限时，使用所述DPE中的所识别的DPE来促进卷积运算。

11.根据权利要求10所述的非暂时性计算机可读存储介质，其还包括指令，所述指令当被执行时使所述机器至少执行：
将(a)输入通道的输入位置的激活值与(b)对应于所述输入位置的滤波器系数相乘以生成卷积输出；以及
计算所述卷积输出的总和，以生成输出通道的输出位置。

12.根据权利要求11所述的非暂时性计算机可读存储介质，其中，所述输出位置是第一输出位置，并且所述非暂时性计算机可读存储介质还包括指令，所述指令当被执行时使所述机器至少执行：
计算包括包含所述第一输出位置在内的输出位置的池区域；以及
计算所述池区域的平均值或最大值中的至少一个。

13.根据权利要求12所述的非暂时性计算机可读存储介质，还包括指令，所述指令当被执行时，使所述机器至少对所述池区域的至少一个平均值或最大值执行偏置操作、缩放操作、参数整流器线性单元操作或整流器线性单元操作中的至少一个。

14.根据权利要求10所述的非暂时性计算机可读存储介质，其中，所述卷积布置是第一卷积布置，并且所述DPE利用率是第一DPE利用率，并且所述非暂时性计算机可读存储介质还包括指令，所述指令当被执行时使所述机器至少执行：
比较所述第一DPE利用率和所述DPE利用率门限；
当所述第一DPE利用率不满足所述DPE利用率门限时，阻止对所述卷积运算的所述促进；
将与第二卷积布置相关联的第二DPE利用率和所述DPE利用率门限进行比较；以及
基于所述比较，当所述第二DPE利用率满足所述DPE利用率门限时，使用所述第二卷积布置来促进所述卷积运算。

15.根据权利要求10所述的非暂时性计算机可读存储介质，其中，所述DPE阵列包括256个DPE。

16.根据权利要求10所述的非暂时性计算机可读存储介质，其中，所述卷积布置是1*256、2*128、4*64、8*32或16*16卷积布置中的至少一个。

17.根据权利要求10所述的非暂时性计算机可读存储介质，其中，所述DPE中的所识...

【专利技术属性】
技术研发人员：S·鲍尔，D·莫洛尼，B·巴里，F·康纳，
申请(专利权)人：莫维迪乌斯有限公司，
类型：发明
国别省市：爱尔兰;IE

全部详细技术资料下载我是这个专利的主人