【技术实现步骤摘要】
硬件加速器、处理器、芯片、及电子设备
[0001]本申请实施例涉及硬件加速
,尤其涉及一种硬件加速器
、
处理器
、
芯片
、
以及电子设备
。
技术介绍
[0002]卷积神经网络
CNN
是深度学习中最重要的算法之一,其因具有精度高
、
权值量少的特点而被广泛地应用于诸如自动驾驶
、
计算机视觉以及语音识别等领域
。
为了能够在终端更加高效的部署
CNN
,业界针对不同神经网络研发出了相应的神经网络硬件加速器
。
[0003]目前已有的神经网络硬件加速器多用于分类任务的
CNN
,其按照卷积层的层顺序进行
CNN
的处理
。
该种处理方式中,在层内对于特征数据和权重数据以不同的顺序加载到硬件加速器的内存中进行复用,通过片外内存完成一层的运算后,开启下一层的运算
。
[0004]然而,相较于用于分类任务的
CNN
,图像增强任务不会频繁地对于图像如特征图进行下采样,这就导致处理同样大小的输入图像数据时,图像增强任务的特征数据的数据量和运算量远远高于分类任务,由此产生的神经网络硬件加速器和片外内存频繁的数据交互导致了严重的计算延迟和处理功耗问题
。
技术实现思路
[0005]有鉴于此,本申请实施例提供一种硬件加速方案,以至少部分解决上述问题
。
...
【技术保护点】
【技术特征摘要】
1.
一种硬件加速器,包括:处理单元
PE
阵列
、
所述硬件加速器的内部缓存单元
、
和设置与所述
PE
阵列和所述内部缓存单元之间的数据调度器;其中,所述数据调度器用于:从所述内部缓存单元依次获取待进行处理的多个图像行,并调度所述
PE
阵列对所述多个图像行依次进行
MAC
运算处理,其中,相邻图像行之间存在重叠像素行,所述重叠像素行在其所属的相邻图像行均进行
MAC
运算处理;并且,在对各图像行进行
MAC
运算处理的过程中,调度所述
PE
阵列中对当前图像行进行处理的
PE
以切块为单位,对各图像行中包含的多个行切块进行
MAC
运算处理,其中,对于相邻的行切块,缓存前一行切块中与后一行切块重叠部分的运算结果,并结合后一行切块的非重叠部分的运算结果作为后一行切块的
MAC
运算处理结果
。2.
根据权利要求1所述的硬件加速器,其中,所述硬件加速器对接有外部全局缓存,以通过所述外部全局缓存获得按照光栅扫描顺序写入的所述多个图像行
。3.
根据权利要求2所述的硬件加速器,其中,所述数据调度器,还用于对已缓存入所述外部全局缓存中的图像行进行切分,以获得各图像行对应的多个行切块
。4.
根据权利要求1‑3任一项所述的硬件加速器,其中,所述内部缓存单元至少包括图像数据单元,所述图像数据单元用于以行切块为单位缓存图像行的行切换;所述从所述内部缓存单元依次获取待进行处理的多个图像行,包括:从所述图像数据单元中依次获取各图像行对应的行切块
。5.
根据权利要求4所述的硬件加速器,其中,所述内部缓存单元还包括重叠缓存单元;所述对于相邻的行切块,缓存前一行切块中与后一行切块重叠部分的运算结果,包括:根据卷积核的移动步长,确定相邻行切块的重叠部分;在通过所述
PE
对各行切块进行
MAC
运算处理时,将所述重叠部分的
MAC
运算结果缓存至所述重叠缓存单元
。6.
根据权利要求1‑3任一项所述的硬件加速器,其中,所述数据调度器,还用于在调度所述
PE
阵列对所述多个图像行依次进行
MAC
运算处理的同时,从所述内部缓存单元获取新缓存的图像行,所述新缓存的图像行与...
【专利技术属性】
技术研发人员:张灏,李思成,焦捷,徐淑淞,刘子豪,陆彦珩,范虎,刘涛,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。