【技术实现步骤摘要】
本专利技术涉及硬件加速器,尤其涉及一种用于多模态卷积与矩阵的并行计算方法、用于多模态卷积与矩阵的并行计算装置及硬件加速系统。
技术介绍
1、当前,卷积神经网络(cnn)在图像识别、自然语言处理等领域广泛应用,其核心计算单元即卷积运算的性能优化成为硬件加速器设计的关键。现有技术中,多数硬件加速器采用传统的ks×ks卷积滑动窗口设计,通过多次滑动遍历输入特征图以完成卷积操作。例如基于脉动阵列或固定尺寸的并行计算单元实现卷积加速,但受限于硬件架构的灵活性,仅能高效处理特定尺寸的卷积核(如3×3)。此外通用加速架构为支持多尺寸卷积核引入了额外的资源开销,导致dsp和bram效率显著降低。
2、因此,现有技术的硬件加速器主要存在以下缺陷:
3、(1)高数据重复读取:传统ks×ks滑动窗口需多次重复读取特征图数据,导致存储带宽压力大、能耗增加。如3×3卷积中单个特征向量可能被重复读取9次,显著降低计算效率;
4、(2)资源利用率低:现有设计未能原生支持1×1卷积与矩阵运算,需将小尺寸卷积映射至大尺寸硬件单元,造成
...【技术保护点】
1.一种用于多模态卷积与矩阵的并行计算方法,其特征在于,包括:
2.根据权利要求1所述的用于多模态卷积与矩阵的并行计算方法,其特征在于,当ks大于1时,则将当前时钟周期卷积运算结果存储为中间缓存,并根据中间缓存的卷积运算结果进行累加计算后输出累加计算结果以作为当前时钟周期的最终卷积运算结果,包括:
3.根据权利要求2所述的用于多模态卷积与矩阵的并行计算方法,其特征在于,若当前时钟周期之前所述中间结果缓存单元的存储已满,则将当前时钟周期的卷积运算结果覆盖前ks-1时钟周期卷积运算结果。
4.一种用于多模态卷积与矩阵的并行计算装置,用于
...【技术特征摘要】
1.一种用于多模态卷积与矩阵的并行计算方法,其特征在于,包括:
2.根据权利要求1所述的用于多模态卷积与矩阵的并行计算方法,其特征在于,当ks大于1时,则将当前时钟周期卷积运算结果存储为中间缓存,并根据中间缓存的卷积运算结果进行累加计算后输出累加计算结果以作为当前时钟周期的最终卷积运算结果,包括:
3.根据权利要求2所述的用于多模态卷积与矩阵的并行计算方法,其特征在于,若当前时钟周期之前所述中间结果缓存单元的存储已满,则将当前时钟周期的卷积运算结果覆盖前ks-1时钟周期卷积运算结果。
4.一种用于多模态卷积与矩阵的并行计算装置,用于实现权利要求1至3中任意一项所述的用于多模态卷积与矩阵的并行计算方法,其特征在于,包括:
5.根据权利要求4所述的用于多模态卷积与矩阵的并行计算装置,其特征在于,所述并行计算模块包括:乘法单元和多级累加缓存单元,所述乘法单元与所述多级累加缓存单元电连接,
6.根据权利要求5所述的用于多模态卷积与矩阵的并行计算装置,其特征在于,所述乘法单元包括多个乘法器,所述乘法器的数量与片上权重缓存的数量相同,每个乘法器内均包括多个乘法计算子单元,每个乘法器内所述乘法计算子单元的数量与每个片上权重缓存中的权重向量的数量相同,每个乘法计算子单元的输入端分别连接片上权重缓存和片上特征缓存,每个乘法计算子单元的输出端均连接所述多级累加缓存单元的输入端,每个乘法计算子单元用于根据一个权重向量和一个特征向量进行乘法与预加计...
【专利技术属性】
技术研发人员:孙俊,闫彪,李超,
申请(专利权)人:匀熵智能科技无锡有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。