一种提升输入层输出16通道的硬件利用率方法技术

技术编号:43984943 阅读:14 留言:0更新日期:2025-01-10 20:08
本发明专利技术提供一种提升输入层输出16通道的硬件利用率方法,包括:S1,结合NNA的MAC运算和输入层输入特征feature只有4个通道的特性,将输出feature宽度ow上相邻两个点的两两结合,把结合的两个输出点对应的输入点进行重排;S2,在对重排后的输入点进行MAC计算,那么对于每一个输出feature的行则有:当前输出行的第0个MAC计算得到的第0个输出点的32个输出通道中前面16输出通道为当前输出feature行的第0个点,后面16输出通道对应当前输出feature行的第1个点;同理,当前输出行的第X个MAC计算得到的第0个输出点的32个输出通道中前面16输出通道为当前输出feature行的第2*X个点,后面16输出通道对应当前输出feature行的第2*X+1个点;其中:X=ow/N,N为每个MAC固定计算得出输出点的列数目。

【技术实现步骤摘要】

本专利技术属于神经网络处理,特别涉及一种提升输入层输出16通道的硬件利用率方法


技术介绍

1、在现有技术中,nna全称neural networks accelerate,在cpu的simd的pipeline上的硬件加速器,操作由特殊的cpu/simd指令控制,在一个线程上运行,用以解决绝大部分的卷积乘加。由于nna本身仅需要配置相关的参数(卷积核大小、输入分辨率、输入通道数等),nna即可自行地进行相关的卷积计算。且nna以mac为基本的计算单元,而每个mac可以方便的计算出1个输出点32通道的卷积结果。

2、在输入层输出通道为16的时候,采取简单的把输出通道填充为32通道,通过这种方式来时快速的使用nna来实现卷积。

3、然而,由于nna的计算单元为1个mac,而每个mac可以方便的计算出1个输出点32通道的卷积结果。那么,上述的方案,简单地把16输出通道填充为32通道。在这种方案下,每个mac的输出点的有效的计算结果只有前16个通道,后16个通道均为无效值,从而产生冗余。

4、此外,现有技术中的常用术语包括:...

【技术保护点】

1.一种提升输入层输出16通道的硬件利用率方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种提升输入层输出16通道的硬件利用率方法,其特征在于,所述NNA的MAC运算的特性中,

3.根据权利要求2所述的一种提升输入层输出16通道的硬件利用率方法,其特征在于,

4.根据权利要求1所述的一种提升输入层输出16通道的硬件利用率方法,其特征在于,所述重排:是把当前输出点对应的KH*KW*IC个输入点按照先通道,宽,高的优先顺序进行重新排列为形状为1*1*P的数据;

【技术特征摘要】

1.一种提升输入层输出16通道的硬件利用率方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种提升输入层输出16通道的硬件利用率方法,其特征在于,所述nna的mac运算的特性中,

3.根据权利要求2所述的一种提升输入...

【专利技术属性】
技术研发人员:李岩王荔枝
申请(专利权)人:合肥君正科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1