多核AI加速处理器的数据处理方法及结构技术

技术编号:36840170 阅读:38 留言:0更新日期:2023-03-15 15:30
本发明专利技术的多核AI加速处理器的数据处理方法及结构,其中,多核AI加速处理器具有多个核心,每个核心具有片上高速缓存;核心之间设有核心总线,各个核心分别接入核心总线;核心之间数据传递方式为RMA广播通信,数据时,先获取输入数据,包括输入特征、输入权重;对输入特征或输入权重择一设置共享标记作为共享数据;依据核心数量将共享数据拆分成多个共享数据块,将共享数据分给AI处理器的多个核心,每个核心从主存中获取共享数据块并广播给所有核心。本发明专利技术的方法,在多个核心间设置通信装置,通过RMA广播的核间通信方式,使得不同核心共享的数据可以分布式存放在不同核心的高速缓存中,进行计算时,再从各核获取共享数据。再从各核获取共享数据。再从各核获取共享数据。

【技术实现步骤摘要】
多核AI加速处理器的数据处理方法及结构


[0001]本专利技术涉及一种处理器的数据处理方法,特别涉及一种多核AI加速处理器的数据处理方法及结构。

技术介绍

[0002]近年来,深度学习飞速发展,模型逐渐增大,对计算性能的要求越来越高。因此,开发高性能、高效率的计算算子,成为技术创新的热点。深度学习算子优化,需要针对具体硬件体系结构设计,结合软件优化方法,将算子的计算需求与硬件相匹配,才能达到较高的计算效率。
[0003]为了在获得高计算性能的情况下减少功耗,当前的AI加速处理器多采用多核设计。多个计算核心并行的处理数据,其算子的设计方法,根据划分的数据分为两类,以卷积计算为例,图1展示了以下两类方法:
[0004]1.对输入特征图进行数据划分,如图1a所示。该类方法将输入特征图片平均划分到多个核心处理,每个核心都需要读取整个输入权重。该类方法适用于输入权重比较小,输入特征图比较大的情况。
[0005]2.对输入权重进行数据划分,如图1b所示。该类方法将输入权重平均划分到多个核心处理,每个核心都需要读取整个输入特征图。该类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多核AI加速处理器的数据处理方法,其特征在于,多核AI加速处理器具有多个核心,每个核心具有用户手动代码控制的片上高速缓存;核心之间设有核心总线,各个核心分别接入核心总线;核心之间数据传递方式为RMA广播通信,数据处理依序包括如下步骤:S1、获取输入数据,所述输入数据包括:输入特征、输入权重;S2、对输入特征或输入权重择一设置共享标记,作为共享数据;S3、依据多核AI加速处理器的核心数量,将输入特征/输入权重拆分成多个输入特征块/输入权重块,将共享数据拆分成多个共享数据块,并对共享数据块编序;S4、将共享数据根据编号均分给AI处理器的多个核心,每个核心根据分配的数据块编号分别获取相应的共享数据块,并存储至高速缓存中;S5、每轮计算开始时,每个核心从主存中获取计算需要的输入特征块/输入权重块,持有本轮计算所需共享数据块编号的核心将共享数据块通过RMA的方式广播给所有的核心,然后进行计算;计算完成后,另一核心再将共享数据块广播到所有核心中,所有的核心在获得共享数据块之后,再次进行计算;直至所有共享数据块均完成广播和计算,输出部分计算结果;S6、每个核心计算下一轮计算所需的输入特征块/输入权重块,以及共享数据块编号,重复S5过程;直至遍历完成所有的输入特征块/输入权重块。2.如权利要求1所述的多核AI加速处理器的数据处理方法,其特征在于,步骤S2中,如果输入特征大于输入权重,则对输入权重设置共享标记;如果输入特征小于输入权重,则对输入特征设置共享标记。3.如权利要求1所述的多核AI加速处理器的数据处理方法,其特征在于,步骤S3中,共享数据是平均拆分成多个共享数据块。4.如权利要求3所述的多核AI加速处理器的数据处理方法,其特征在于,步骤S3中,共享数据拆分的数量与多核AI加速处理器的核心数量相等。5.一种多核AI加速处理器的数据处理方法,其特征在于,多核AI加速处理器具有多个核心,每个核心具有用户手动代码控制的片上高速缓存;核...

【专利技术属性】
技术研发人员:高伟叶楠徐旎林闫夏超王伟琪
申请(专利权)人:太初无锡电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1