【技术实现步骤摘要】
一种在加速卡矩阵中进行数据矩阵的乘法运算的方法和设备
[0001]本公开涉及计算机领域,更具体地,涉及计算机通信领域。
技术介绍
[0002]目前,随着人工智能(AI,Artificial Intelligence)和机器学习(Machine Learning)的快速发展,未来对超高性能处理器的需求将越来越大,同时大数据时代对数据的处理提出更高的需求。高性能处理器及集群需要完成海量数据的实时处理,在规定的时间内完成复杂模型的训练和推理等。ASIC(Application Specific Integrated Circuit)是专用加速芯片,可以用于训练深度神经网络。ASIC可以在更短的时间内完成工作,比非并行处理超级计算机使用的数据中心基础架构少得多。
[0003]然而,面对海量的数据时,单个ASIC性能再强大也难免势单力薄,为了获得更强大的算力,常用的方案采用多个ASIC加速芯片。但是,对于多个ASIC互连构成的多卡网络而言,超高的数据吞吐量对于ASIC的数据传输带宽带来了重大的挑战。因此如何设计芯片之间的互联方 ...
【技术保护点】
【技术特征摘要】
1.一种在加速卡矩阵中进行数据矩阵的乘法运算的方法,其中,所述加速卡矩阵包括M个加速卡,所述M个加速卡在逻辑上形成为L*N规模的加速卡矩阵,L和N为不小于2的整数,并且相邻加速卡之间可通信地连接,所述数据矩阵包括第一数据矩阵和第二数据矩阵;所述方法包括:将第一数据矩阵拆分为多个第一子数据矩阵,并将所述多个第一子数据矩阵分别存放在所述多个加速卡中;将第二数据矩阵拆分为多个第二子数据矩阵,并将所述多个第二子数据矩阵分别存放在所述多个加速卡中;通过将所述第一子数据矩阵和第二子数据矩阵在所述加速卡矩阵中传递来进行数据矩阵的乘法运算。2.根据权利要求1所述的方法,其中,所述加速卡矩阵每行的加速卡首尾可通信地连接,并且所述加速卡矩阵每列的加速卡首尾可通信地连接。3.根据权利要求1或2所述的方法,其中,所述加速卡矩阵为正方形加速卡矩阵,所述正方形加速卡矩阵中的每个加速卡中存放有一个第一子数据矩阵和一个第二子数据矩阵。4.根据权利要求1
‑
3中任意一项所述的方法,其中,通过将所述第一子数据矩阵和第二子数据矩阵在所述加速卡矩阵中传递来进行数据矩阵的乘法运算包括:每传递一次,则在每个加速卡处,将存放的第一子数据矩阵和第二子数据矩阵进行乘法运算,以得到局部乘法结果;将多次传递得到的多个局部乘法结果相加以得到全局乘法结果。5.根据权利要求4所述的方法,其中,将存放的第一子数据矩阵和第二子数据矩阵进行乘法运算,以得到局部乘法结果包括:将每个第一子数据矩阵沿着行加速卡传递,以得到第一传递子数据矩阵;将每个第二子数据矩阵沿着列加速卡传递,以得到第二传递子数据矩阵;每传递一次,则在每个...
【专利技术属性】
技术研发人员:ꢀ七四专利代理机构,
申请(专利权)人:上海寒武纪信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。