使用稀疏性来加速深度学习网络的系统和方法技术方案

技术编号：37297692 阅读：13 留言：0更新日期：2023-04-21 22:44

公开了一种使用稀疏性来加速深度学习网络的系统和方法。所述方法包括：将位向量传达到调度器，所述位向量标识输入张量中的哪些值为非零；对于所述输入张量的每个通道，确定要为乘法累加(MAC)运算传达哪些值，所述确定包括指示以下项中的一者的执行：传达所述通道中的当前值；传达同一通道中的下一值，其中此值为非零；在时间上提前一步传达值，其中此值为非零；以及从相邻通道传达值，其中此值为非零；以及输出所述MAC运算的所述值。以及输出所述MAC运算的所述值。以及输出所述MAC运算的所述值。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用稀疏性来加速深度学习网络的系统和方法

[0001]以下总体上涉及深度学习网络，并且更具体地涉及一种用于使用稀疏性来加速深度学习网络的系统和方法。

技术介绍

[0002]以前，神经网络可在几个小时内在商用服务器上进行训练；然而，在现代，训练最好的神经网络已经成为百亿亿次级问题。现有技术的神经网络可能需要许多图形处理器或专用加速器，诸如张量处理单元(TPU)、Gaudi、DaVinci或Cerebras CS1，使得它们可在实际时间限制内进行训练。例如，经由超参数探索或更一般地经由网络架构搜索来调谐神经网络以在推断期间获得最佳性能或准确性进一步增加了训练成本。除了获取或访问此类昂贵的计算资源的成本之外，还有运营成本和训练的环境影响。在某些应用程序中可能需要在“边缘”处训练神经网络，例如，以用用户特定的信息和输入来改进现有模型。虽然边缘装置的权衡与数据中心或台式机的权衡不同，但需求仍然相同：在特定约束下减少执行时间并提高能量效率。

技术实现思路

[0003]在一方面，提供了一种用于针对处理元件使用稀疏性来加速深度学习网络的方法，所述方法包括：从多个输入流中的每一者接收输入张量并进行存储；将位向量传达到调度器，所述位向量标识所述输入张量中的哪些值为非零；对于所述输入张量的每个通道，确定要为乘法累加(MAC)运算传达哪些值，所述确定包括指示以下项中的一者的执行：传达所述通道中的当前值；传达同一通道中的下一值，其中此值为非零；在时间上提前一步传达值，其中此值为非零；以及从相邻通道传达值，其中此值为非零；传达用...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于针对处理元件使用稀疏性来加速深度学习网络的方法，所述方法包括：从多个输入流中的每一者接收输入张量并进行存储；将位向量传达到调度器，所述位向量标识所述输入张量中的哪些值为非零；对于所述输入张量的每个通道，确定要为乘法累加(MAC)运算传达哪些值，所述确定包括指示以下项中的一者的执行：传达所述通道中的当前值；传达同一通道中的下一值，其中此值为非零；在时间上提前一步传达值，其中此值为非零；以及从相邻通道传达值，其中此值为非零；传达用于MAC运算的有向值；以及输出所述MAC运算的所述值。2.如权利要求1所述的方法，其中所述处理元件与多个其他处理元件被分块在一起，并且从所述多个输入流中的每一者接收所述输入张量并进行存储包括沿着所述输入流的同一行的处理元件共享输入并且沿着所述输入流的同一列的处理元件共享输入。3.如权利要求2所述的方法，其中所述多个处理单元中的每个处理单元使用单独的调度器。4.如权利要求1所述的方法，其中沿着所述同一行的每个处理单元使用公共调度器。5.如权利要求1所述的方法，其中所述通道被视为布置成环，其中所述通道中的最后通道与所述通道中的第一通道相邻。6.如权利要求1所述的方法，其中从所述相邻通道传达所述值包括在时间上提前一步从相邻通道传达值，其中此值为非零。7.如权利要求1所述的方法，其中从所述多个输入流中的每一者接收所述输入张量并进行存储包括将所述输入流中的每一者存储在相应的暂存缓冲区中。8.如权利要求7所述的方法，其中所述暂存缓冲区包括所述输入流的当前步和时间上提前的一个或多个步。9.如权利要求1所述的方法，其中所述调度器使用分级优先级方案。10.如权利要求9所述的方法，其中所述分级优先级方案包括密集调度、接着是在时间上不断提前的多个步，并且接着是在时间上不断提前的相邻通道的多个步。11.一种使用稀疏性来加速深度学习网络的系统，所述系统包括一个或多个处理单元，所述一个或多个处理单元与数据存储器通信以用于执行处理元件(PE)，每...

【专利技术属性】
技术研发人员：M，
申请(专利权)人：多伦多大学管理委员会，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人