张量控制器架构制造技术

技术编号：39315157 阅读：4 留言：0更新日期：2023-11-12 15:58

一种机器学习加速器系统，包括：多个控制器，每个控制器被配置为根据如下的多个指令对具有n个维度的特征图进行遍历：所述多个指令为n个维度中的每个维度指定相应的遍历大小，其中，每个控制器包括：计数器堆栈，该计数器堆栈包括多个计数器，每个计数器均与特征图的n个维度中的相应维度相关联，其中，每个计数器被配置为将相应计数从相应的初始值递增到相应维度相关联的相应的遍历大小，所述相应维度与该计数器相关联；多个地址生成器，每个地址生成器被配置为使用多个计数器的相应计数，来生成存储特征图的一部分的至少一个存储器地址；以及依赖控制器计算模块，该依赖控制器计算模块被配置为：(1)对使多个计数器递增的多个条件状态进行追踪，以及(2)基于该多个条件状态，允许或不允许使多个计数器中的每个计数器递增。器递增。器递增。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】张量控制器架构

[0001]本公开总体上涉及用于机器学习模型的加速器，并且更具体地，涉及与机器学习加速器联用的存储器地址生成。

技术介绍

[0002]神经网络被越来越多地用来实现机器学习(machine learning，ML)技术，以解决多种多样的问题，这些问题包括但不限于对象识别、特征分类、或者内容驱动的图像处理。可以被称为卷积神经网络的一些神经网络包括一个或多个卷积层。在卷积神经网络(convolutional neural network，CNN)中，卷积层通常负责在CNN内的、和/或CNN与ML模型的其它元素之间的绝大多数被执行的计算和数据移动，这使得卷积层成为性能瓶颈。因此，现有的ML加速器专注于在整个存储器层次结构中，使用高计算并行以及优化后的数据编排，以加速卷积层的处理。然而，现有的ML加速器在如下的边缘设备中实现时可能表现不佳：所述边缘设备具有严格的功耗约束，并且使用先前训练的模型实时运行推理练习。例如，现有的ML加速器在如下人工现实系统中可能表现不佳：所述人工现实系统为在独立的头戴式显示器(例如，在增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)头戴式设备(headset))、移动设备或其它边缘计算设备上实现的VR、AR、混合现实(mixed reality，MR)或混合现实(hybrid reality)人工现实系统。

技术实现思路

[0003]在本说明书中描述的本专利技术的一方面中，提供了一种机器学习加速器系统，包括：多个控...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种机器学习加速器系统，包括：多个控制器，每个控制器被配置为根据如下的多个指令对具有n个维度的特征图进行遍历：所述多个指令为所述n个维度中的每个维度指定相应的遍历大小，其中，每个控制器包括：计数器堆栈，所述计数器堆栈包括多个计数器，每个计数器与所述特征图的n个维度的相应维度相关联，其中，每个计数器被配置为将相应计数从相应的初始值递增到与所述相应维度相关联的所述相应的遍历大小，所述相应维度与该计数器相关联；多个地址生成器，每个地址生成器被配置为使用所述多个计数器的相应计数，来生成存储所述特征图的一部分的至少一个存储器地址；以及依赖控制器计算模块，所述依赖控制器计算模块被配置为：(1)对使所述多个计数器递增的多个条件状态进行追踪；以及(2)基于所述多个条件状态，允许或不允许使所述多个计数器中的每个计数器递增。2.根据权利要求1所述的系统，其中，所述依赖控制器还被配置为：识别表示多个操作数的多个依赖令牌，以执行每个相应维度的计算，其中，所述依赖控制器基于如下条件来允许或不允许使所述多个计数器中的每个计数器递增：所述相应维度的所述多个依赖令牌的存在状态。3.根据权利要求2所述的系统，其中，所述依赖控制器计算模块还被配置为：生成如下的使能信号：所述使能信号指示相应维度的每个依赖令牌是存在的，其中，用于所述相应维度的所述计数器仅响应于接收到所述相应维度的相关联的所述使能信号而使所述相应计数递增。4.根据权利要求2所述的系统，其中，所述依赖控制器计算模块还被配置为：生成如下的停止信号：所述停止信号指示相应维度的至少一个依赖令牌缺失，其中，用于所述相应维度的所述计数器响应于接收到所述相应维度的相关联的所述停止信号而不使所述相应计数递增。5.根据权利要求2所述的系统，其中：所述多个依赖令牌中的第一依赖令牌指示：用于特定维度的、2D卷积机器学习操作的激活值被存储在存储器中，所述多个依赖令牌中的第二依赖令牌指示：用于所述特定维度的、2D卷积机器学习操作的权重被存储在存储器中，并且所述多个依赖令牌中的第三依赖令牌指示：一可用存储器位置能用于存储2D卷积机器学习操作的输出。6.根据权利要求1所述的系统，其中，所述多个地址生成器中的第一地址生成器被配置为基于来自所述计数器的所述计数，来生成如下的激活存储器地址：所述激活存储器地址存储2D卷积机器学习操作的激活值；和/或其中，所述多个地址生成器中的第二地址生成器被配置为基于来自所述计数器的所述计数，来生成如下的权重存储器地址：所述权重存储器地址存储2D卷积机器学习操作的权重值；和/或其中，所述多个地址生成器中的第三地址生成器被配置为基于来自所述计数器的所述
计数，来生成如下的输出存储器地址：所述输出存储器地址存储2D卷积机器学习操作的输出值；和/或其中，所述多个地址生成器中的第四地址生成器被配置为生成如下的信号：所述信号用于使能或禁止所述机器学习加速器系统的逻辑级。7.根据权利要求1所述的系统，其中，所述初始值为零。8.一种方法，包括：对具有n个维度的特征图进行遍历，所述n个维度中的每个维度与相应的遍历大小相关联，其中，对于每个维度：在多个计数器中的每个计数器处，将相应计数从相应的初始值递增到与相应维...

【专利技术属性】
技术研发人员：西蒙，
申请(专利权)人：元平台公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人