支持机器学习推理和其他过程的矩阵和向量操纵制造技术

技术编号:37258045 阅读:20 留言:0更新日期:2023-04-20 23:33
公开了支持机器学习推理和其他过程的矩阵和向量操纵,具体公开了用于提高处理效率的装置、系统和技术。在至少一个实施例中,处理单元包括电路,该电路从存储器读取向量,并将该向量与从向量寄存器的标量字段提取的标量值相乘。该标量字段可以由立即字段值指定,该立即字段值还用于标识偏移量,该偏移量用于定义指向存储器中从其读取该向量的位置的指针。指向存储器中从其读取该向量的位置的指针。指向存储器中从其读取该向量的位置的指针。

【技术实现步骤摘要】
支持机器学习推理和其他过程的矩阵和向量操纵


[0001]本公开总地涉及具有用于支持各种处理器功能的一个或更多个算术逻辑单元(ALU)的处理器。

技术介绍

[0002]典型的机器学习推理和其他处理功能涉及将矩阵与向量相乘。通常,矩阵保持固定权重,而向量内容是可变的。从计算效率、减少处理时间和/或减少能量消耗的角度来看,对实现这些类型功能的处理器架构的改进(例如,矩阵与向量的相乘)可以提高处理器的整体性能。
附图说明
[0003]图1A示出了根据至少一个实施例的推理和/或训练逻辑;
[0004]图1B示出了根据至少一个实施例的推理和/或训练逻辑;
[0005]图2示出了根据至少一个实施例的神经网络的训练和部署;
[0006]图3示出了根据至少一个实施例的示例数据中心系统;
[0007]图4A示出了根据至少一个实施例的自主车辆的示例;
[0008]图4B示出了根据至少一个实施例的图4A的自主车辆的相机位置和视野的示例;
[0009]图4C是根据至少一个实施例的示出图4A的自主车辆的示例系统架构的框图;
[0010]图4D是根据至少一个实施例的示出用于一个或更多个基于云的服务器与图4A的自主车辆之间进行通信的系统的图;
[0011]图5是根据至少一个实施例的示出计算机系统的框图;
[0012]图6是根据至少一个实施例的示出计算机系统的框图;
[0013]图7示出了根据至少一个实施例的计算机系统;
[0014]图8示出了根据至少一个实施例的计算机系统;
[0015]图9A示出了根据至少一个实施例的计算机系统;
[0016]图9B示出了根据至少一个实施例的计算机系统;
[0017]图9C示出了根据至少一个实施例的计算机系统;
[0018]图9D示出了根据至少一个实施例的计算机系统;
[0019]图9E和图9F示出了根据至少一个实施例的共享编程模型;
[0020]图10示出了根据至少一个实施例的示例性集成电路和相关的图形处理器;
[0021]图11A

图11B示出了根据至少一个实施例的示例性集成电路和相关联的图形处理器;
[0022]图12A

图12B示出了根据至少一个实施例的附加的示例性图形处理器逻辑;
[0023]图13示出了根据至少一个实施例的计算机系统;
[0024]图14A示出了根据至少一个实施例的并行处理器;
[0025]图14B示出了根据至少一个实施例的分区单元;
[0026]图14C示出了根据至少一个实施例的处理集群;
[0027]图14D示出了根据至少一个实施例的图形多处理器;
[0028]图15示出了根据至少一个实施例的多图形处理单元(GPU)系统;
[0029]图16示出了根据至少一个实施例的图形处理器;
[0030]图17是根据至少一个实施例的示出用于处理器的处理器微架构的框图;
[0031]图18示出了根据至少一个实施例的深度学习应用程序处理器;
[0032]图19是根据至少一个实施例的示出了示例神经形态处理器的框图;
[0033]图20示出了根据一个或更多个实施例的图形处理器的至少部分;
[0034]图21示出了根据一个或更多个实施例的图形处理器的至少部分;
[0035]图22示出了根据一个或更多个实施例的图形处理器的至少部分;
[0036]图23是根据至少一个实施例的示出了图形处理器的图形处理引擎的框图;
[0037]图24是根据至少一个实施例的示出了图形处理器核的至少部分的框图;
[0038]图25A

图25B示出了根据至少一个实施例的线程执行逻辑,其包括图形处理器核心的处理元件的阵列;
[0039]图26示出了根据至少一个实施例的并行处理单元(“PPU”);
[0040]图27示出了根据至少一个实施例的通用处理集群(“GPC”);
[0041]图28示出了根据至少一个实施例的并行处理单元(“PPU”)的存储器分区单元;
[0042]图29示出了根据至少一个实施例的流式多处理器;
[0043]图30是根据至少一个实施例的高级计算管线的示例数据流图;
[0044]图31是根据至少一个实施例的用于在高级计算管线中训练、适应、实例化和部署机器学习模型的示例系统的系统图;
[0045]图32包括根据至少一个实施例的用于处理成像数据的高级计算管线的示例图示;
[0046]图33A包括根据至少一个实施例的支持超声设备的虚拟仪器的示例数据流图;
[0047]图33B包括根据至少一个实施例的支持CT扫描仪的虚拟仪器的示例数据流图;
[0048]图34A示出了根据至少一个实施例的用于训练机器学习模型的过程的数据流图;
[0049]图34B示出了根据至少一个实施例的利用预训练的注释模型来增强注释工具的客户端

服务器架构的示例图示;
[0050]图35示出了根据至少一个实施例的一种矩阵乘法方法;
[0051]图36示出了根据至少一个实施例的另一种矩阵乘法方法;
[0052]图37示出了根据至少一个实施例的用于促进矩阵乘法过程的电路;
[0053]图38示出了根据至少一个实施例的数据处理单元(“DPU”);以及
[0054]图39示出了根据至少一个实施例使用的至少一种数据结构。
具体实施方式
[0055]推理和训练逻辑
[0056]图1A示出了用于执行与一个或更多个实施例相关联的推理和/或训练操作的推理和/或训练逻辑115。下面结合图1A和/或图1B提供关于推理和/或训练逻辑115的细节。
[0057]在至少一个实施例中,推理和/或训练逻辑115可以包括但不限于代码和/或数据存储101,用于存储前向和/或输出权重和/或输入/输出数据,和/或在一个或更多个实施例
的方面中配置被训练为和/或用于推理的神经网络的神经元或层的其他参数。在至少一个实施例中,训练逻辑115可以包括或耦合到用于存储图形代码或其他软件以控制时序和/或顺序的代码和/或数据存储101,其中权重和/或其他参数信息被加载以配置逻辑,包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中,代码(诸如图代码)基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储101存储在使用一个或更多个实施例的方面训练和/或推理期间的输入/输出数据和/或权重参数的前向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,代码和/或数据存储101的任何部分都可以包括在其他片上或片外数据存储内,包括处理器的L1、L2或L3高速缓存或系统存储器。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理单元,包括:从存储器中读取向量并将所述向量与从向量寄存器的标量字段中提取的标量值相乘的电路,其中,所述标量字段由立即字段值指定,所述立即字段值还用于标识偏移量,所述偏移量用于定义指向所述存储器中要从中读取所述向量的位置的指针。2.根据权利要求1所述的处理单元,还包括:实现逐元素求和的电路,其中,实现所述逐元素求和的所述电路被配置为:接收来自从存储器中读取所述向量并将所述向量与所述标量值相乘的所述电路的输出;通过将目标向量的先前实例与所接收的来自从存储器中读取所述向量并将所述向量与所述标量值相乘的所述电路的所述输出相加来生成所述目标向量;以及存储所述目标向量。3.根据权利要求2所述的处理单元,其中,所述目标向量被存储在所述向量寄存器中。4.根据权利要求3所述的处理单元,其中,所述立即字段值与所述向量的大小相乘,以定义所述指针。5.根据权利要求4所述的处理单元,其中,与所述向量的大小相乘的所述立即字段值被进一步添加到基值以定义所述指针,其中,所述基值是从基址寄存器中提取的。6.根据权利要求1所述的处理单元,其中,所述存储器包括本地高速缓存存储器。7.根据权利要求1所述的处理单元,其中,所述存储器包括与所述电路非常接近的存储器设备。8.根据权利要求1所述的处理单元,其中,所述向量寄存器在所述处理单元的内部。9.根据权利要求8所述的处理单元,其中,所述向量寄存器包括128位寄存器。10.根据权利要求8所述的处理单元,其中,所述向量寄存器包括128位寄存器、256位寄存器和512位寄存器中的至少一个。11.一种系统,包括:存储器,...

【专利技术属性】
技术研发人员:I
申请(专利权)人:迈络思科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1