当前位置: 首页 > 专利查询>英特尔公司专利>正文

网络中的多个层的可变精度和混合类型表示制造技术

技术编号:19426705 阅读:25 留言:0更新日期:2018-11-14 10:52
在一个示例中,一种装置包括多个执行单元,该多个执行单元包括至少第一类型的执行单元和第二类型的执行单元以及至少部分地包括硬件逻辑的逻辑,该逻辑用于:显露出在加载指令或存储指令中的至少一个中的嵌入的投射操作;确定该投射操作的目标精度水平;并以该目标精度水平加载投射操作。还公开并要求保护其他实施例。

【技术实现步骤摘要】
网络中的多个层的可变精度和混合类型表示
实施例总体上涉及数据处理,且更具体地,涉及经由通用图形处理单元的机器学习处理。
技术介绍
机器学习已经在解决许多类型的任务方面取得成功。当训练和使用机器学习算法(例如,神经网络)时产生的计算自然地适合于高效的并行实现。因此,诸如通用图形处理单元(GPGPU)之类的并行处理器在深度神经网络的实际实现中扮演着重要角色。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理量最大化。在SIMT架构中,并行线程组试图尽可能经常地一起同步执行程序指令以提高处理效率。由并行机器学习算法实现所提供的效率允许使用高容量网络并且使这些网络能在较大的数据集上进行训练。附图说明为了以能够详细理解本实施例的以上记载特征的方式,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一些在所附附图中被示出。然而,应当注意,所附附图仅示出典型实施例,并因此不应被认为是对其范围的限制。图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图;图2A至图2D示出了根据实施例的并行处理器部件;图3A至图3B是根据实施例的图形多处理器的框图;图4A至图4F示出了其中多个GPU通信地耦合至多个多核处理器的示例性架构;图5是根据实施例的图形处理流水线的概念图。图6A-6B和图7示出了根据实施例的技术中的示例性架构和操作。图8示出了根据实施例的机器学习软件栈;图9示出了根据实施例的高度并行的通用图形处理单元;图10示出了根据实施例的多GPU计算系统;图11A至图11B示出了示例性深度神经网络的层;图12示出了示例性递归神经网络;图13示出了深度神经网络的训练和部署;图14是示出分布式学习的框图;图15示出了适合于使用训练模型执行推断的示例性推断用芯片上系统(SOC);图16是根据实施例的处理系统的框图;图17是根据实施例的处理器的框图;图18是根据实施例的图形处理器的框图;图19是根据一些实施例的图形处理器的图形处理引擎的框图;图20是由附加实施例提供的图形处理器的框图;图21示出了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件阵列;图22是示出了根据一些实施例的图形处理器指令格式的框图;图23是根据另一个实施例的图形处理器的框图;图24A至图24B示出了根据一些实施例的图形处理器命令格式和命令序列;图25示出了根据一些实施例的数据处理系统的示例性图形软件架构;图26是示出了根据实施例的IP核开发系统的框图;图27是示出了根据实施例的示例性芯片上系统集成电路的框图;图28是示出了附加的示例性图形处理器的框图;以及图29是示出了根据实施例的芯片上系统集成电路的附加示例性图形处理器的框图。具体实施方式在下面的描述中,阐述了很多特定细节以提供对各实施例的全面理解。然而,在没有这些特定细节的情况下,也可实践各实施例。在其他实例中,未详细描述公知的方法、过程、部件和电路以免使特定实施例变得模糊。此外,实施例的各方面可使用各种手段来执行,诸如集成半导体电路(“硬件”)、组织成一个或多个程序的计算机可读指令(“软件”)、或硬件与软件的某种组合。出于本公开的目的,对“逻辑”的引用应当意味着硬件、软件、固件或它们的某种组合。本文中所讨论的一些实施例可被应用于任何处理器(诸如,GPCPU、CPU、GPU等)、图形控制器等。还公开并要求保护其他实施例。进一步地,可在包括一个或多个处理器(例如,具有一个或多个处理器核)的计算系统中应用一些实施例,这些计算系统诸如本文中所讨论的那些,包括例如移动计算设备,例如智能电话、平板、UMPC(超级移动个人计算机)、膝上型计算机、超极本TM计算设备、可穿戴设备(诸如智能手表或智能眼镜)等等。在一些实施例中,图形处理单元(GPU)被通信地耦合到主机/处理器核以加速图形操作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink的高速互连)被通信地耦合到主机处理器/核。在其他实施例中,GPU可被集成在与核相同的封装或芯片上并通过内部处理器总线/互连(即,在封装或芯片的内部)被通信地耦合到核。不管GPU被连接的方式,处理器核可以以工作描述符中包含的命令/指令的序列的形式将工作分配给GPU。GPU然后使用专用电路/逻辑以高效地处理这些命令/指令。在以下描述中,阐述了很多特定细节来提供更全面的理解。然而,将对本领域技术人员显而易见的是,没有这些特定细节中的一个或多个,也可实践本文中所描述的实施例。在其他实例中,未描述公知的特征以避免使本实施例的细节变得模糊。系统概述图1是展示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统100的框图。计算系统100包括处理子系统101,所述处理子系统具有一个或多个处理器102和系统存储器104,所述一个或多个处理器和所述系统存储器经由互连路径进行通信,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,也可以集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器(所述显示控制器可以被包括在一个或多个处理器102中)能够向一个或多个显示设备110A提供输出。在一个实施例中,与I/O中枢107耦合的一个或多个显示设备110A可以包括本地显示设备、内部显示设备或嵌入式显示设备。在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器经由总线或其他通信链路113耦合至存储器中枢105。通信链路113可以是任意数量的基于标准的通信链路技术或协议(诸如但不限于PCIExpress)中的一个,也可以是供应方特定的通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成以计算为中心的并行或向量处理系统,所述系统包括大量处理核和/或处理集群诸如集成众核(MIC)处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,所述图形处理子系统可以向经由I/O中枢107耦合的一个或多个显示设备110A中的一个输出像素。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备110B的直接连接。在I/O子系统111内,系统存储单元114可以连接至I/O中枢107来为计算系统100提供存储机制。I/O开关116可以用于提供接口机制以实现I/O中枢107和可以集成到平台中的其他部件诸如网络适配器118和/或无线网络适配器119以及可以经由一个或多个插入式设备120添加的各种其他设备之间的连接。网络适配器118可以是以太网适配器或另一种有线网络适配器。无线网络适配器119可以包括Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线电装置的其他网络设备中的一个或多个。计算系统100可以包括未明确示出的其他部件,这些部件包括USB或其他端口连接件、光存储驱动器、视频捕获设备等,也可以连接至I/O中枢107。图1本文档来自技高网...

【技术保护点】
1.一种装置,包括:多个执行单元;以及至少部分地包括硬件逻辑的逻辑,所述逻辑用于:显露出在加载指令或存储指令中的至少一个中的嵌入的投射操作;确定所述投射操作的目标精度水平;以及以所述目标精度水平加载所述投射操作。

【技术特征摘要】
2017.04.28 US 15/499,8961.一种装置,包括:多个执行单元;以及至少部分地包括硬件逻辑的逻辑,所述逻辑用于:显露出在加载指令或存储指令中的至少一个中的嵌入的投射操作;确定所述投射操作的目标精度水平;以及以所述目标精度水平加载所述投射操作。2.如权利要求1所述的装置,其特征在于:所述目标精度水平表示最佳精度水平。3.如权利要求1所述的装置,其特征在于:所述目标精度水平被确定成匹配硬件能力。4.如权利要求1所述的装置,其特征在于:不同数据类型被用于表示多层深度学习神经网络(DNN)的不同层中的各个权重。5.如权利要求4所述的装置,其特征在于:高精度浮点数据用于神经网络的一个或多个较低层。6.如权利要求5所述的装置,其特征在于:较低精度浮点数据和整数被用于所述神经网络的...

【专利技术属性】
技术研发人员:U·萨雷尔E·科恩T·施瓦茨A·阿蒙Y·沙德米A·布莱韦斯G·列伊博维奇J·德赖弗斯L·法伊维谢夫斯基T·巴昂Y·法伊斯J·苏巴格
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1