通用并行计算架构制造技术

技术编号:17144295 阅读:35 留言:0更新日期:2018-01-27 16:37
一种装置包括多个并行计算核(102),其中每个计算核(102)被配置成执行一个或多个处理操作并生成输入数据。该装置还包括与每个计算核(102)相关联的多个并行协处理器(112)。该装置进一步包括多条通信线(122,124),多条通信线(122,124)被配置成将输入数据从每个计算核(102)传输到与计算核(102)中的每一个相关联的协处理器(112)中指定的一个,其中协处理器(112)被配置成处理输入数据并生成输出数据。另外,该装置包括多个简化器电路(115),其中每个计算核(102)与简化器电路(115)中的一个相关联。每个简化器电路(115)被配置成接收来自相关联的计算核(102)的协处理器(112)中的每一个的输出数据,将一个或多个函数应用到输出数据,并且向相关联的计算核(102)提供一个或多个结果。

General parallel computing architecture

A device includes multiple parallel computing cores (102), where each computing core (102) is configured to execute one or more processing operations and generate input data. The device also includes a plurality of parallel coprocessors (112) associated with each of the computing cores (102). \u8be5\u88c5\u7f6e\u8fdb\u4e00\u6b65\u5305\u62ec\u591a\u6761\u901a\u4fe1\u7ebf\uff08122\uff0c124\uff09\uff0c\u591a\u6761\u901a\u4fe1\u7ebf\uff08122\uff0c124\uff09\u88ab\u914d\u7f6e\u6210\u5c06\u8f93\u5165\u6570\u636e\u4ece\u6bcf\u4e2a\u8ba1\u7b97\u6838\uff08102\uff09\u4f20\u8f93\u5230\u4e0e\u8ba1\u7b97\u6838\uff08102\uff09\u4e2d\u7684\u6bcf\u4e00\u4e2a\u76f8\u5173\u8054\u7684\u534f\u5904\u7406\u5668\uff08112\uff09\u4e2d\u6307\u5b9a\u7684\u4e00\u4e2a\uff0c\u5176\u4e2d\u534f\u5904\u7406\u5668\uff08112\uff09\u88ab\u914d\u7f6e\u6210\u5904\u7406\u8f93\u5165\u6570\u636e\u5e76\u751f\u6210\u8f93\u51fa\u6570\u636e\u3002 In addition, the device includes a plurality of simplifying circuits (115), in which each of the calculated cores (102) is associated with one of the simpler circuits (115). Each simplified circuit (115) configured to receive from the associated computational kernel (102) Co processor (112) output data for each of the one or more function is applied to the output data, and calculate the nucleus to the associated (102) to provide one or more results.

【技术实现步骤摘要】
【国外来华专利技术】通用并行计算架构
本公开一般涉及用于计算设备和计算系统的硬件架构。更具体而言,本公开涉及一种通用并行计算架构,该通用并行计算架构可以支持高级计算功能,诸如在人工智能中使用的高级计算功能。
技术介绍
人脑是典型地包含由1000万亿(onequadrillion)个突触连接的大约1000亿个神经元的大规模并行系统。理想情况下,模拟人脑的操作可以支持高级计算功能,诸如人工智能。然而,传统的模拟人脑或者设计与人脑的能力相媲美的计算系统的尝试通常由于许多原因而不够充分,所述原因诸如是实质上不匹配大脑的连接性或三维结构。
技术实现思路
本公开提供一种通用并行计算架构。在第一实施例中,一种装置包括多个并行计算核,其中每个计算核被配置成执行一个或多个处理操作并生成输入数据。该装置还包括与每个计算核相关联的多个并行协处理器。该装置进一步包括多条通信线,多条通信线被配置成将输入数据从每个计算核传输到与计算核中的每一个相关联的协处理器中的指定的一个,其中协处理器被配置成处理输入数据并生成输出数据。另外,该装置包括多个简化器(reducer)电路,其中每个计算核与简化器电路中的一个相关联。每个简化器电路被配置成本文档来自技高网...
通用并行计算架构

【技术保护点】
一种装置,包括:多个并行计算核,每个计算核被配置成执行一个或多个处理操作并生成输入数据;与每个计算核相关联的多个并行协处理器;多条通信线,被配置成将输入数据从每个计算核传输到与计算核中的每一个相关联的协处理器中指定的一个,协处理器被配置成处理输入数据并生成输出数据;以及多个简化器电路,每个计算核与简化器电路中的一个相关联,每个简化器电路被配置成接收来自相关联的计算核的协处理器中的每一个的输出数据,将一个或多个函数应用到输出数据,并且向相关联的计算核提供一个或多个结果。

【技术特征摘要】
【国外来华专利技术】2015.05.21 US 62/165052;2015.06.10 US 62/1738661.一种装置,包括:多个并行计算核,每个计算核被配置成执行一个或多个处理操作并生成输入数据;与每个计算核相关联的多个并行协处理器;多条通信线,被配置成将输入数据从每个计算核传输到与计算核中的每一个相关联的协处理器中指定的一个,协处理器被配置成处理输入数据并生成输出数据;以及多个简化器电路,每个计算核与简化器电路中的一个相关联,每个简化器电路被配置成接收来自相关联的计算核的协处理器中的每一个的输出数据,将一个或多个函数应用到输出数据,并且向相关联的计算核提供一个或多个结果。2.根据权利要求1所述的装置,其中计算核、协处理器、简化器电路和通信线位于集成电路芯片的多个层中。3.根据权利要求1所述的装置,其中计算核是完全连接的,因为每个计算核能够经由通信线和协处理器与所有其它计算核直接通信。4.根据权利要求1所述的装置,其中计算核中的每一个被配置成执行支持以下中的至少一个的指令:通过通信线的低延迟发送操作;向计算核的指定的协处理器发送输入数据;以及编程计算核的相关联的协处理器。5.根据权利要求1所述的装置,其中协处理器中的每一个被配置成执行支持以下中的至少一个的指令:以具体顺序接收和处理输入数据;对接收的输入数据和存储的参数执行一个或多个可编程操作;以及向简化器电路转发输出数据。6.根据权利要求5所述的装置,其中一个或多个可编程操作包括以下中的一个或多个:加法,乘法,最小值,最大值,平方根倒数,基于测试值的值的选择,以及唯一协处理器标识符的输出。7.根据权利要求1所述的装置,其中简化器电路中的每一个被配置成执行支持以下中的至少一个的指令:并行地接收来自相关联的计算核的协处理器的输出数据;对接收的输出数据执行一个或多个可编程操作;以及向相关联的计算核转发一个或多个结果。8.根据权利要求7所述的装置,其中一个或多个可编程操作包括以下中的一个或多个:总和,最小值,最大值,以及值的选择。9.根据权利要求1所述的装置,其中协处理器和通信线形成计算核之间的多个通信信道。10.根据权利要求1所述的装置,其中每个简化器电路的结果被定义为:其中:yj表示与具体计算核j相关联的简化器电路的结果;Ψj表示由与具体计算核j相关联的简化器电路执行的函数;Φj表示由与具体计算核j相关联的协处理器执行的函数;xi表示由第i个计算核生成的输入;pij表示一个或多个状态或局部变量;以及N表示计算核的数量。11.根据权利要求10所述的装置,其中Ψj和Φj分别表示简化器电路和协处理器的可选函数。12.根据权利要求1所述的装置,其中:计算核、协处理器和简化器电路被配置成通过多个信道通信;以及协处理器和简化器电路被配置成使得由协处理器和简化器电路执行的操作基于通过其接收具体输入数据的信道而变化。13.根据权利要求1所述的装置,其中:计算核形成第一群集的计算核;装置进一步包括至少一个额外群集的计算核;以及协处理器被配置成接收来自至少一个额外群集的计算核的输入数据。14.一种系统,包括:多个集成电路设备,每个集成电路设备包括:多个并行计算核,每个计算核被配置成执行一个或多个处理操作并生成输入数据;与每个计算核相关联的多个并行协处理器;多条通信线,被配置成将输入数据从每个计算核传输到与计算核中的每一个相关联的协处理器中指定的一个,协处理器被配置成处理输入数据并生成输出数据;以及多个简化器电路,每个计算核与简化器电路中的一个相关联,每个简化器电路被配置成接收来自相关联的计算核的协处理器中的每一个的输出数据,将一个或多个函数应用到输出数据,并且向相关联的计算核提供一个或多个结果;以及耦合集成电路设备中的通信线中的至少一些的至少一个高速连接。15.根据权利要求14所述的系统,其中在每个集成电路设备中,计算核是完全连接的,因为每个计算核能够经由通信线和协处理器与所有其它计算核直接通信。16.根据权利要求14所述的系统,其中计算核中的每一个被配置成执行支持以下中的至少一个的指令:通过通信线的低延迟发送操作;向计算核的指定的协处理器发送输入数据;以及编程计算核的相关联的协处理器。17.根据权利要求14所述的系统,其中协处理器中的每一个被配置成执行支持以下中的至少一个的指令:以具体顺序接收和处理输入数据;对接收的输入数据和存储的参数执行一个或多个可编程操作;以及向简化器电路转发输出数据。18.根据权利要求17所述的系统,其中一个或多个可编程操作包括以下中的一个或多个:加法,乘法,最小值,最大值,平方根倒数,基于测试值的值的选择,以及唯一协处理器标识符的输出。19.根据权利要求14所述的系统,其中简化器电路中的每一个被配置成执行支持以下中的至少一个的指令:并行地接收来自相关联的计算核的协处理器的输出数据;对接收的输出数据执行一个或多...

【专利技术属性】
技术研发人员:P伯查德U德雷珀
申请(专利权)人:高盛有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1