多加速器计算调度制造技术

技术编号:39640003 阅读:18 留言:0更新日期:2023-12-09 11:04
本发明专利技术提供了用于由多个小芯片执行计算工作的技术

【技术实现步骤摘要】
【国外来华专利技术】多加速器计算调度
[0001]相关申请的交叉引用
[0002]本申请要求
2021
年3月
31
日提交的名称为

MULTI

ACCELERATOR COMPUTE DISPATCH

的待审美国非临时专利申请号
17/218,421
的权益,其全部内容据此以引用方式并入本文


技术介绍

[0003]通用计算着色器是执行高度可并行化工作负载的一种日益流行的方式

对通用计算着色器的改进正在持续进行

附图说明
[0004]可以从以下描述中获得更详细的理解,通过示例结合附图给出,其中:
[0005]图1是可实现本公开的一个或多个特征的示例设备的框图;
[0006]图2是图1的设备的框图,示出了附加的细节;
[0007]图3是根据示例的加速处理设备的各方面的框图,示出了由多个小芯片执行命令队列中的命令;
[0008]图4是示出用于跨小芯片协作地执行内核的示例性操作集合的框图;以及
[0009]图5是根据示例的用于跨多个小芯片执行内核的方法的流程图

具体实施方式
[0010]本专利技术提供了用于由多个小芯片执行计算工作的技术

该技术包括:将内核调度分组的工作组分配给该小芯片;由每个小芯片执行分配给该小芯片的该工作组;针对每个小芯片,在该内核调度分组的分配给该小芯片的所有工作组完成时,通知其他小芯片此类完成;以及在该内核调度分组的所有工作组完成时,通知客户端此类完成并且继续进行后续内核调度分组

[0011]图1是可实现本公开的一个或多个特征的示例设备
100
的框图

设备
100
可包括例如计算机

游戏设备

手持设备

机顶盒

电视

移动电话或平板计算机

设备
100
包括处理器
102、
存储器
104、
存储装置
106、
一个或多个输入设备
108
以及一个或多个输出设备
110。
设备
100
还可任选地包括输入驱动器
112
和输出驱动器
114。
应当理解,设备
100
可包括图1中未示出的另外部件

[0012]在各种另选方案中,处理器
102
包括中央处理单元
(CPU)、
图形处理单元
(GPU)、
位于同一管芯上的
CPU

GPU、
或一个或多个处理器核心,其中每个处理器核心可为
CPU

GPU。
在各种另选方案中,存储器
104
位于与处理器
102
相同的管芯上,或与处理器
102
分开定位

存储器
104
包括易失性或非易失性存储器,例如随机存取存储器
(RAM)、
动态
RAM
或高速缓存

[0013]存储装置
106
包括固定或可移动存储装置,例如硬盘驱动器

固态驱动器

光盘或闪存驱动器

输入设备
108
包括但不限于键盘

小键盘

触摸屏

触控板

检测器

麦克风


速度计

陀螺仪

生物扫描仪或网络连接
(
例如,用于发射和
/
或接收无线
IEEE 802
信号的无线局域网卡
)。
输出设备
110
包括但不限于显示器

扬声器

打印机

触觉反馈设备

一个或多个灯

天线或网络连接
(
例如,用于发射和
/
或接收无线
IEEE 802
信号的无线局域网卡
)。
[0014]输入驱动器
112
与处理器
102
和输入设备
108
通信,并允许处理器
102
从输入设备
108
接收输入

输出驱动器
114
与处理器
102
和输出设备
110
通信,并允许处理器
102
向输出设备
110
发送输出

应注意,输入驱动器
112
和输出驱动器
114
是任选的部件,并且如果输入驱动器
112
和输出驱动器
114
不存在,则设备
100
将以相同方式操作

输出驱动器
116
包括联接到显示设备
118
的加速处理设备
(

APD

)116。APD
从处理器
102
接受计算命令和在一些具体实施中的图形渲染命令,处理这些命令,并且将像素输出提供给显示设备
118
进行显示

如下文所详述,
APD 116
包括根据单指令多数据
(

SIMD

)
范式来执行计算的一个或多个并行处理单元

因此,尽管这里将各种功能描述为由
APD 116
执行或与其结合执行,但在各种另选方案中,被描述为由
APD 116
执行的功能另外地或另选地由具有类似能力的其他计算设备执行,该其他计算设备不由主机处理器
(
例如,处理器
102)
驱动并且向显示设备
118
提供图形输出

例如,可以设想根据
SIMD
范式执行处理任务的任何处理系统都可执行本文所述的功能

另选地,设想不根据
SIMD
范式执行处理任务的计算系统执行本文所述的功能

[0015]图2是设备
100
的框图,示出了涉及在
APD 116
上执行处理任务的附加细节

处理器
102
在系统存储器<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种用于由多个小芯片执行计算工作的方法,所述方法包括:将内核调度分组的工作组分配给所述小芯片;由每个小芯片执行分配给所述小芯片的所述工作组;在所述内核调度分组的分配给所述小芯片的所有工作组完成时,由每个小芯片通知其他小芯片此类完成;以及在所述内核调度分组的所有工作组完成时,由所述多个小芯片中的小芯片通知客户端此类完成,并且继续进行后续内核调度分组
。2.
根据权利要求1所述的方法,其中每个小芯片被分配所述内核调度分组的不同的互相排斥的工作组集合
。3.
根据权利要求1所述的方法,其中分配给每个小芯片的所述工作组以预先指定的方式分配
。4.
根据权利要求1所述的方法,其中通知所述其他小芯片此类完成包括广播计数器
。5.
根据权利要求4所述的方法,其中所述计数器是对通过硬件命令队列的进展的指示
。6.
根据权利要求1所述的方法,其中通知所述客户端由所述多个小芯片中被指定为通知器小芯片的一个小芯片执行
。7.
根据权利要求1所述的方法,其中所述内核调度分组和所述后续内核调度分组存储在所述多个小芯片中的每个小芯片的硬件命令队列中
。8.
根据权利要求1所述的方法,其中将内核调度分组的工作组分配给所述小芯片以及通知所述其他小芯片此类完成由所述多个小芯片中的每个小芯片的命令处理器执行
。9.
根据权利要求1所述的方法,还包括:通过确定已经从所述多个小芯片中的每个小芯片接收到通知来确定所述内核调度分组的所有工作组都已完成,其中所述通知指示小芯片已经完成所述内核调度分组的所有工作组
。10.
一种小芯片,包括:计算单元,所述计算单元被配置为执行工作组;以及命令处理器,所述命令处理器被配置为:识别分配给所述小芯片的内核调度分组的工作组;使得所述计算单元执行分配给所述小芯片的所述工作组;在所述内核调度分组的分配给所述小芯片的所有工作组完成时,通知多个小芯片中的其他小芯片此类完成;以及在所述内核调度分组的分配给所述多个小芯片中的所有小芯片的所有工作组完成时,通知客户端此类完成并且继续处理后续内核调度分组的工作组
。11.
根据权利要求
10
...

【专利技术属性】
技术研发人员:米林德
申请(专利权)人:超威半导体公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1