当前位置: 首页 > 专利查询>清华大学专利>正文

一种晶圆级架构制造技术

技术编号:39743778 阅读:17 留言:0更新日期:2023-12-17 23:43
本发明专利技术公开一种晶圆级架构

【技术实现步骤摘要】
一种晶圆级架构AI加速芯片的任务调度方法及介质


[0001]本专利技术涉及云计算
,特别涉及一种晶圆级架构
AI
加速芯片的任务调度方法及介质


技术介绍

[0002]大语言模型是一种基于神经网络的自然语言处理技术,其可以理解

生成人类语言,进而实现智能对话

文本生成

翻译等功能

近年来,大语言模型如生成预训练模型
(GPT
‑3,
Generative Pretrained Transformer)
等获得了突破性进展,使得及其能够理解人类语言,甚至可以写成一些具有创造性的文本,引领人工智能进入了一个新的阶段

大语言模型基于深度学习技术,利用神经网络对大量文本数据进行训练,在训练过程中,模型会不断地学习语言的规律,包括词汇

语法

以及逻辑等,通过学习逐渐掌握人类语言的复杂性,从而可以生成符合语言规则的文本
。GPT
‑3的核心结构为“Transformer”,是一种基于自注意力机制的特殊神经网络架构,
GPT
‑3的参数量多达
1750
亿,因此其训练所需要的计算芯片数量可达上千块,且训练时长通常需要数月之久

[0003]为了提高训练效率,有研究提出了一种晶圆级架构

例如特斯拉公司开发的道场
(Dojo)
超级计算架构,以及
Cerebras Systems
公司推出的
WSE(Wafer Scale Engine)
芯片等

通常,所述晶圆级架构中涵盖计算

网络

输入
/
输出
(I/O)
芯片到指令集架构
(ISA)、
电源传输

包装和冷却等功能,可以大规模地运行定制的

特定的机器学习训练算法,实现高速互联的带宽

极低通信延迟

大规模的算力

图1示出一种晶圆级架构
AI
加速芯片的结构示意图

如图1所示,晶圆级架构
AI
加速芯片由多个晶粒架构通过芯粒
(Chiplet)
的先进封装技术封装在晶圆大小的硅基板上

每个晶粒架构中包含若干可相互连接的微架构

如图1所示,所述微架构中例如可包括静态随机存取存储器
(Static Random

Access Memory

SRAM)、
张量操作模块

张量加速器

在网计算引擎模块

路由模块以及若干
RV
核等,其可独立或与其他微架构一起执行相关计算任务

[0004]然而目前暂未有公开的关于所述晶圆级架构中任务调度及分配方法,因此,如何提高晶圆级架构的硬件利用率是急需解决的问题


技术实现思路

[0005]针对现有技术中的部分或全部问题,实现晶圆级架构
AI
加速芯片的计算任务的自动映射与调度,本专利技术第一方面提供一种晶圆级架构
AI
加速芯片的任务调度方法,包括:
[0006]将计算任务转换为计算图;
[0007]对所述计算图进行切分,以获取至少一个切分方案,每个切分方案包括对所述计算图进行切分得到的至少一个计算子图;
[0008]对芯片的计算资源进行划分,以获取至少一个计算资源划分方案,每个计算资源划分方案包括对所述芯片的计算资源进行划分得到的至少一个子网格,且每个子网格包括至少一个计算核;
[0009]将不同切分方案和
/
或计算资源划分方案进行匹配,以获取至少一个匹配方案,每个匹配方案包括一个计算资源划分方案中的各个子网格及其对应的计算子图;以及
[0010]根据代价模块,获取一个效率最优的匹配方案

[0011]进一步地,将所述计算图切分包括:
[0012]在计算图中插入标记节点,对所述计算图进行切分

[0013]进一步地,对芯片的计算资源进行划分包括:
[0014]将所述芯片的计算核划分为至少一个矩形区域,其中每个矩形区域的尺寸相同或不同,且每个矩形区域中包括至少一个计算核

[0015]进一步地,获取一个效率最优的匹配方案包括:
[0016]根据代价模型,遍历计算每个匹配方案的代价,并选取代价最小的一个匹配方案执行所述计算任务

[0017]进一步地,获取一个效率最优的匹配方案包括:
[0018]训练启发式搜索模型;以及
[0019]采用所述启发式搜索模型,基于所述切分方案

计算资源划分方案

匹配方案构成的解空间,获取最优匹配方案

[0020]进一步地,所述任务调度方法还包括:
[0021]在所述最优匹配方案的每个子网格内对计算子图进行张量切分,并根据代价模型获取效率最优的任务调度方案

[0022]进一步地,对计算子图进行张量切分包括:
[0023]获取所述计算子图中的每个算子的张量信息;以及
[0024]根据所述计算子图对应的子网格中计算核的数量,对每个算子各自的张量进行不同维度上的切分,其中每个算子的切分方式相同或不同

[0025]进一步地,所述任务调度方法还包括:
[0026]对每个匹配方案中的每个子网格内的计算子图进行张量切分,以获取至少一个任务调度方案;以及
[0027]根据代价模型,获取一个效率最优的任务调度方案,其中所述任务调度方案包括计算子图与子网格的匹配方案以及所述匹配方案中各计算子图的张量切分方案

[0028]进一步地,所述代价模型用于评估所述计算任务的执行时间以及内存占用,其中所述执行时间根据如下公式计算得到:
[0029][0030]其中,
[0031]s
i
为第
i
个计算子图,其中
1≤i≤S

S
为计算子图的总个数;
[0032](n
i

m
i
)
为第
i
个子网格;
[0033]t
i

s
i
在子网格
(n
i

m
i
)
上的耗时;以及
[0034]B
为小批量
(micro

...

【技术保护点】

【技术特征摘要】
1.
一种晶圆级架构
AI
加速芯片的任务调度方法,其特征在于,包括步骤:将计算任务转换为计算图;对所述计算图进行切分,以获取至少一个切分方案,每个切分方案包括对所述计算图进行切分得到的至少一个计算子图;对芯片的计算资源进行划分,以获取至少一个计算资源划分方案,每个计算资源划分方案包括对所述芯片的计算资源进行划分得到的至少一个子网格,且每个子网格包括至少一个计算核;将切分方案与计算资源划分方案进行匹配,以获取至少一个匹配方案,每个匹配方案包括切分方案中的各个计算子图及其对应的子网格;以及根据代价模块,获取效率最优的匹配方案
。2.
如权利要求1所述的任务调度方法,其特征在于,将所述计算图切分包括步骤:在计算图中插入标记节点,对所述计算图进行切分
。3.
如权利要求1所述的任务调度方法,其特征在于,对芯片的计算资源进行划分包括步骤:将所述芯片的计算核划分为至少一个矩形区域,其中每个矩形区域的尺寸相同或不同,且每个矩形区域中包括至少一个计算核
。4.
如权利要求1所述的任务调度方法,其特征在于,获取一个效率最优的匹配方案包括步骤:根据代价模型,遍历计算每个匹配方案的代价,并选取代价最小的一个匹配方案执行所述计算任务
。5.
如权利要求1所述的任务调度方法,其特征在于,获取一个效率最优的匹配方案包括步骤:训练启发式搜索模型;以及采用所述启发式搜索模型,基于所述切分方案

计算资源划分方案

匹配方案构成的解空间,获取最优匹配方案
。6.
如权利要求1所述的任务调度方法,其特征在于,还包括步骤:在所述最优匹配方案的每个子网格内对计算子图进行张量切分,以获取至少一个任务调度方案,并根据代价模型确定效率最优的任务调度方案

【专利技术属性】
技术研发人员:代旭姜申飞胡杨韩慧明王磊郝培霖
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1