当前位置: 首页 > 专利查询>复旦大学专利>正文

面向大语言模型的多芯粒存算一体计算装置制造方法及图纸

技术编号:44501981 阅读:29 留言:0更新日期:2025-03-07 13:01
本发明专利技术提供了一种面向大语言模型的多芯粒存算一体计算装置,具有这样的特征,包括一个IO芯粒和多个PIM芯粒,其中,IO芯粒包括:嵌入模块用于生成嵌入向量并添加位置编码;IO侧数据通信模块对待计算向量进行裁切并分配至各个PIM芯粒,并接收各个PIM芯粒发送的局部计算反馈向量;同步模块,用于将各个局部计算反馈向量进行同步以及执行残差相加和层归一化计算;token存储器,PIM芯粒包括:PIM侧数据通信模块;全局存储器;多个PIM‑bank模块存储有大语言模型的网络权重,用于根据局部计算向量执行向量‑矩阵乘法生成对应的局部计算反馈向量;softmax模块。总之,本方法能够提高大语言模型的推理速度。

【技术实现步骤摘要】

本专利技术属于大语言模型推理以及存内处理集成芯片领域,具体涉及一种面向大语言模型的多芯粒存算一体计算装置


技术介绍

1、由于集成芯片的灵活性和可扩展性,多种基于集成芯片的技术已经被提出用于高性能计算,包括不同的硬件架构方案与工作负载划分方案。

2、transpim实现了一种基于高带宽存储器即hbm的pim架构,每个hbm堆栈具有3d堆叠的多个动态随机存储器即dram芯粒,位于计算芯粒的顶部,通过硅通孔tsv连接以提供更高的带宽和更低的访问延迟;transpim采用基于令牌即token的分片bank方式,将静态线性层内不同token的计算划分到不同的bank上以避免层内数据移动,并且设计token在bank间的数据流减少了自注意力期间的数据移动。然而,为了在大语言模型即llm预填充期间实现并行计算,它在多个hbm-bank中复制了相同的权重矩阵,难以容纳较大的模型。

3、comb-mcm实现了支持非结构化自适应功耗调节的无损数字pim电路,采用可扩展的集成芯片架构,在65nm下实现2.5d扇出封装,每个芯粒具有单位存储与计算资源,通本文档来自技高网...

【技术保护点】

1.一种面向大语言模型的多芯粒存算一体计算装置,用于加载大语言模型并进行推理,其特征在于,包括:

2.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

3.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

4.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

5.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

6.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

7.根据权利要求1所述的面向大语言...

【技术特征摘要】

1.一种面向大语言模型的多芯粒存算一体计算装置,用于加载大语言模型并进行推理,其特征在于,包括:

2.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

3.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

4.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:

5.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于...

【专利技术属性】
技术研发人员:陈迟晓刘诗玮马宇杰黄至锐林锋
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1