【技术实现步骤摘要】
本专利技术属于大语言模型推理以及存内处理集成芯片领域,具体涉及一种面向大语言模型的多芯粒存算一体计算装置。
技术介绍
1、由于集成芯片的灵活性和可扩展性,多种基于集成芯片的技术已经被提出用于高性能计算,包括不同的硬件架构方案与工作负载划分方案。
2、transpim实现了一种基于高带宽存储器即hbm的pim架构,每个hbm堆栈具有3d堆叠的多个动态随机存储器即dram芯粒,位于计算芯粒的顶部,通过硅通孔tsv连接以提供更高的带宽和更低的访问延迟;transpim采用基于令牌即token的分片bank方式,将静态线性层内不同token的计算划分到不同的bank上以避免层内数据移动,并且设计token在bank间的数据流减少了自注意力期间的数据移动。然而,为了在大语言模型即llm预填充期间实现并行计算,它在多个hbm-bank中复制了相同的权重矩阵,难以容纳较大的模型。
3、comb-mcm实现了支持非结构化自适应功耗调节的无损数字pim电路,采用可扩展的集成芯片架构,在65nm下实现2.5d扇出封装,每个芯粒具有单
...【技术保护点】
1.一种面向大语言模型的多芯粒存算一体计算装置,用于加载大语言模型并进行推理,其特征在于,包括:
2.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
3.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
4.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
5.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
6.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
7.根据权利要
...【技术特征摘要】
1.一种面向大语言模型的多芯粒存算一体计算装置,用于加载大语言模型并进行推理,其特征在于,包括:
2.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
3.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
4.根据权利要求2所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于:
5.根据权利要求1所述的面向大语言模型的多芯粒存算一体计算装置,其特征在于...
【专利技术属性】
技术研发人员:陈迟晓,刘诗玮,马宇杰,黄至锐,林锋,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。