用于模型训练的并行运算方法及装置制造方法及图纸

技术编号:39987114 阅读:13 留言:0更新日期:2024-01-09 01:58
本发明专利技术提供一种用于模型训练的并行运算方法及装置,所述方法包括:基于模型当前运算步骤对应空闲计算核,从多个待运算步骤中确定并行运算步骤;在空闲计算核执行并行运算步骤,以及在当前运算步骤对应的运算核执行当前运算步骤。由于并行运算步骤是能够在空闲运算核上执行的运算步骤,从而在执行当前运算步骤对应的运算核上执行当前运算步骤的同时,还可以同步在空闲运算核上执行并行运算步骤,避免空闲运算核闲置导致浪费硬件资源的问题。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种用于模型训练的并行运算方法及装置


技术介绍

1、大语言模型(large language model,llm)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等。llm通常包含了大量的前馈神经网络(feedforward neural network,ffn)运算及attention运算,需要消耗大量的计算资源。其中,在进行llm训练时,由于直接采用注意力机制会需要占用大量的中间存储,往往需要引入切块的类flash-attention机制,在flash-attention机制下,包括多个运算步骤。

2、现有技术中通常按照运算步骤顺序分步执行各运算步骤,但运算步骤可能会在不同运算中切换,而不同运算需要在不同的计算核上实现,进而在执行每个运算步骤时可能会存在计算核闲置,浪费了大量硬件资源。例如,运算步骤1为矩阵乘运算步骤,其需要在在张量加速核上实现;运算步骤2为特殊函数运算步骤,其需要在向量运算核上实现;因此在执行运算步骤1时,采用的是张本文档来自技高网...

【技术保护点】

1.一种用于模型训练的并行运算方法,其特征在于,包括:

2.根据权利要求1所述的用于模型训练的并行运算方法,其特征在于,所述基于模型当前运算步骤对应空闲计算核,从多个待运算步骤中确定并行运算步骤,包括:

3.根据权利要求2所述的用于模型训练的并行运算方法,其特征在于,所述将所述当前运算步骤的下一待运算步骤作为第一候选运算步骤,包括:

4.根据权利要求1至3任一项所述的用于模型训练的并行运算方法,其特征在于,所述基于模型当前运算步骤对应空闲计算核,从多个待运算步骤中确定并行运算步骤,包括:

5.根据权利要求4所述的用于模型训练的并行运算方法,...

【技术特征摘要】

1.一种用于模型训练的并行运算方法,其特征在于,包括:

2.根据权利要求1所述的用于模型训练的并行运算方法,其特征在于,所述基于模型当前运算步骤对应空闲计算核,从多个待运算步骤中确定并行运算步骤,包括:

3.根据权利要求2所述的用于模型训练的并行运算方法,其特征在于,所述将所述当前运算步骤的下一待运算步骤作为第一候选运算步骤,包括:

4.根据权利要求1至3任一项所述的用于模型训练的并行运算方法,其特征在于,所述基于模型当前运算步骤对应空闲计算核,从多个待运算步骤中确定并行运算步骤,包括:

5.根据权利要求4所述的用于模型训练的并行运算方法,其特征在于,所述基于所述空闲计算核的类型,以及各待运算步骤对应计算核的类型,从各待运算步骤中确定第二候选运算步骤,包括...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1