【技术实现步骤摘要】
一种针对超大模型的分布式推理部署系统
[0001]本公开涉及高性能计算中深度学习模型的分布式部署应用,尤其涉及一种针对超大模型的分布式推理部署系统。
技术介绍
[0002]随着深度学习和人工智能技术的发展,深度学习技术应用的领域也越来越广泛。近年来,各大公司和科研机构不断推出超大模型。作为探索通用人工智能领域的路径之一,大模型的出现意味着“工业化”开发模式的到来。大模型覆盖的领域很广泛,包括文本、语音、视觉等多个方向。大模型的参数规模也逐渐变大,从百万、千万、亿到千亿、万亿。超大模型的重要性越来越高,超大模型的推理部署是影响超大模型落地的关键。
技术实现思路
[0003]针对上述现有技术,本专利技术的目的在于提供一种针对超大模型的分布式推理部署系统,用于对超大模型进行分布式部署应用。本专利技术的分布式系统超大模型采用通用模型进行中间表述,以实现对大多数超大模型支持部署,而不局限于自然语言处理(NLP,Natural Language Processing)领域。
[0004]为实现上述目的,本专利技术
【技术保护点】
【技术特征摘要】
1.一种针对超大模型的分布式推理部署系统,其特征在于,所述系统包括任务分配模块、并行管理模块、运行时模块,以实现超大模型的分布式推理系统的部署;其中:任务分配模块,被配置用于将超大模型解析成中间表述,基于中间表述构建计算图,将计算图拆分为计算子图,建立计算子图与计算节点的映射关系,并将任务分配信息打包成Package;并行管理模块,被配置基于计算子图和计算节点的映射关系,向所有计算节点发送对应的Package,并且构建计算节点之间的通信关系;运行时模块,被配置用于在接收Package的计算节点上对Package进行解析并执行对应的任务。2.根据权利要求1所述的系统,其特征在于,建立计算子图与计算节点的映射关系,所采用的策略包括采用最快推理速度策略或最大吞吐率策略;所述最快推理速度策略:使用G_sub表述计算子图,使用comm
j
表示第j个计算节点的时间,则通过使下述公式取得最小值时,确定计算子图与计算节点的对应关系:式中:t(G_sub
i
)表示计算子图的执行时间,n表示计算子图的数目,k表示通信节点的数目;所述最大吞吐率策略,使得计算子图对应的推理任务在执行时,采用流水线的方式执行。3.根据权利要求1所述的系统,其特征在于,所述系统还包括执行模块,用于对多种推理引擎后端进行管理;所述计算子图保存原始的模型格式,所述任务分配模块在打包成Package时,将计算子图对应的推理引擎后端一起打包,以使Package在解析后,能够使计算节点上的执行模块使用相应的推理引擎后端对计算子图进行解析并完成计算。4.根据权利要求1所述的系统,其特征在于,所述并行管理模块能够实现算子拆分;所述算子拆分,为将...
【专利技术属性】
技术研发人员:李天健,林达华,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。