【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种基于分布式并行大模型的多加速卡多任务调度方法及介质。
技术介绍
1、随着分布式并行大模型参数数量呈指数级增加,现有的人工智能推理加速卡的显存容量往往无法容纳全部的模型参数,因此需要使用多加速卡分布式的方式进行推理。
2、专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:大模型推理通过迭代生成其输出,且大模型推理通常涉及内存密集型而不是计算密集型,特别是在生成阶段内存密集更明显。但是,对于多加速卡多任务在调度算法上,往往存在算力和内存资源浪费情况。
技术实现思路
1、本专利技术提供了一种基于分布式并行大模型的多加速卡多任务调度方法及介质,以实现提高对多加速卡多任务进行动态调度,减少了资源的浪费,节约了算力资源。
2、根据本专利技术的一方面,提供了一种基于分布式并行大模型的多加速卡多任务调度方法,其中,包括:
3、获取目标分布式并行大模型对应的任务请求队列;
4、其中,任务请求队列包括多个目标任务请
...【技术保护点】
1.一种基于分布式并行大模型的多加速卡多任务调度方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述加速卡包括第一张加速卡、0~N张中间加速卡和最后一张加速卡,其中,N为大于0的整数;
3.根据权利要求2所述的方法,其特征在于,所述通过所述加速卡任务调度方法,将所述任务请求队列通过第一张加速卡进行任务调度处理,包括:
4.根据权利要求3所述的方法,其特征在于,在所述判断在各目标任务请求中,是否满足存在至少一个新任务请求、并且在第一张加速卡中存在空槽位之后,还包括:
5.根据权利要求4所述的方法,其特征
...【技术特征摘要】
1.一种基于分布式并行大模型的多加速卡多任务调度方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述加速卡包括第一张加速卡、0~n张中间加速卡和最后一张加速卡,其中,n为大于0的整数;
3.根据权利要求2所述的方法,其特征在于,所述通过所述加速卡任务调度方法,将所述任务请求队列通过第一张加速卡进行任务调度处理,包括:
4.根据权利要求3所述的方法,其特征在于,在所述判断在各目标任务请求中,是否满足存在至少一个新任务请求、并且在第一张加速卡中存在空槽位之后,还包括:
5.根据权利要求4所述的方法,其特征在于,在所述判断在第一张加速卡的各个缓存空间中,是否存在可进行批任务处理的缓存空间之后,还包括:
6.根据权利要求5所述的方法,其特征在于,通过所述加速卡任务调度方法,将所述任务请求队列通过各中间加速卡进行任务调度处理,包括:
7.根据权利要...
【专利技术属性】
技术研发人员:刘敏,李才,邱尧,黄瑞,
申请(专利权)人:上海燧原智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。