【技术实现步骤摘要】
本申请涉及集群调度,尤其涉及面向大模型训练与推理的gpu异构集群调度方法及系统。
技术介绍
1、在人工智能快速发展下,大模型在自然语言处理和自动驾驶等场景广泛应用,其训练与推理对计算资源需求剧增,gpu异构集群成为关键,但是自然语言处理和自动驾驶场景的大模型训练任务均包含有复杂依赖关系的子任务,传统调度系统拆分训练任务时,常常忽视这些依赖关系,导致子任务执行顺序混乱,影响训练进程,且在资源竞争时,现有资源冲突检测与解决机制不智能,比如自动驾驶中紧急情况下,高优先级的实时路况推理任务会因资源被低优先级任务占用,无法及时获取资源,危及行车安全。大多数没有解决如何确定gpu异构集群中各gpu节点的资源状态,并针对大模型训练与推理任务类型差异进行有效调度的问题。
技术实现思路
1、针对现有技术的不足,本申请提供面向大模型训练与推理的gpu异构集群调度方法及系统。
2、第一方面,本申请提供面向大模型训练与推理的gpu异构集群调度系统,该系统包括:异构画像模块、拓扑生成模块、弹性分片模块和
...【技术保护点】
1.面向大模型训练与推理的GPU异构集群调度系统,其特征在于,包括:异构画像模块、拓扑生成模块、弹性分片模块和目标调度模块;
2.如权利要求1所述的面向大模型训练与推理的GPU异构集群调度系统,其特征在于,所述每个GPU节点的资源状态的确定逻辑包括:
3.如权利要求2所述的面向大模型训练与推理的GPU异构集群调度系统,其特征在于,所述显存访问模式和指令集匹配度的确定子逻辑包括:
4.如权利要求3所述的面向大模型训练与推理的GPU异构集群调度系统,其特征在于,所述拓扑配置指令的输出逻辑包括:
5.如权利要求4所述的面向大模
...【技术特征摘要】
1.面向大模型训练与推理的gpu异构集群调度系统,其特征在于,包括:异构画像模块、拓扑生成模块、弹性分片模块和目标调度模块;
2.如权利要求1所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述每个gpu节点的资源状态的确定逻辑包括:
3.如权利要求2所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述显存访问模式和指令集匹配度的确定子逻辑包括:
4.如权利要求3所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述拓扑配置指令的输出逻辑包括:
5.如权利要求4所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述硬件连接拓扑的生成子逻辑包括...
【专利技术属性】
技术研发人员:毛霖,张帆,陈海军,齐佰剑,黄德民,陈红屹,
申请(专利权)人:新立讯科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。