面向大模型训练与推理的GPU异构集群调度方法及系统技术方案

技术编号:46063842 阅读:6 留言:0更新日期:2025-08-11 15:50
本申请涉及集群调度技术领域,提供了面向大模型训练与推理的GPU异构集群调度方法及系统,通过整合硬件特征、运行状态和历史任务数据等多源信息,运用聚类算法、模糊综合评价法和强化学习等技术,构建了一套完整的集群调度系统,实现了对GPU集群资源的全面、智能且动态的管理与调度,该集群调度系统能够显著提升GPU异构集群在大模型训练与推理任务中的执行效率,提高资源利用率,降低能耗,增强系统的稳定性和适应性,为大规模深度学习应用提供了高效和可靠的解决方案。

【技术实现步骤摘要】

本申请涉及集群调度,尤其涉及面向大模型训练与推理的gpu异构集群调度方法及系统。


技术介绍

1、在人工智能快速发展下,大模型在自然语言处理和自动驾驶等场景广泛应用,其训练与推理对计算资源需求剧增,gpu异构集群成为关键,但是自然语言处理和自动驾驶场景的大模型训练任务均包含有复杂依赖关系的子任务,传统调度系统拆分训练任务时,常常忽视这些依赖关系,导致子任务执行顺序混乱,影响训练进程,且在资源竞争时,现有资源冲突检测与解决机制不智能,比如自动驾驶中紧急情况下,高优先级的实时路况推理任务会因资源被低优先级任务占用,无法及时获取资源,危及行车安全。大多数没有解决如何确定gpu异构集群中各gpu节点的资源状态,并针对大模型训练与推理任务类型差异进行有效调度的问题。


技术实现思路

1、针对现有技术的不足,本申请提供面向大模型训练与推理的gpu异构集群调度方法及系统。

2、第一方面,本申请提供面向大模型训练与推理的gpu异构集群调度系统,该系统包括:异构画像模块、拓扑生成模块、弹性分片模块和目标调度模块;异构画本文档来自技高网...

【技术保护点】

1.面向大模型训练与推理的GPU异构集群调度系统,其特征在于,包括:异构画像模块、拓扑生成模块、弹性分片模块和目标调度模块;

2.如权利要求1所述的面向大模型训练与推理的GPU异构集群调度系统,其特征在于,所述每个GPU节点的资源状态的确定逻辑包括:

3.如权利要求2所述的面向大模型训练与推理的GPU异构集群调度系统,其特征在于,所述显存访问模式和指令集匹配度的确定子逻辑包括:

4.如权利要求3所述的面向大模型训练与推理的GPU异构集群调度系统,其特征在于,所述拓扑配置指令的输出逻辑包括:

5.如权利要求4所述的面向大模型训练与推理的GPU...

【技术特征摘要】

1.面向大模型训练与推理的gpu异构集群调度系统,其特征在于,包括:异构画像模块、拓扑生成模块、弹性分片模块和目标调度模块;

2.如权利要求1所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述每个gpu节点的资源状态的确定逻辑包括:

3.如权利要求2所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述显存访问模式和指令集匹配度的确定子逻辑包括:

4.如权利要求3所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述拓扑配置指令的输出逻辑包括:

5.如权利要求4所述的面向大模型训练与推理的gpu异构集群调度系统,其特征在于,所述硬件连接拓扑的生成子逻辑包括...

【专利技术属性】
技术研发人员:毛霖张帆陈海军齐佰剑黄德民陈红屹
申请(专利权)人:新立讯科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1