【技术实现步骤摘要】
本专利技术属于分布式训练,具体涉及一种异构算力环境下的模型训练任务分配方法及系统。
技术介绍
1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
2、大模型时代,模型参数与数据规模成指数级增长,尽管算力资源总量发展迅速,但各算力提供商所能提供的算力分布不均衡,在这种非均衡算力分布条件下如何更好的支撑大模型训练,充分发挥当前算力资源优势具有十分重要的研究意义和研究价值。
3、拆分计算是对大模型进行拆分并部署于分布式集群进行并行训练的一种新的计算模式,能够提高大模型训练效率并且充分利用碎片化计算资源,是当前面向分布式算力条件下大模型训练的技术发展趋势。但是现有的方法中对于拆分点的选择不一,使得计算资源分配不均,从而导致训练效率低下。
技术实现思路
1、为了解决上述问题,本专利技术提出了一种异构算力环境下的模型训练任务分配方法及系统,本专利技术建立了一个分层的深度强化学习(drl)模型,以终端-边缘层为例,不同的子策略网络分别针对不同的算力资
...【技术保护点】
1.一种异构算力环境下的模型训练任务分配方法,其特征在于,包括:
2.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法,其特征在于,所述综合评估函数,具体为:
3.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法,其特征在于,采用分层深度强化学习模型对迭代循环寻找的过程进行求解,其中,所述分层深度强化学习模型包括状态空间、动作空间以及总体奖励函数;
4.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法,其特征在于,所述根据模型训练请求的数据量与设定阈值之间的大小关系对多个终端进行分组,具体为:
< ...【技术特征摘要】
1.一种异构算力环境下的模型训练任务分配方法,其特征在于,包括:
2.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法,其特征在于,所述综合评估函数,具体为:
3.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法,其特征在于,采用分层深度强化学习模型对迭代循环寻找的过程进行求解,其中,所述分层深度强化学习模型包括状态空间、动作空间以及总体奖励函数;
4.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法,其特征在于,所述根据模型训练请求的数据量与设定阈值之间的大小关系对多个终端进行分组,具体为:
5.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法,其特征在于,所述根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围,在确定的初步选择范围内,基于在拆分点时终端和边缘匹配节点之间的延迟和能耗最小为目标,迭代循环寻找局部最优拆分点,具体为:
6.如权利要求1所述的一种异构算...
【专利技术属性】
技术研发人员:张玮,李杭伦,史慧玲,郝昊,丁伟,谭立状,王小龙,时文齐,
申请(专利权)人:齐鲁工业大学山东省科学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。