一种异构算力环境下的模型训练任务分配方法及系统技术方案

技术编号：44202326 阅读：27 留言：0更新日期：2025-02-06 18:37

本发明专利技术属于分布式训练领域，提供了一种异构算力环境下的模型训练任务分配方法及系统，构建一个分层的深度强化学习模型，用于在终端层、边缘层和云计算层之间进行优化拆分点的选择和资源分配，从而实现高效的计算任务分配和模型训练。通过设计多个子策略网络来应对不同算力需求的任务。结合了资源感知模块，以衡量每层的计算资源、网络带宽和延迟等状态。启发式算法用于初步估计拆分点范围，减少无关位置的探索，优化搜索效率。针对神经网络模型计算所需要的资源，以浮点运算的数量来衡量。在拆分点的选择中，主要采取深度强化学习的方法结合资源感知模块，通过结构优化寻找最优的拆分点，以实现模型的有效拆分，并在两端侧完成高效的联合训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于分布式训练，具体涉及一种异构算力环境下的模型训练任务分配方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、大模型时代，模型参数与数据规模成指数级增长，尽管算力资源总量发展迅速，但各算力提供商所能提供的算力分布不均衡，在这种非均衡算力分布条件下如何更好的支撑大模型训练，充分发挥当前算力资源优势具有十分重要的研究意义和研究价值。

3、拆分计算是对大模型进行拆分并部署于分布式集群进行并行训练的一种新的计算模式，能够提高大模型训练效率并且充分利用碎片化计算资源，是当前面向分布式算力条件下大模型训练的技术发展趋势。但是现有的方法中对于拆分点的选择不一，使得计算资源分配不均，从而导致训练效率低下。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种异构算力环境下的模型训练任务分配方法及系统，本专利技术建立了一个分层的深度强化学习（drl）模型，以终端-边缘层为例，不同的子策略网络分别针对不同的算力资...

【技术保护点】

1.一种异构算力环境下的模型训练任务分配方法，其特征在于，包括：

2.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述综合评估函数，具体为：

3.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，采用分层深度强化学习模型对迭代循环寻找的过程进行求解，其中，所述分层深度强化学习模型包括状态空间、动作空间以及总体奖励函数；

4.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述根据模型训练请求的数据量与设定阈值之间的大小关系对多个终端进行分组，具体为：

<...

【技术特征摘要】

1.一种异构算力环境下的模型训练任务分配方法，其特征在于，包括：

2.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述综合评估函数，具体为：

5.如权利要求1所述的一种异构算力环境下的模型训练任务分配方法，其特征在于，所述根据模型训练请求的分组情况在模型中确定拆分点的初步选择范围，在确定的初步选择范围内，基于在拆分点时终端和边缘匹配节点之间的延迟和能耗最小为目标，迭代循环寻找局部最优拆分点，具体为：

6.如权利要求1所述的一种异构算...

【专利技术属性】
技术研发人员：张玮，李杭伦，史慧玲，郝昊，丁伟，谭立状，王小龙，时文齐，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人