一种用于AIGC模型训练的分布式算力调度系统技术方案

技术编号：40076541 阅读：9 留言：0更新日期：2024-01-17 01:26

本发明专利技术提供了一种用于AIGC模型训练的分布式算力调度系统，涉及电数字数据处理领域，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块，所述资源注册模块用于记录所有计算资源的状态信息，所述任务调度模块用于完成对训练任务的初始分配，所述智能决策模块用于对训练过程进行智能分析，所述资源调配模块根据分析结果对计算资源进行动态调配；本系统能够对用于模型训练的算力资源进行动态调整，提高算力以及模型训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电数字数据处理领域，具体涉及一种用于aigc模型训练的分布式算力调度系统。

技术介绍

1、随着人工智能的发展，模型训练的需求也越来越大，而模型训练需要算力来执行，常见的方式是给算力资源设定固定的规则来执行训练任务，但这种方式会导致无法发挥出算力资源的最大潜力，从而降低模型训练的效率，因此，需要一种系统在训练过程中对算力资源进行调度，提高算力资源的有效利用率。

2、
技术介绍
的前述论述仅意图便于理解本专利技术。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

3、现在已经开发出了很多算力调度系统，经过大量的检索与参考，发现现有的调度系统有如公开号为cn116483546a所公开的系统，这些系统方法一般包括：获取各个训练任务的调度状态，调度状态包括调度成功以及调度未成功；对于调度状态为调度未成功的第一训练任务，获取目标集群资源的空闲资源量以及第一训练任务的最小资源需求量；若空闲资源量小于最小资源需求量，从调度状态为调度成功的第二训练任务中筛选出可分配资源的训练任务，以获取可分配资源；基于可分配资源以及所述空闲资源量，对第一训练任务进行任务调度。但该系统是通过获取任务、调度算力的方式来进行训练，但这种方式未考虑到整个训练任务的整体性，无法充分发挥算力资源的利用率。

技术实现思路

1、本专利技术的目的在于，针对所存在的不足，提出了一种用于aigc模型训练的分布式算力调度系统。

2、本专利技术采用如下技术方案：

3、一种用

4、所述资源注册模块用于记录所有计算资源的状态信息，所述任务调度模块用于完成对训练任务的初始分配，所述智能决策模块用于对训练过程进行智能分析，所述资源调配模块根据分析结果对计算资源进行动态调配；

5、所述资源注册模块包括资源管理单元、状态监测单元和信息更新单元，所述资源管理单元用于负责管理注册到系统中的所有计算节点信息，所述状态监测单元用于实时监控各计算节点的状态，所述信息更新单元负责接收来自计算节点的状态更新；

6、所述任务调度模块包括任务接收单元和任务分配单元，所述任务接收单元用于接收用户提交的aigc模型训练任务，所述任务分配单元用于对任务需求和资源状况进行分析，将任务分配到具体的节点执行；

7、所述智能决策模块包括预测模型单元和决策算法单元，所述预测模型单元用于对模型的资源使用趋势进行预测，所述决策算法单元用于生成优化的资源调度决策；

8、所述资源调配模块包括资源调度单元、资源监控单元和故障处理单元，所述资源调度单元用于执行智能决策模块给出的决策，进行资源的动态分配和调整，所述资源监控单元用于对资源调配的实施情况进行监控，所述故障处理单元用于对发现的节点故障进行响应；

9、进一步的，所述任务接收单元包括模型任务处理器和任务拆解处理器，所述模型任务处理器用于提供接口接收模型任务数据，所述任务拆解处理器用于将接收的模型任务进行拆解；

10、所述任务拆解处理器对识别出基础任务后根据下式计算出任务的锚定时间：

11、；

12、其中，为前置任务的最大锚定时间，为目标任务的计算量，为标准处理速度；

13、进一步的，所述任务分配单元包括任务节点匹配处理器和任务转移处理器，所述任务节点匹配处理器用于将任务与节点进行匹配，所述任务转移处理器根据匹配结果将任务信息发送给对应的节点；

14、所述节点匹配处理器为每个节点设置一个分配池，并根据下式计算出每个节点的分配指数：

15、；

16、其中，n为分配池中已有的任务的数量，表示分配池中第i个任务的锚定时间，为标准处理能力，为标准周期时间，ab为节点的处理能力参数；

17、所述节点匹配处理器将按序获取的任务添加进分配指数最小的分配池中；

18、进一步的，所述预测模型单元包括数据源接收寄存器和趋势预测处理器，所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据，所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间lea；

19、进一步的，所述决策算法单元包括预测结果寄存器和优化决策处理器，所述预测结果寄存器用于接收并保存所述趋势预测处理器发送的每个节点的和lea数据，所述优化决策处理器根据所述预测结果对未完成的任务进行调配。

20、本专利技术所取得的有益效果是：

21、本系统通过拆解任务、分配任务、训练预测和任务调配四个过程来实现在训练过程中优化算力资源，拆解任务和分配任务基于整个训练模型将任务分配给对应的算力节点，定下了一个算力应用的基调，保证了算力有效利用率的下限，而训练预测和任务调配则基于实际训练过程将任务在节点之间调配，提高了算力有效利用率的上限。

22、为使能更进一步了解本专利技术的特征及
技术实现思路
，请参阅以下有关本专利技术的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本专利技术加以限制。

本文档来自技高网...

【技术保护点】

1.一种用于AIGC模型训练的分布式算力调度系统，其特征在于，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块；

2.如权利要求1所述的一种用于AIGC模型训练的分布式算力调度系统，其特征在于，所述任务接收单元包括模型任务处理器和任务拆解处理器，所述模型任务处理器用于提供接口接收模型任务数据，所述任务拆解处理器用于将接收的模型任务进行拆解；

3.如权利要求2所述的一种用于AIGC模型训练的分布式算力调度系统，其特征在于，所述任务分配单元包括任务节点匹配处理器和任务转移处理器，所述任务节点匹配处理器用于将任务与节点进行匹配，所述任务转移处理器根据匹配结果将任务信息发送给对应的节点；

4.如权利要求3所述的一种用于AIGC模型训练的分布式算力调度系统，其特征在于，所述预测模型单元包括数据源接收寄存器和趋势预测处理器，所述数据源接收寄存器用于接收并存储所述信息更新单元中的节点状态数据，所述趋势预测处理器根据节点状态数据预测出每个节点下个周期的平均算力使用比例和相对完成时间Lea。

5.如权利要求4所述的一种用于AIGC模型训练的

...

【技术特征摘要】

1.一种用于aigc模型训练的分布式算力调度系统，其特征在于，包括资源注册模块、任务调度模块、智能决策模块和资源调配模块；

2.如权利要求1所述的一种用于aigc模型训练的分布式算力调度系统，其特征在于，所述任务接收单元包括模型任务处理器和任务拆解处理器，所述模型任务处理器用于提供接口接收模型任务数据，所述任务拆解处理器用于将接收的模型任务进行拆解；

3.如权利要求2所述的一种用于aigc模型训练的分布式算力调度系统，其特征在于，所述任务分配单元包括任务节点匹配处理器和任务转移处理器，所述任务节点匹配处理器用于将任务与节点进行匹配，所述任务转...

【专利技术属性】
技术研发人员：张卫平，丁洋，王丹，邵胜博，李显阔，
申请(专利权)人：环球数科集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人