基于多服务器训练任务资源优化的分配方法组成比例

技术编号:40936004 阅读:28 留言:0更新日期:2024-04-18 14:55
本发明专利技术公开了一种基于多服务器训练任务资源优化的分配方法,步骤为:S1:获取多台服务器的硬件资源信息;S2:创建算法任务,根据选择的样本集的文件大小及训练参数来指定或动态判断即将参与训练的服务器;S3:开始同步远程存储的样本文件至本地训练服务器的指定目录;S4:监控同步样本文件进度,待同步完成之后,开始进行样本训练,并将训练结果保存至本地服务器。该方法基于多服务器,动态分配资源,提高了服务器资源的利用率,降低了资源浪费,同时显著提高了训练效率和系统稳定性。

【技术实现步骤摘要】

本专利技术属于信息,尤其涉及一种基于多服务器训练任务资源优化的分配方法


技术介绍

1、目前,对于大量样本参与算法训练时,首先会对数据集进行一个预处理,包括数据清洗、标准化、增强等。如何高效地进行数据准备是一个挑战。其次,在训练过程中可能需要大量的gpu或cpu资源,如果计算资源不足,训练时间将变得非常长,甚至无法完成。同时,也需要大量内存,特别是在处理大型数据集时,内存不足可能导致内存溢出错误或性能下降。最后,我们在多台机器上进行大规模训练时,需要解决数据同步、通信、任务调度等计算问题。

2、传统方法通常无法充分利用多台服务器的资源,导致训练任务的等待时间较长,系统的稳定性较差。具体为:(1)训练任务通常需要等待服务器资源的释放,导致训练效率低下;(2)资源冲突和任务处理不当可能导致系统崩溃或任务失败;(3)传统的手动文件同步方法效率低下,容易出错;(4)服务器资源常常无法充分利用,浪费了硬件资源。

3、中国专利文献cn111766820a公开了一种应用于智能农业的智能精细化管理控制系统,包括数据采集模块、本地控制系统、本地数据库本文档来自技高网...

【技术保护点】

1.一种基于多服务器训练任务资源优化的分配方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S1的具体步骤为:

3.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S2的具体步骤为:

4.根据权利要求3所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S22的具体步骤为:

5.根据权利要求4所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S22中若无法同步进入排队即选择继续等待,则将本次训练任务记录到数据...

【技术特征摘要】

1.一种基于多服务器训练任务资源优化的分配方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s1的具体步骤为:

3.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s2的具体步骤为:

4.根据权利要求3所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s22的具体步骤为:

5.根据权利要求4所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s22中若无法同步进入排队即选择继续等待,则将本次训练任务记录到数据库中,并标识为排队中;并实时通过步骤s1中的flask接口检测服务器gpu资源和硬盘占用情况,若检测到有空闲的服务器gpu资源并且满足排队中的训练任务要求,则将任务状态更新为训练中,并转至步骤s23通过远程服务器同步最新的训练样本至指定的训练服务器。

6.根据权利要求4所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s23中还包括在同步样本文件时若中途取消,即当提交申请删除请求已完成的训练任务时,则进行统一处理或再执行选择其他训练服务器;若选择执行删除操作,则判断当前参与训练的样本文件是否有被其他训练任务使用中,若是已经在训练的任务则不能被删除;反之,则执行删除指定样本路径下的样本文件,删除后则释放预定的硬盘占用空间和服务...

【专利技术属性】
技术研发人员:陈大龙李鹏博朱庆伟
申请(专利权)人:南京华苏科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1