【技术实现步骤摘要】
本专利技术属于信息,尤其涉及一种基于多服务器训练任务资源优化的分配方法。
技术介绍
1、目前,对于大量样本参与算法训练时,首先会对数据集进行一个预处理,包括数据清洗、标准化、增强等。如何高效地进行数据准备是一个挑战。其次,在训练过程中可能需要大量的gpu或cpu资源,如果计算资源不足,训练时间将变得非常长,甚至无法完成。同时,也需要大量内存,特别是在处理大型数据集时,内存不足可能导致内存溢出错误或性能下降。最后,我们在多台机器上进行大规模训练时,需要解决数据同步、通信、任务调度等计算问题。
2、传统方法通常无法充分利用多台服务器的资源,导致训练任务的等待时间较长,系统的稳定性较差。具体为:(1)训练任务通常需要等待服务器资源的释放,导致训练效率低下;(2)资源冲突和任务处理不当可能导致系统崩溃或任务失败;(3)传统的手动文件同步方法效率低下,容易出错;(4)服务器资源常常无法充分利用,浪费了硬件资源。
3、中国专利文献cn111766820a公开了一种应用于智能农业的智能精细化管理控制系统,包括数据采集模块、本地
...【技术保护点】
1.一种基于多服务器训练任务资源优化的分配方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S1的具体步骤为:
3.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S2的具体步骤为:
4.根据权利要求3所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S22的具体步骤为:
5.根据权利要求4所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤S22中若无法同步进入排队即选择继续等待,则将本
...【技术特征摘要】
1.一种基于多服务器训练任务资源优化的分配方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s1的具体步骤为:
3.根据权利要求1所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s2的具体步骤为:
4.根据权利要求3所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s22的具体步骤为:
5.根据权利要求4所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s22中若无法同步进入排队即选择继续等待,则将本次训练任务记录到数据库中,并标识为排队中;并实时通过步骤s1中的flask接口检测服务器gpu资源和硬盘占用情况,若检测到有空闲的服务器gpu资源并且满足排队中的训练任务要求,则将任务状态更新为训练中,并转至步骤s23通过远程服务器同步最新的训练样本至指定的训练服务器。
6.根据权利要求4所述的基于多服务器训练任务资源优化的分配方法,其特征在于,所述步骤s23中还包括在同步样本文件时若中途取消,即当提交申请删除请求已完成的训练任务时,则进行统一处理或再执行选择其他训练服务器;若选择执行删除操作,则判断当前参与训练的样本文件是否有被其他训练任务使用中,若是已经在训练的任务则不能被删除;反之,则执行删除指定样本路径下的样本文件,删除后则释放预定的硬盘占用空间和服务...
【专利技术属性】
技术研发人员:陈大龙,李鹏博,朱庆伟,
申请(专利权)人:南京华苏科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。