存储空间管理方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:42771821 阅读:20 留言:0更新日期:2024-09-21 00:35
本发明专利技术涉及计算机技术领域,公开了存储空间管理方法、装置、计算机设备以及存储介质,其中,存储空间管理方法,应用于分布式深度学习训练平台,包括:获取目标账户在分布式深度学习训练平台对应的资源配额,并实时监测目标账户的训练数据在当前计算节点对应的存储空间;在存储空间不满足资源配额的情况下,在训练数据中确定待处理数据;对待处理数据执行迁移操作和/或删除操作,直至存储空间满足资源配额,其中,迁移操作用于指示将待处理数据迁移至目标账户在分布式深度学习训练平台对应的关联计算节点。本发明专利技术可以在分布式深度学习平台的计算节点的本地空间被用尽时采用更为合理的方式,管理该计算节点的存储空间,以保证计算节点服务的稳定性。

【技术实现步骤摘要】

本专利技术涉及计算机,具体涉及存储空间管理方法、装置、计算机设备以及存储介质


技术介绍

1、随着基础计算能力、算法模型和数据量的持续发展,人工智能(artificialintelligence,ai)的运用正变得日益普遍。为了加速人工智能技术与应用的创新步伐,企业和学术机构正致力于研发更高精度和更强鲁棒性的人工智能模型。在此基础上,在ai模型训练这一业务场景,业界通常会采用kubernets的技术方案,将多个训练服务器和分布式存储用高速网络互连组成训练集群,以得到分布式深度学习训练平台(也即分布式ai训练平台)。

2、在实际的业务场景中,在上述分布式深度学习训练平台的计算节点中执行模型训练等操作时,通常是占用该计算节点的本地空间的,而每个计算节点往往会分配给多个用户进行使用。因此,在计算节点的本地空间被用尽时,该结算节点所有用户的服务均无法正常使用,如何管理分布式深度学习训练平台中年各个计算节点的存储空间,以保证计算节点服务的稳定性,是分布式深度学习训练平台中亟待解决的问题。


技术实现思路>

1、本文档来自技高网...

【技术保护点】

1.一种存储空间管理方法,其特征在于,应用于分布式深度学习训练平台,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述实时监测所述目标账户的训练数据在所述当前计算节点对应的存储空间,包括:

3.根据权利要求2所述的方法,其特征在于,所述环境数据包括:镜像数据;

4.根据权利要求2所述的方法,其特征在于,所述基于所述当前计算节点对应的代理,实时监测所述训练任务运行过程中产生的缓存数据,包括:

5.根据权利要求1所述的方法,其特征在于,确定所述存储空间不满足所述资源配额,包括:

6.根据权利要求1所述的方法,其特征在于,...

【技术特征摘要】

1.一种存储空间管理方法,其特征在于,应用于分布式深度学习训练平台,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述实时监测所述目标账户的训练数据在所述当前计算节点对应的存储空间,包括:

3.根据权利要求2所述的方法,其特征在于,所述环境数据包括:镜像数据;

4.根据权利要求2所述的方法,其特征在于,所述基于所述当前计算节点对应的代理,实时监测所述训练任务运行过程中产生的缓存数据,包括:

5.根据权利要求1所述的方法,其特征在于,确定所述存储空间不...

【专利技术属性】
技术研发人员:袁利杰
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1