【技术实现步骤摘要】
本专利技术涉及计算机,具体涉及存储空间管理方法、装置、计算机设备以及存储介质。
技术介绍
1、随着基础计算能力、算法模型和数据量的持续发展,人工智能(artificialintelligence,ai)的运用正变得日益普遍。为了加速人工智能技术与应用的创新步伐,企业和学术机构正致力于研发更高精度和更强鲁棒性的人工智能模型。在此基础上,在ai模型训练这一业务场景,业界通常会采用kubernets的技术方案,将多个训练服务器和分布式存储用高速网络互连组成训练集群,以得到分布式深度学习训练平台(也即分布式ai训练平台)。
2、在实际的业务场景中,在上述分布式深度学习训练平台的计算节点中执行模型训练等操作时,通常是占用该计算节点的本地空间的,而每个计算节点往往会分配给多个用户进行使用。因此,在计算节点的本地空间被用尽时,该结算节点所有用户的服务均无法正常使用,如何管理分布式深度学习训练平台中年各个计算节点的存储空间,以保证计算节点服务的稳定性,是分布式深度学习训练平台中亟待解决的问题。
技术实现思路>
1、本文档来自技高网...
【技术保护点】
1.一种存储空间管理方法,其特征在于,应用于分布式深度学习训练平台,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述实时监测所述目标账户的训练数据在所述当前计算节点对应的存储空间,包括:
3.根据权利要求2所述的方法,其特征在于,所述环境数据包括:镜像数据;
4.根据权利要求2所述的方法,其特征在于,所述基于所述当前计算节点对应的代理,实时监测所述训练任务运行过程中产生的缓存数据,包括:
5.根据权利要求1所述的方法,其特征在于,确定所述存储空间不满足所述资源配额,包括:
6.根据权利要求1所述
...【技术特征摘要】
1.一种存储空间管理方法,其特征在于,应用于分布式深度学习训练平台,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述实时监测所述目标账户的训练数据在所述当前计算节点对应的存储空间,包括:
3.根据权利要求2所述的方法,其特征在于,所述环境数据包括:镜像数据;
4.根据权利要求2所述的方法,其特征在于,所述基于所述当前计算节点对应的代理,实时监测所述训练任务运行过程中产生的缓存数据,包括:
5.根据权利要求1所述的方法,其特征在于,确定所述存储空间不...
【专利技术属性】
技术研发人员:袁利杰,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。