【技术实现步骤摘要】
一种AI训练平台的存储扩容方法、装置、设备及介质
[0001]本专利技术涉及集群扩容
,尤其涉及一种AI训练平台的存储扩容方法、装置、设备及介质。
技术介绍
[0002]随着AI训练平台的广泛推广,企业级应用越来越多,用户的业务量逐步增大,对于平台存储的需求量增加,现有AI平台中的单一存储已经很难满足用户的需求,因此在AI训练平台中快速、高效、稳定的对用户存储进行扩容是当下急需解决的问题,也是很多客户关心的问题。
[0003]目前AI训练平台支持多存储的添加,通过多存储管理页面进行用户存储扩容。用户为了解决存储空间不足的问题,在AI集群外安装好存储系统,作为待添加到AI平台的备存储。后台登录到AI集群的物理节点,根据备存储的类型:如网络共享文件系统(简称NFS)、高性能并行文件系统(简称Beegfs)、分布式文件系统(简称Lustre)等,执行挂载命令或者通过安装存储客户端等方式,将备存储挂载到集群的各个物理节点。然后修改与备存储相关的微服务的部署文件,修改完成后,重启与新增存储相关的服务,使新挂载存储路径生效 ...
【技术保护点】
【技术特征摘要】
1.一种AI训练平台的存储扩容方法,其特征在于,所述方法包括:将备存储挂载到集群的各个物理节点上;执行修改部署文件脚本,其中,所述修改部署文件脚本用于对各个物理节点上部署的微服务进行扫描查询并返回备存储的存储信息;选取AI训练平台中需要使用备存储的微服务作为目标微服务;基于istorage执行动态挂载脚本,其中,所述动态挂载脚本用于通过ssh连接的方式查找各个目标微服务的进程,并基于备存储的存储信息对进程执行热挂载操作。2.根据权利要求1所述的AI训练平台的存储扩容方法,其特征在于,将备存储挂载到集群的各个物理节点上,包括:登录到集群的物理节点;根据备存储的类型在各个物理节点上执行挂载命令或者安装存储客户端。3.根据权利要求2所述的AI训练平台的存储扩容方法,其特征在于,所述备存储的类型包括网络共享文件系统、高性能并行文件系统、分布式文件系统。4.根据权利要求1所述的AI训练平台的存储扩容方法,其特征在于,所述修改部署文件脚本用于执行以下步骤:根据微服务部署文件所在的目录扫描文件内容;根据主存储定义的key值查找所有微服务的部署文件;通过sed命令将存储的配置内容追加到主存储配置;输出备存储的存储名称、存储路径和挂载物理节点。5.根据权利要求1所述的AI训练平台的存储扩容方法,其特征在于,选取AI训练平台中需要使用备存储的微服务作为目标微服务,包括:接收用户输入的微服务名称;基于用于输入的微服务名称对AI训练平台中所有微服务进行筛选,将筛选得到的微服务作为目标微服务。6.根据权利要求1所述的AI训练平台的存储扩容方法,其特征在于,所述动态挂载脚本应用执行以下步骤:根据kubectl的命令...
【专利技术属性】
技术研发人员:郑玉会,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。