【技术实现步骤摘要】
一种深度学习数据集缓存方法、系统、终端及存储介质
本专利技术涉及深度学习
,具体涉及一种深度学习数据集缓存方法、系统、终端及存储介质。
技术介绍
Kubernetes作为管理跨多主机容器应用程序的系统,不仅具备完备的容器集群管理能力,还增加了多层次的安全防护机制、租户应用支撑、服务器注册和智能负载均衡器的功能,尤其kubernetes强大的故障发现和自有修复能力,让系统的运维能力得到了极大提升。Kuberenetes卓越的调度能力也是在很多业务场景中得到应用。例如,Kubernetes在人工智能领域得到了广泛的应用,容器的轻量属性和对GPU、IB卡的使用,尤其对于机器学习和深度学习的支持,非常全面。在深度学习使用过程中,服务器计算资源已经不再是影响训练周期的主要原因,甚至经常会处于“饥饿”状态,导致这种“饥饿”的主要原因是数据集的读取速率。在用户的真实使用场景中,计算资源(CPU、内存、GPU)与存储资源是分离的,悬链任务在读取存储中的数据集时,一般需要通过网络来传输,当网络带宽不足时,数据的读写就会成为严重的
【技术保护点】
1.一种深度学习数据集缓存方法,其特征在于,包括:/n获取容器待执行的训练任务;/n将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中;/n将数据集在缓存设备的存储地址挂载至相应容器。/n
【技术特征摘要】
1.一种深度学习数据集缓存方法,其特征在于,包括:
获取容器待执行的训练任务;
将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中;
将数据集在缓存设备的存储地址挂载至相应容器。
2.根据权利要求1所述的方法,其特征在于,所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中,包括:
将所述对应数据集复制到Beegfs;
对所述用户存储系统进行数据更新监控,若监控到存在数据更新,则将更新的数据同步更新至所述Beegfs。
3.根据权利要求1所述的方法,其特征在于,所述所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中,包括:
获取节点上容器待执行任务所需的数据集;
从用户存储系统将所需数据集复制到节点配置的SSD;
将SSD中存储的数据集信息上传至管理节点备份。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取容器最新接收的训练任务的相关数据集所需存储空间;
获取容器所在节点的SSD剩余存储空间:
若所述所需存储空间超过所述剩余存储空间,则清除所述SSD中的无用数据集。
5.一种深度学习数据集缓存系统,其特征在于,包括:
任务获取单元,配置用于获取容器待执行的训练任务;
数据复制单元,配置用于将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中;
地址挂载单元,配置用于将...
【专利技术属性】
技术研发人员:刘娜,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。