一种深度学习数据集缓存方法、系统、终端及存储介质技术方案

技术编号：24089221 阅读：43 留言：0更新日期：2020-05-09 07:19

本发明专利技术提供一种深度学习数据集缓存方法、系统、终端及存储介质，包括：获取容器待执行的训练任务；将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；将数据集在缓存设备的存储地址挂载至相应容器。相对于现有技术中从用户存储系统中读取数据集，本发明专利技术令容器从缓存设备中读取数据集，提高了数据集的读取速度，让数据集在训练任务开始之前就缓存到指定的设备上，以便训练任务开始之后可以高速的读取数据，避免了计算资源的“饥饿”状态，大大缩短算立案周期，也在很大程度提升了计算资源的利用率。

A cache method, system, terminal and storage medium for deep learning data set

全部详细技术资料下载

【技术实现步骤摘要】
一种深度学习数据集缓存方法、系统、终端及存储介质
本专利技术涉及深度学习
，具体涉及一种深度学习数据集缓存方法、系统、终端及存储介质。
技术介绍
Kubernetes作为管理跨多主机容器应用程序的系统，不仅具备完备的容器集群管理能力，还增加了多层次的安全防护机制、租户应用支撑、服务器注册和智能负载均衡器的功能，尤其kubernetes强大的故障发现和自有修复能力，让系统的运维能力得到了极大提升。Kuberenetes卓越的调度能力也是在很多业务场景中得到应用。例如，Kubernetes在人工智能领域得到了广泛的应用，容器的轻量属性和对GPU、IB卡的使用，尤其对于机器学习和深度学习的支持，非常全面。在深度学习使用过程中，服务器计算资源已经不再是影响训练周期的主要原因，甚至经常会处于“饥饿”状态，导致这种“饥饿”的主要原因是数据集的读取速率。在用户的真实使用场景中，计算资源(CPU、内存、GPU)与存储资源是分离的，悬链任务在读取存储中的数据集时，一般需要通过网络来传输，当网络带宽不足时，数据的读写就会成为严重的

【技术保护点】
1.一种深度学习数据集缓存方法，其特征在于，包括：/n获取容器待执行的训练任务；/n将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；/n将数据集在缓存设备的存储地址挂载至相应容器。/n

【技术特征摘要】
1.一种深度学习数据集缓存方法，其特征在于，包括：
获取容器待执行的训练任务；
将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；
将数据集在缓存设备的存储地址挂载至相应容器。

2.根据权利要求1所述的方法，其特征在于，所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中，包括：
将所述对应数据集复制到Beegfs；
对所述用户存储系统进行数据更新监控，若监控到存在数据更新，则将更新的数据同步更新至所述Beegfs。

3.根据权利要求1所述的方法，其特征在于，所述所述将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中，包括：
获取节点上容器待执行任务所需的数据集；
从用户存储系统将所需数据集复制到节点配置的SSD；
将SSD中存储的数据集信息上传至管理节点备份。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
获取容器最新接收的训练任务的相关数据集所需存储空间；
获取容器所在节点的SSD剩余存储空间：
若所述所需存储空间超过所述剩余存储空间，则清除所述SSD中的无用数据集。

5.一种深度学习数据集缓存系统，其特征在于，包括：
任务获取单元，配置用于获取容器待执行的训练任务；
数据复制单元，配置用于将用户存储系统中的所述训练任务对应的数据集复制到缓存设备中；
地址挂载单元，配置用于将...

【专利技术属性】
技术研发人员：刘娜，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人