【技术实现步骤摘要】
一种分布式数据缓存加速训练的方法、系统及介质
[0001]本专利技术涉及人工智能领域,特别是涉及一种分布式数据缓存加速训练的方法、系统及介质。
技术介绍
[0002]随着人工智能业务的广泛发展,大量的业务数据需要被分析以及作为人工智能业务更新的训练材料,而如何提高在不同类型存储(NFS、HDFS、GlusterFS等)上的训练数据的读取速度提高整体训练速度成为业界重要的研究课题之一,深度学习训练任务通常采用分布式的训练框架进行训练,如Tensorflow、Caffe、Pytorch等。各个任务的训练数据通常也是由大量小文件目录和数据标签组成,如计算机视觉常用的ImageNet
‑
1K数据集包含了一千种类超过一百多万的图片文件,因此,如何有效减少训练前期数据读取时间成为当前深度学习的研究热点之一。
[0003]目前现有技术存在训练过程中数据读取缓慢,尤其是在云存储的训练数据在过程中尤其缓慢。
技术实现思路
[0004]本专利技术主要解决是训练过程中数据读取缓慢,尤其是在云存储的训练数据 ...
【技术保护点】
【技术特征摘要】
1.一种分布式数据缓存加速训练的方法,其特征在于,包括以下步骤:配置训练环境以及数据集;获取训练任务;判断Kubernetes是否识别所述训练任务,若未识别,则将所述训练任务转换为所述Kubernetes识别的命令和配置;根据所述训练任务进行任务调度并执行调度策略得到第一数据集;根据所述训练任务和所述第一数据集进行选择所述第一数据集的缓存类别;将所述训练任务通过所述Kubernetes并根据所述第一数据集以及所述第一数据集的缓存类别进行训练。2.根据权利要求1所述的分布式数据缓存加速训练的方法,其特征在于:所述配置训练环境以及数据集的步骤进一步包括:使用Kubernetes Volume;将云存储或存储服务器中存储的训练数据集下载至训练节点的存储器上;进行数据集缓存配置以及数据集复用配置;设置所述数据集的标签,并记为第一标签。3.根据权利要求2所述的分布式数据缓存加速训练的方法,其特征在于:所述数据集缓存配置的步骤进一步包括:设置数据集进行分布式缓存或单节点缓存的阈值。4.根据权利要求3所述的分布式数据缓存加速训练的方法,其特征在于:所述执行调度策略得到第一数据集的步骤进一步包括:配置并读取训练的硬件的数量;根据所述硬件的数量并通过所述Kubernetes的资源管理进行分配任务;判断所述数据集是否满足条件,若满足条件,则将满足条件的所述数据集记为第一数据集,使用所述第一数据集进行训练;若不满足条件,则执行筛选过滤策略。5.根据权利要求4所述的分布式数据缓存加速训练的方法,其特征在于:所述判断所述数据集是否满足条件的步骤进一步包括:判断所述Kubernetes Volume中存储的数据集的标签是否与设置所述第一标签相同;若相同,则所述训练节点中存储所述数据集,满足条件;若不相同,则所述训练节点中未存储所述数据集,不满足条件。6.根据权利要求4所述的分布式数据缓存加速训练的方法,其特征在于:所述筛选过滤策略的步骤进一步包括:筛选数据集:根据所述数据集以及所述存储器的数据空间大小...
【专利技术属性】
技术研发人员:曹文康,王超,陈培,王德奎,
申请(专利权)人:山东英信计算机技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。