当前位置: 首页 > 专利查询>之江实验室专利>正文

样本数据缓存方法、系统、计算机设备和存储介质技术方案

技术编号:38827637 阅读:16 留言:0更新日期:2023-09-15 20:06
本申请涉及一种样本数据缓存方法、系统、计算机设备和存储介质。所述方法包括:获取用于训练的样本数据列表;若缓存区域的解码样本数据集中不存在与样本数据列表中第一样本数据匹配的解码样本数据,则从解码样本数据集中确定备选解码样本数据;若第一样本数据的重要度与备选解码样本数据的重要度满足预设条件且第一样本数据的解码资源消耗大于备选解码样本数据的解码资源消耗,则对第一样本数据进行解码处理,得到对应的目标解码样本数据;根据目标解码样本数据对缓存区域的解码样本数据集进行更新。采用本方法减少冗余的IO和考虑了数据解码本身的资源消耗,缩短了整体的训练时长,进而提高了训练效率。进而提高了训练效率。进而提高了训练效率。

【技术实现步骤摘要】
样本数据缓存方法、系统、计算机设备和存储介质


[0001]本申请涉及深度神经网络
,特别是涉及一种样本数据缓存方法、系统、计算机设备和存储介质。

技术介绍

[0002]深度神经网络(Deep Neural Networks,DNN)是深度学习的一种框架,一个深度神经网络模型由多个计算单元层组成,其输出作为后续单元的输入。DNN模型的训练包括前向传播方法,该方法顺序地将与输入数据相关的信息通过所有模型层,并生成预测结果。例如,在图像识别应用中,图像像素信息会通过各个层,以预测图像内容。为了生成预测结果,深度学习(Deep Learning,DL)根据前向传播输出和真实标签定义成本/损失函数。
[0003]在训练深度神经网络时,通常使用大型数据集,因为它们代表着多样性的真实场景。当前的研究多集中的模型本身的优化,比如量化、剪枝、蒸馏等,或者通信层面比如NVlink,infiniband以及通过加速卡的迭代升级提供性能更优越的GPU(Graphics processing unit,图形处理器)和TPU(TensorProcessing Unit,张量处理器)等硬件。但对于数据流处理过程中的瓶颈探索较少,存储资源的IO能力并未跟上计算性能的提升速度,导致特别是在分布式某些训练场景下,IO资源消耗占整体训练时间的85%以上。
[0004]DNN的训练过程需要对大量数据进行多轮迭代,一轮迭代过程称为一次epoch。在epoch中,需要对所有的数据项有且仅处理一次,数据以mini

batch的形式将数据从磁盘读入到内存当中。在训练过程中,IO进程将数据加载到队列当中由CPU(Central Processing Unit,中央处理器)进行预处理,数据处理完后就会对内存数据进行释放,在下轮epoch中需要重新将同一个数据项从磁盘读入内存当中,增加了很多冗余的IO和预处理操作,导致深度神经网络的训练效率低。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高深度神经网络的训练效率的样本数据缓存方法、系统、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种样本数据缓存方法。所述方法包括:获取用于训练的样本数据列表;若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,则从所述解码样本数据集中确定备选解码样本数据;若所述第一样本数据的重要度与所述备选解码样本数据的重要度满足预设条件且所述第一样本数据的解码资源消耗大于所述备选解码样本数据的解码资源消耗,则对所述第一样本数据进行解码处理,得到对应的目标解码样本数据;根据所述目标解码样本数据对所述缓存区域的解码样本数据集进行更新。
[0007]在其中一个实施例中,所述若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,则从所述解码样本数据集中确定备选解码样
本数据,包括:若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,获取所述解码样本数据集中各解码样本数据的重要度;将所述重要度最小的解码样本确定为备选解码样本数据。
[0008]在其中一个实施例中,在所述获取用于训练的样本数据列表之前,所述方法还包括:获取解码后的样本数据集;确定所述样本数据集中各样本数据的重要度,以及从所述样本数据集确定目标数据样本集并将所述目标数据样本集缓存至缓存区域。
[0009]在其中一个实施例中,所述解码后的样本数据集中包括多个批量样本数据,所述确定所述样本数据集中各样本数据的重要度,包括:确定每个样本批量数据中单个第二样本数据的熵损失值;根据所述熵损失值对每个批量数据样本中的单个所述第二样本数据进行排序,得到单个所述第二样本数据的重要度;所述重要度用于表征样本数据对所述深度神经网络精度的影响程度。
[0010]在其中一个实施例中,所述根据所述熵损失值对每个批量数据样本中的单个所述第二样本数据进行排序,得到单个所述第二样本数据的重要度,包括:从所述每个批量数据样本中确定作为参考的参考样本数据,获取所述参考样本数据的熵损失值;通过判断所述每个批量数据样本中的单个所述第二样本数据的熵损失值是否大于所述参考样本数据的熵损失值,对每个批量数据样本中的单个所述第二样本数据进行排序,得到单个所述第二样本数据的重要度。
[0011]在其中一个实施例中,所述方法还包括:若所述第一样本数据的重要度与所述备选解码样本数据的重要度满足预设条件且所述第一样本数据的解码资源消耗小于所述备选解码样本数据的解码资源消耗,则不更新所述缓存区域的解码样本数据集。
[0012]第二方面,本申请还提供了一种样本数据缓存系统。所述系统包括数据层,其中,所述数据层中包括:样本列表获取模块,用于响获取用于训练的样本数据列表;备选解码样本确定模块,用于若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,则从所述解码样本数据集中确定备选解码样本数据;目标解码样本确定模块,用于若所述第一样本数据的重要度与所述备选解码样本数据的重要度满足预设条件且所述第一样本数据的解码资源消耗大于所述备选解码样本数据的解码资源消耗,则对所述第一样本数据进行解码处理,得到对应的目标解码样本数据;缓存更新模块,用于根据所述目标解码样本数据对所述缓存区域的解码样本数据集进行更新。
[0013]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理
器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取用于训练的样本数据列表;若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,则从所述解码样本数据集中确定备选解码样本数据;若所述第一样本数据的重要度与所述备选解码样本数据的重要度满足预设条件且所述第一样本数据的解码资源消耗大于所述备选解码样本数据的解码资源消耗,则对所述第一样本数据进行解码处理,得到对应的目标解码样本数据;根据所述目标解码样本数据对所述缓存区域的解码样本数据集进行更新。
[0014]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取用于训练的样本数据列表;若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,则从所述解码样本数据集中确定备选解码样本数据;若所述第一样本数据的重要度与所述备选解码样本数据的重要度满足预设条件且所述第一样本数据的解码资源消耗大于所述备选解码样本数据的解码资源消耗,则对所述第一样本数据进行解码处理,得到对应的目标解码样本数据;根据所述目标解码样本数据对所述缓存区域的解码样本数据集进行更新。
[0015]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取用于训练的样本数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本数据缓存方法,其特征在于,所述方法包括:获取用于训练的样本数据列表;若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,则从所述解码样本数据集中确定备选解码样本数据;若所述第一样本数据的重要度与所述备选解码样本数据的重要度满足预设条件且所述第一样本数据的解码资源消耗大于所述备选解码样本数据的解码资源消耗,则对所述第一样本数据进行解码处理,得到对应的目标解码样本数据;根据所述目标解码样本数据对所述缓存区域的解码样本数据集进行更新。2.根据权利要求1所述的方法,其特征在于,所述若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,则从所述解码样本数据集中确定备选解码样本数据,包括:若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据,获取所述解码样本数据集中各解码样本数据的重要度;将所述重要度最小的解码样本确定为备选解码样本数据。3.根据权利要求1所述的方法,其特征在于,在所述获取用于训练的样本数据列表之前,所述方法还包括:获取解码后的样本数据集;确定所述样本数据集中各样本数据的重要度,以及从所述样本数据集确定目标数据样本集并将所述目标数据样本集缓存至缓存区域。4.根据权利要求3所述的方法,其特征在于,所述解码后的样本数据集中包括多个批量样本数据,所述确定所述样本数据集中各样本数据的重要度,包括:确定每个样本批量数据中单个第二样本数据的熵损失值;根据所述熵损失值对每个批量数据样本中的单个所述第二样本数据进行排序,得到单个所述第二样本数据的重要度;所述重要度用于表征样本数据对深度神经网络精度的影响程度。5.根据权利要求4所述的方法,其特征在于,所述根据所述熵损失值对每个批量数据样本中的单个所述第二样本数据进行排序,得到单个所述第二样本数据的重要度,包括:从所...

【专利技术属性】
技术研发人员:韩珂李勇曾令仿陈光吴运翔程稳
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1