样本数据缓存方法、系统、计算机设备和存储介质技术方案

技术编号：38827637 阅读：16 留言：0更新日期：2023-09-15 20:06

本申请涉及一种样本数据缓存方法、系统、计算机设备和存储介质。所述方法包括：获取用于训练的样本数据列表；若缓存区域的解码样本数据集中不存在与样本数据列表中第一样本数据匹配的解码样本数据，则从解码样本数据集中确定备选解码样本数据；若第一样本数据的重要度与备选解码样本数据的重要度满足预设条件且第一样本数据的解码资源消耗大于备选解码样本数据的解码资源消耗，则对第一样本数据进行解码处理，得到对应的目标解码样本数据；根据目标解码样本数据对缓存区域的解码样本数据集进行更新。采用本方法减少冗余的IO和考虑了数据解码本身的资源消耗，缩短了整体的训练时长，进而提高了训练效率。进而提高了训练效率。进而提高了训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
样本数据缓存方法、系统、计算机设备和存储介质

[0001]本申请涉及深度神经网络
，特别是涉及一种样本数据缓存方法、系统、计算机设备和存储介质。

技术介绍

[0002]深度神经网络（Deep Neural Networks，DNN）是深度学习的一种框架，一个深度神经网络模型由多个计算单元层组成，其输出作为后续单元的输入。DNN模型的训练包括前向传播方法，该方法顺序地将与输入数据相关的信息通过所有模型层，并生成预测结果。例如，在图像识别应用中，图像像素信息会通过各个层，以预测图像内容。为了生成预测结果，深度学习（Deep Learning，DL）根据前向传播输出和真实标签定义成本/损失函数。
[0003]在训练深度神经网络时，通常使用大型数据集，因为它们代表着多样性的真实场景。当前的研究多集中的模型本身的优化，比如量化、剪枝、蒸馏等，或者通信层面比如NVlink，infiniband以及通过加速卡的迭代升级提供性能更优越的GPU（Graphics processing unit，图形处理器）和TPU（TensorProcessing Unit，张量处理器）等硬件。但对于数据流处理过程中的瓶颈探索较少，存储资源的IO能力并未跟上计算性能的提升速度，导致特别是在分布式某些训练场景下，IO资源消耗占整体训练时间的85%以上。
[0004]DNN的训练过程需要对大量数据进行多轮迭代，一轮迭代过程称为一次epoch。在epoch中，需要对所有的数据项有且仅处理一次，数据以mini
‑
bat...

【技术保护点】

【技术特征摘要】
1.一种样本数据缓存方法，其特征在于，所述方法包括：获取用于训练的样本数据列表；若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据，则从所述解码样本数据集中确定备选解码样本数据；若所述第一样本数据的重要度与所述备选解码样本数据的重要度满足预设条件且所述第一样本数据的解码资源消耗大于所述备选解码样本数据的解码资源消耗，则对所述第一样本数据进行解码处理，得到对应的目标解码样本数据；根据所述目标解码样本数据对所述缓存区域的解码样本数据集进行更新。2.根据权利要求1所述的方法，其特征在于，所述若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据，则从所述解码样本数据集中确定备选解码样本数据，包括：若缓存区域的解码样本数据集中不存在与所述样本数据列表中第一样本数据匹配的解码样本数据，获取所述解码样本数据集中各解码样本数据的重要度；将所述重要度最小的解码样本确定为备选解码样本数据。3.根据权利要求1所述的方法，其特征在于，在所述获取用于训练的样本数据列表之前，所述方法还包括：获取解码后的样本数据集；确定所述样本数据集中各样本数据的重要度，以及从所述样本数据集确定目标数据样本集并将所述目标数据样本集缓存至缓存区域。4.根据权利要求3所述的方法，其特征在于，所述解码后的样本数据集中包括多个批量样本数据，所述确定所述样本数据集中各样本数据的重要度，包括：确定每个样本批量数据中单个第二样本数据的熵损失值；根据所述熵损失值对每个批量数据样本中的单个所述第二样本数据进行排序，得到单个所述第二样本数据的重要度；所述重要度用于表征样本数据对深度神经网络精度的影响程度。5.根据权利要求4所述的方法，其特征在于，所述根据所述熵损失值对每个批量数据样本中的单个所述第二样本数据进行排序，得到单个所述第二样本数据的重要度，包括：从所...

【专利技术属性】
技术研发人员：韩珂，李勇，曾令仿，陈光，吴运翔，程稳，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人