当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于索引shuffle的DL训练数据读取方法技术

技术编号:33207316 阅读:29 留言:0更新日期:2022-04-24 00:56
本发明专利技术公开了一种基于索引shuffle的DL训练数据读取方法,该方法包括:将数据持久化至非异失内存中并构建数组索引;将数组索引进行划分并进行多线程无锁并行shuffle,得到shuffle好的数组索引;遍历数组索引并根据shuffle好的数组索引将数据从非异失内存预读至DRAM。通过使用本发明专利技术,能够简化文件系统,提高对数据集的读性能,最终提高DNN的训练速度。本发明专利技术作为一种基于索引shuffle的DL训练数据读取方法,可广泛应用于计算机系统领域。可广泛应用于计算机系统领域。可广泛应用于计算机系统领域。

【技术实现步骤摘要】
一种基于索引shuffle的DL训练数据读取方法


[0001]本专利技术涉及计算机系统领域,尤其涉及一种基于索引shuffle的DL训练数据读取方法。

技术介绍

[0002]目前,针对目前已有的DNN训练数据集的shuffle策略,其主要存在的缺点为:1)默认文件系统的索引结构复杂度较高,对于元数据密集型的大规模的DNN数据集,可扩展性较差;2)基于原始数据的shuffle主要的缺陷在于:内存和CPU负载过重;3)基于元数据的shuffle主要的缺陷在于:磁盘I/O为主要的瓶颈;4)缓存命中率极低,导致预期之外的磁盘I/O,延缓数据读取进程;5)单线程shuffle效率低下,多线程shuffle涉及锁的开销。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的是提供一种基于索引shuffle的DL训练数据读取方法,能够简化文件系统,提高对数据集的读性能,最终提高DNN的训练速度。
[0004]本专利技术所采用的第一技术方案是:一种基于索引shuffle的DL训练数据读取方法,包括以下步骤
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于索引shuffle的DL训练数据读取方法,其特征在于,包括以下步骤:S1、将数据持久化至非异失内存中并构建数组索引;S2、将数组索引进行划分并进行多线程无锁并行shuffle,得到shuffle好的数组索引;S3、遍历数组索引并根据shuffle好的数组索引将数据从非异失内存预读至DRAM。2.根据权利要求1所述一种基于索引shuffle的DL训练数据读取方法,其特征在于,所述将数据持久化至非异失内存中并构建数组索引这一步骤,其具体包括:S11、获取深度神经网络的数据集;S12、将数据集加载至非易失内存并用数组记录下每个样本的地址,一个数据集对应一个数组;S13、得到数组索引。3.根据权利要求2所述一种基于索引shuffle的DL训练数据读取方法,其特征在于,所述将数组索引进行划分并进行多线程无锁并行shuffle,得到shuffle好的数组索引这一步骤,其具体包括:S21、将数组索引进行随机划分并在深度神经网络训练中每一个epoch的shuffle阶段中,生成多个线程;S22、基于线程,根据数组索引对数组进行shuffle,得到shuffle好的数组索引。4.根据权利要求3所述一种基于索引shuffle的DL训练数据读取方法,其特征...

【专利技术属性】
技术研发人员:林嘉韵陈志广卢宇彤
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1