【技术实现步骤摘要】
一种数据快速读取方法、装置、电子设备及存储介质
本专利技术涉及深度学习领域,尤其涉及一种数据快速读取方法、装置、电子设备及存储介质。
技术介绍
作为一种自动描述对象、趋势和异常的方法,深度学习在科学及商用领域得到了广泛的运用。深度学习的具体流程为:1.设定损失函数,初始化模型参数。2.从选定的训练数据集中随机读取一定批次数量的数据,输入模型,进行正向传播,计算得到损失值。3.再使用后向传播方法,将相应的损失值逐层反方向传递,计算出每个参数的参数误差。随后使用模型参数更新优化方法更新模型参数。4.重复2,3两步,直到损失值降到可接受的值,模型得到收敛。在整个深度学习过程中会频繁地随机读取整个数据集中的样本,计算损失值,更新模型参数。数据集本身体积非常大,但是样本本身又是非常小的文件,以致引入了一个海量小文件的随机I\O问题,造成了严重的I\O瓶颈。
技术实现思路
本专利技术实施例的目的是提供一种数据快速读取方法、装置、电子设备及存储介质,以解决相关技术中数据集读取缓慢的问题。根据本专利技术实 ...
【技术保护点】
1.一种数据快速读取方法,其特征在于,包括:/n将数据集划分成若干份图片子集,将每个所述图片子集聚合为一个文件,所述文件中包含文件地址和各个图片的偏移信息;/n给数据集中的每个图片分配一个请求编号;/n通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;/n根据所述映射,快速读取所述数据集中的所有图片。/n
【技术特征摘要】
1.一种数据快速读取方法,其特征在于,包括:
将数据集划分成若干份图片子集,将每个所述图片子集聚合为一个文件,所述文件中包含文件地址和各个图片的偏移信息;
给数据集中的每个图片分配一个请求编号;
通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;
根据所述映射,快速读取所述数据集中的所有图片。
2.根据权利要求1所述的一种数据快速读取方法,其特征在于,将数据集划分成若干份图片子集,对每个所述图片子集进行归一化处理后聚合为一个文件,具体包括:
获取数据集中所有图片的路径,组成路径集合;
将所述路径集合进行打乱;
在打乱后的路径集合中,读取n个路径,其中n代表聚合为一个文件所需的图片数量;
利用读取的n个路径,读取路径对应的图片,组建成一个图片子集,并进行归一化处理;
将归一化处理后的图片集合按照图片数量、宽度、长度、色道的多维数组存储方式聚合为一个文件。
3.根据权利要求1所述的一种数据快速读取方法,其特征在于,根据所述映射,快速读取所述数据集中的所有图片,具体包括:
通过请求编号N,读取对应的图片;
根据所述映射找到编号为N的图片所在的文件,该文件编号记为M;
如果编号为M的文件还未载入内存,那么载入内存,否则根据所述映射从已载入内存的编号为M的文件中读取编号为N的图片的信息。
4.根据权利要求3所述的一种数据快速读取方法,其特征在于,所述图片的信息包括图片的像素值、灰度值和RGB值。
5.一种数据快速读取装置,其特征在于,包括:
聚合模块,用于将数据集划分成若干份图片子集,将每个所述图片子集聚合为一个文件,所述文件中包含文件地址和各个图片的偏移信息;
编号分配模块,用于给数据集中的每个图片分配一个请求...
【专利技术属性】
技术研发人员:陈刚,王跃锋,银燕龙,陈伟剑,毛旷,杨弢,何水兵,曾令仿,
申请(专利权)人:之江实验室,浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。