一种针对深度学习训练数据的优化存储方法及系统技术方案

技术编号：40351019 阅读：6 留言：0更新日期：2024-02-09 14:35

本发明专利技术公开的一种针对深度学习训练数据的优化存储方法及系统，包括：获取训练用数据集；将训练用数据集中的小文件进行合并，获得合并后文件，将合并后文件上传至HDFS中，在HDFS中对各小文件的元数据进行存储，并生成合并后文件的副本；当对某个小文件进行更新时，计算更新后小文件与未更新小文件的相似性；当相似性大于等于设定阈值时，对该小文件所在的合并后文件进行更新，但不对合并后文件的副本进行更新，当相似性小于设定阈值时，对该小文件所在的合并后文件及其副本均进行更新。副本不更新操作可以减少网络传输的开销和I/O操作，从而提高系统的可用性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及分布式文件存储，尤其涉及一种针对深度学习训练数据的优化存储方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、深度学习应用于图像识别、自然语言处理、语音识别等各领域。深度神经网络的训练是深度学习模型成功的关键，这些模型通常需要大规模的训练数据集来达到最佳性能。

3、随着深度学习技术的快速发展，越来越多的机构和企业开始关注海量数据集的存储和管理。在深度学习中，数据集的大小往往与模型的性能和准确性密切相关。为了训练一个高质量的深度学习模型，研究人员和工程师们需要访问大规模的数据集，其中包含了数百万、数十亿甚至更多的样本。例如，图像分类领域的imagenet数据集就包含了超过100万张图像。规模数据集通常涵盖了各种不同的类别、场景和角度，并且覆盖了广泛的数据类型，如图像、文本、音频等。这些多样的数据可以帮助深度学习算法更好地学习特征，提高算法的泛化能力。

4、为了提高深度学习模型的训练效果和模型性能，研究者们通常希望将多个数据集进行合并，并将其上传到分布式文件系统hdfs。然而，在目前市面上的工具和方法中，合并上传深度学习数据集到hdfs存在一些缺陷和挑战。在合并上传数据集到hdfs时，可能会出现数据集中存在重复样本或相似样本的情况。由于hdfs默认使用副本机制存储数据块，这些重复的样本会占用额外的存储空间，并增加了网络传输和存储开销。因为深度学习模型训练用的数据集经常更新的特点，对合并后文件进行更新会影响数据的访问效率。由于数

技术实现思路

1、本专利技术为了解决上述问题，提出了一种针对深度学习训练数据的优化存储方法及系统，对于相似的小文件，不进行合并后文件的副本的更新，减少网络传输的开销和i/o操作，从而提高系统的可用性和稳定性。

2、为实现上述目的，本专利技术采用如下技术方案：

3、第一方面，提出了一种针对深度学习训练数据的优化存储方法，包括：

4、获取训练用数据集；

5、将训练用数据集中的小文件进行合并，获得合并后文件，将合并后文件上传至hdfs中，在hdfs中对各小文件的元数据进行存储，并生成合并后文件的副本；

6、当对某个小文件进行更新时，计算更新后小文件与未更新小文件的相似性；当相似性大于等于设定阈值时，对该小文件所在的合并后文件进行更新，但不对合并后文件的副本进行更新，当相似性小于设定阈值时，对该小文件所在的合并后文件及其副本均进行更新。

7、第二方面，提出了一种针对深度学习训练数据的优化存储系统，包括：

8、初始数据集获取模块，用于获取训练用数据集；

9、小文件上传模块，用于将训练用数据集中的小文件进行合并，获得合并后文件，将合并后文件上传至hdfs中，在hdfs中对各小文件的元数据进行存储，并生成合并后文件的副本；

10、小文件更新模块，用于当对某个小文件进行更新时，计算更新后小文件与未更新小文件的相似性；当相似性大于等于设定阈值时，对该小文件所在的合并后文件进行更新，但不对合并后文件的副本进行更新，当相似性小于设定阈值时，对该小文件所在的合并后文件及其副本均进行更新。

11、第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种针对深度学习训练数据的优化存储方法所述的步骤。

12、第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种针对深度学习训练数据的优化存储方法所述的步骤。

13、与现有技术相比，本专利技术的有益效果为：

14、1、本专利技术对训练用数据集中的小文件进行更新后，判断更新后小文件与原小文件的相似性，对于相似性大于等于设定值的小文件，不进行合并后文件的副本的更新操作；只有当相似性小于设定阈值时，才对该小文件所在的合并后文件的副本进行更新，可以大大减少存储空间占用。副本不更新操作可以减少网络传输的开销和i/o操作，从而提高系统的可用性和稳定性。

15、2、本专利技术通过小文件合并技术、索引优化和智能存储策略，改善了存储资源利用率、文件检索速度和整体性能，通过合并和建立索引减少存储空间的开销。同时建立索引可以提高数据的访问速度。合并并建立索引后的大文件可以根据索引快速定位和检索所需的数据。相比于单个小文件，可以显著减少磁盘寻址和数据传输的时间，加快数据的访问速度。

16、本专利技术附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种针对深度学习训练数据的优化存储方法，其特征在于，包括：

2.如权利要求1所述的一种针对深度学习训练数据的优化存储方法，其特征在于，对训练用数据集中的各文件进行大小判断；将判断出的大文件直接上传至HDFS中；将判断出的小文件进行合并，获得合并后文件。

3.如权利要求1所述的一种针对深度学习训练数据的优化存储方法，在对小文件进行合并时，为每个小文件构建哈希索引，并创建索引对象，来存储小文件的元数据。

4.如权利要求3所述的一种针对深度学习训练数据的优化存储方法，确定小文件的哈希值，将该小文件的哈希值作为键，将该小文件在合并后文件中的位置作为值，将小文件的元数据存储到哈希表中，然后将哈希表转换为相应的索引文件，获得小文件的哈希索引。

5.如权利要求1所述的一种针对深度学习训练数据的优化存储方法，利用余弦相似度，来计算更新后小文件与HDFS中存储的未更新小文件的元数据的相似性，获得更新后小文件与未更新小文件的相似性。

6.如权利要求1所述的一种针对深度学习训练数据的优化存储方法，为每个合并后文件添加锁定标志，当合并后文件

7.如权利要求1所述的一种针对深度学习训练数据的优化存储方法，采用最近最少使用算法对上传至HDFS的文件进行缓存。

8.一种针对深度学习训练数据的优化存储系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种针对深度学习训练数据的优化存储方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种针对深度学习训练数据的优化存储方法的步骤。

...

【技术特征摘要】

1.一种针对深度学习训练数据的优化存储方法，其特征在于，包括：

2.如权利要求1所述的一种针对深度学习训练数据的优化存储方法，其特征在于，对训练用数据集中的各文件进行大小判断；将判断出的大文件直接上传至hdfs中；将判断出的小文件进行合并，获得合并后文件。

5.如权利要求1所述的一种针对深度学习训练数据的优化存储方法，利用余弦相似度，来计算更新后小文件与hdfs中存储的未更新小文件的元数据的相似性，获得更新后小文件与未更新小文件的相似性。

【专利技术属性】
技术研发人员：孙建德，李帅男，刘珂，万洪林，刁子涵，
申请(专利权)人：山东海量信息技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人