基于流目录的数据处理方法、计算机设备以及存储介质技术

技术编号：43084117 阅读：21 留言：0更新日期：2024-10-26 09:33

本申请适用于计算机技术领域，提供了一种基于流目录的数据处理方法、计算机设备以及存储介质，包括：获取源文件系统中的多个源文件以及针对多个源文件的文件访问顺序；运行第一进程，依据文件访问顺序，读取各源文件的第一元数据，并基于各第一元数据，生成初始流目录的第二元数据，初始流目录属于目标文件系统的指定父目录的子目录；运行第二进程，依据文件访问顺序，读取各源文件的文件内容，并基于各文件内容，填充初始流目录关联的至少一个数据块，第一进程与第二进程并行执行；基于第二元数据以及至少一个数据块，更新初始流目录，得到目标流目录。本申请能够减少频繁访问源文件时的I/O操作，提高数据处理效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于计算机，尤其涉及一种基于流目录的数据处理方法、计算机设备以及存储介质。

技术介绍

1、随着人工智能生成的数据爆炸式增长，针对海量小文件（文件大小相对较小，如1kb、4kb等）的操作的应用场景，通常需要处理百万量级的小文件。例如，针对图像处理和计算机视觉应用通常需要处理大量的图像文件，单个图像文件的大小相对较小。针对基因组学数据分析场景，基因组学研究中产生的数据量巨大，包括测序数据、表达数据等。这些数据通常以小文件的形式存储。

2、上述应用场景中，大量小文件的存在会增加源文件系统（存储小文件的文件系统）的元数据开销，因为每个文件都需要分配索引节点inode。针对海量小文件的处理操作可能导致文件系统的输入/输出（input/output， i/o）（如磁盘i/o或内存i/o）瓶颈，导致系统性能差。

技术实现思路

1、有鉴于此，本申请实施例提供了一种基于流目录的数据处理方法、计算机设备以及存储介质，能够减少频繁访问源文件时的i/o操作，提高数据处理效率。

2、本...

【技术保护点】

1.一种基于流目录的数据处理方法，其特征在于，包括：

2.如权利要求1所述的基于流目录的数据处理方法，其特征在于，所述基于各所述第一元数据，生成初始流目录的第二元数据，包括：

3.如权利要求1所述的基于流目录的数据处理方法，其特征在于，所述基于各所述文件内容，填充所述初始流目录关联的至少一个数据块，包括：

4.如权利要求1所述的基于流目录的数据处理方法，其特征在于，所述基于所述第二元数据以及所述至少一个数据块，更新所述初始流目录，得到目标流目录，包括：

5.如权利要求1所述的基于流目录的数据处理方法，其特征在于，所述方法还包括：

...

【技术特征摘要】

1.一种基于流目录的数据处理方法，其特征在于，包括：

2.如权利要求1所述的基于流目录的数据处理方法，其特征在于，所述基于各所述第一元数据，生成初始流目录的第二元数据，包括：

3.如权利要求1所述的基于流目录的数据处理方法，其特征在于，所述基于各所述文件内容，填充所述初始流目录关联的至少一个数据块，包括：

5.如权利要求1所述的基于流目录的数据处理方法，其特征在于，所述方法还包括：

6.如权利要求5所述的基于流目录的数据处理方法，其特征在于，所述基于所述访问方式，访问所述目标流目录，得到与所述访问请求适...

【专利技术属性】
技术研发人员：约翰·卡尔迈克，李璐瑶，
申请(专利权)人：广东爱智存科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人