【技术实现步骤摘要】
本申请属于计算机,尤其涉及一种基于流目录的数据处理方法、计算机设备以及存储介质。
技术介绍
1、随着人工智能生成的数据爆炸式增长,针对海量小文件(文件大小相对较小,如1kb、4kb等)的操作的应用场景,通常需要处理百万量级的小文件。例如,针对图像处理和计算机视觉应用通常需要处理大量的图像文件,单个图像文件的大小相对较小。针对基因组学数据分析场景,基因组学研究中产生的数据量巨大,包括测序数据、表达数据等。这些数据通常以小文件的形式存储。
2、上述应用场景中,大量小文件的存在会增加源文件系统(存储小文件的文件系统)的元数据开销,因为每个文件都需要分配索引节点inode。针对海量小文件的处理操作可能导致文件系统的输入/输出(input/output, i/o)(如磁盘i/o或内存i/o)瓶颈,导致系统性能差。
技术实现思路
1、有鉴于此,本申请实施例提供了一种基于流目录的数据处理方法、计算机设备以及存储介质,能够减少频繁访问源文件时的i/o操作,提高数据处理效率。
2、本
...【技术保护点】
1.一种基于流目录的数据处理方法,其特征在于,包括:
2.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述基于各所述第一元数据,生成初始流目录的第二元数据,包括:
3.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述基于各所述文件内容,填充所述初始流目录关联的至少一个数据块,包括:
4.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述基于所述第二元数据以及所述至少一个数据块,更新所述初始流目录,得到目标流目录,包括:
5.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述方法
...
【技术特征摘要】
1.一种基于流目录的数据处理方法,其特征在于,包括:
2.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述基于各所述第一元数据,生成初始流目录的第二元数据,包括:
3.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述基于各所述文件内容,填充所述初始流目录关联的至少一个数据块,包括:
4.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述基于所述第二元数据以及所述至少一个数据块,更新所述初始流目录,得到目标流目录,包括:
5.如权利要求1所述的基于流目录的数据处理方法,其特征在于,所述方法还包括:
6.如权利要求5所述的基于流目录的数据处理方法,其特征在于,所述基于所述访问方式,访问所述目标流目录,得到与所述访问请求适...
【专利技术属性】
技术研发人员:约翰·卡尔迈克,李璐瑶,
申请(专利权)人:广东爱智存科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。