海量文件数据流的存储方法、存储系统及大数据处理系统技术方案

技术编号:45801746 阅读:23 留言:0更新日期:2025-07-11 20:15
本发明专利技术涉及计算机应用技术领域,公开一种海量文件数据流的存储方法、存储系统及大数据处理系统,在数据流和存储节点之间部署轮转状态转换模型,通过多节点缓存分散存储压力。存储方法包括:预设文件大小分界点;海量文件数据输入,逐一判断输入的文件大小是否小于等于分界点;小于等于分界点的文件数据通过轮转状态转换模型存储在选定的存储节点中;生成所有小文件的索引信息,并将索引信息合并至索引文件,每个索引文件均以B+树的形式组织数据,以获得索引数据桶;多个索引数据桶均以数据块形式存储在存储节点,将所有索引数据桶按顺序保存为索引数据桶队列。本发明专利技术能有效解决传统分布式存储系统面对海量文件时写性能下降,效率低等问题。

【技术实现步骤摘要】

本专利技术涉及计算机应用,尤其涉及一种海量文件数据流的存储方法、存储系统及大数据处理系统


技术介绍

1、在当前物联网与云计算、人工智能与大数据等技术高速发展的大背景下,数据量呈现出爆炸式增长。这些数据不仅需要巨量的存储空间,而且具有数据类型繁多、数据大小变化大、数据流动快等突出特点。一般情况下,数据文件可以分为结构化文件、半结构化文件和非结构化文件,文件大小各异。也就是说,这些文件数据中往往包含了大量的大文件,以及数亿级的海量小文件。这些文件数据在元数据管理、存储效率、访问性能等方面存在着瓶颈,尤其是海量小文件(lsof,lots of small files)的存储问题,是当前工业界和学术界公认的难题。传统的存储调用系统难以满足日益增长的文件数据的存储需求和访问速度要求。一方面,普通硬盘存储调用技术读写速度慢,不适合大规模数据的存储,而固态硬盘和闪存存储调用技术虽然读写速度快,但成本较高。另一方面,传统的关系型数据库在处理海量数据时存在一定的局限性,而分布式存储系统虽然提供了一些解决方案,但依然面临着性能优化、成本控制、可扩展性等方面的巨大挑战。...

【技术保护点】

1.一种海量文件数据流的存储方法,其特征在于,在数据流和存储节点之间部署轮转状态转换模型,通过多节点缓存分散存储压力;所述存储方法包括如下步骤:

2.根据权利要求1所述的海量文件数据流的存储方法,其特征在于,所述轮转状态转换模型具有m个数据桶,所述m个数据桶被编入一个队列;队列中的前k个数据桶为数据填充桶,k<m,其他数据桶为空闲等待桶;

3.根据权利要求2所述的海量文件数据流的存储方法,其特征在于,每个被选定的存储节点均对应有一个由多个写入等待桶构成的等待队列,逐个刷新写入等待桶,将要被刷新的写入等待桶同时被改写为数据倾倒桶,刷新后的数据倾倒桶被改写为空闲等待桶...

【技术特征摘要】

1.一种海量文件数据流的存储方法,其特征在于,在数据流和存储节点之间部署轮转状态转换模型,通过多节点缓存分散存储压力;所述存储方法包括如下步骤:

2.根据权利要求1所述的海量文件数据流的存储方法,其特征在于,所述轮转状态转换模型具有m个数据桶,所述m个数据桶被编入一个队列;队列中的前k个数据桶为数据填充桶,k<m,其他数据桶为空闲等待桶;

3.根据权利要求2所述的海量文件数据流的存储方法,其特征在于,每个被选定的存储节点均对应有一个由多个写入等待桶构成的等待队列,逐个刷新写入等待桶,将要被刷新的写入等待桶同时被改写为数据倾倒桶,刷新后的数据倾倒桶被改写为空闲等待桶。

4.根据权利要求2所述的海量文件数据流的存储方法,其特征在于,存储节点的存储方法包括:

5.根据权利要求1所述的海量文件数据流的存储方法,其特征在于,逐一判断输入的文件大小是否小...

【专利技术属性】
技术研发人员:岳明桥马跃飞雷博卜宪政宋东海翟一琛姚鹏飞沈斌刘双东
申请(专利权)人:中国人民解放军九二四九三部队信息技术中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1