一种基于快速存储设备的海量小文件解决方法技术

技术编号：18458761 阅读：365 留言：0更新日期：2018-07-18 12:41

本发明专利技术公开了一种基于快速存储设备的海量小文件解决方法，其包括步骤为：(1)采集小文件，对大小在1KB‑1MB小文件进行采集；(2)将小文件拆分为元数据和数据信息；(3)小文件元数据写入数据库，数据信息写入快速存储设备；(4)基于快速存储设备进行数据归并。本发明专利技术不仅能够解决海量小文件元数据庞大，查找性能低下的问题，同时能够以较低的成本提升小文件读写性能问题，易于推广。

A solution of massive small files based on fast storage device

The invention discloses a mass small file solution method based on fast storage device, which includes: (1) collecting small files, collecting small files of 1KB 1MB; (2) the small files are divided into metadata and data information; (3) the small file metadata is written into the database, and the data information is written to the fast storage device; (4 ) data merging is based on fast storage devices. The invention can not only solve the large amount of small file metadata, find the problem of low performance, but also can improve the performance problem of small file reading and writing at a lower cost, and is easy to popularize.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于快速存储设备的海量小文件解决方法
本专利技术属于计算机基础数据存储领域，具体是涉及一种基于快速存储设备的海量小文件解决方法。
技术介绍
随着物联网的发展，全球信息化的加剧，海量小文件的存储性能问题越来越为业界所关注。例如交通系统的拍摄系统每天产生大量的图片小文件，社交网站上的网页表单每天产生成大量的日志小文件。随着数据量的增大，解决海量小文件存储所带来的存储性能问题也越来越迫切。传统存储采用集中式的高性能的存储服务，如华为的OceanStor系统存储产品，可以解决一部分文件频繁读写磁盘带来的性能问题，但价格昂贵，无法被普及。同时由于这种集中式的存储服务本身是基于传统文件系统基础上的，如ext4、xfs。这些传统文件系统基于二叉树的数据结构，根据二叉树特性树的深度决定树的搜索、插入、删除性能。采用这种方式进行小文件存储时，每个小文件都需要一个inode节点在文件系统中标志，1亿个小文件就需要1亿个inode节点。文件系统单目录存储的文件数量过大会导致展示时无法全部加载到内存，因此需要建立多层目录，导致目录树深的增加，严重影响查找性能。同时传统文件系统受到inode总数的限制，一般为32000个，海量小文件的存储会导致inode节点用完，进一步导致磁盘空间还未满，却因无可用inode节点无法继续存储文件的现象，浪费磁盘空间。分布式存储相对传统存储，在解决海量小文件的性能上有着天然的优势:由于分布式、高容错和可伸缩的特性，使得普通PC服务器即可支撑起大规模的数据存储集群，较集中式的专业存储更易于推广。按照分布式存储的对象化特征，将海量小文件的元数据信息和...

【技术保护点】
1.一种基于快速存储设备的海量小文件解决方法，其特征在于包括如下步骤：步骤一：采集小文件，对大小在1KB‑1MB小文件进行采集；步骤二：将小文件拆分为元数据和数据信息；步骤三：小文件元数据写入数据库，数据信息写入快速存储设备；步骤四：基于快速存储设备进行数据归并；对于业务存在关联性的小文件，通过关联业务合并方案合并为大文件，对于业务不存在关联性的小文件，通过非关联业务方案合并为大文件数据信息，合并后的大文件数据信息写入普通慢速存储设备。

【技术特征摘要】
1.一种基于快速存储设备的海量小文件解决方法，其特征在于包括如下步骤：步骤一：采集小文件，对大小在1KB-1MB小文件进行采集；步骤二：将小文件拆分为元数据和数据信息；步骤三：小文件元数据写入数据库，数据信息写入快速存储设备；步骤四：基于快速存储设备进行数据归并；对于业务存在关联性的小文件，通过关联业务合并方案合并为大文件，对于业务不存在关联性的小文件，通过非关联业务方案合并为大文件数据信息，合并后的大文件数据信息写入普通慢速存储设备。2.根据权利要求1所述的一种基于快速存储设备的海量小文件解决方法，其特征在于所述步骤四中合并方案为：数据采集形成的小文件数据信息集合为(a1,a2,a3,a4,a5...an)，其对应的元数据集合为(m1,m2,m3,m4,m5...mn)；合并方案包括关联业务合并方案和非关联业务合并方案。3.根据权利要求2所述的一种基于快速存储设备的海量小文件解决方法，其特征在于所述关联业务合并方案步骤如下：步骤1：通过查找数据库中记录的关键字，得到多组元数据集(m1,m3,m5,m7)(m2,m4,m6,m8)...；步骤2：根据元数据中记录的...

【专利技术属性】
技术研发人员：曹靖城，陆涛，高丽华，吕超，王霄雨，
申请(专利权)人：江苏省公用信息有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人