一种提高非结构化小文件分布式存储效率的方法技术

技术编号：36300719 阅读：64 留言：0更新日期：2023-01-13 10:16

本发明专利技术公开了一种提高非结构化小文件分布式存储效率的方法，属于数据管理技术领域，本发明专利技术通过在分布式存储系统中，把海量小文件按照创建时间、类型等属性，将小文件根据相关性分类后合并成大文件，并对每个小文件建立索引，从而减少磁盘存储空间，大大提升了分布式存储系统的性能和扩展性，满足现在快速增长的非结构化数据的存储要求，而且能够快速查找到指定文件；另外，本发明专利技术中通过将小文件合并成大文件存储后将大大减少磁盘存储空间的消耗，固定的磁盘存储空间可以管理更大量的数据，提升了分布式存储系统的扩展性。升了分布式存储系统的扩展性。

全部详细技术资料下载

【技术实现步骤摘要】
一种提高非结构化小文件分布式存储效率的方法

[0001]本专利技术属于数据管理
，具体的，涉及一种提高非结构化小文件分布式存储效率的方法。

技术介绍

[0002]非结构化数据一般是指结构化数据之外的字段可变数据，其不属于任何预定义的模型，这也导致非结构化数据的组织与格式化非常的困难，尤其是随着信息社会的发展，非结构化数据的数量存在爆炸式的增长，一方面现有技术中通常通过本地数据库对非结构化数据进行存储，在查询检索时通过本地服务器与本地数据库进行连接后查询，其效率低下，数据运算量大，另一方面对于大量的非结构化的小文件数据，由于每个非结构化小文件都会占用一定的内存空间，而随着其数量的增长，占用浪费的内存空间也会出现明显的增长，这就导致内存资源的浪费，降低了内存的使用效率，为了解决上述问题，提高非结构化小文件的存储效率，本专利技术提供了以下技术方案。

技术实现思路

[0003]本专利技术的目的在于提供一种提高非结构化小文件分布式存储效率的方法，解决现有技术中非结构化小文件的存储存在内存资源浪费严重，数据检索效率低下的问题。
[0004]本专利技术的目的可以通过以下技术方案实现：
[0005]一种提高非结构化小文件分布式存储效率的方法，包括如下步骤：
[0006]S1、将需要进行检索的非结构化小文件通过client节点，发送到所有master节点上；
[0007]所述master节点主要负责对文件系统的管理，master节点的内存中存储有非结构化小文件的文件存储位置；/>[0008]S2、master节点将接收到的非结构化小文件以倒排文件的方式建立倒排索引，并将该倒排索引关系同步到对应的slave节点上；
[0009]所述slave节点用于对非结构化小文件进行数据存储；
[0010]S3、用户在进行检索时，通过访问merger节点，将检索条件发送到merger节点上，merger节点将检索条件发送到所有的slave节点上，每个slave节点对该节点上的倒排索引关系进行查询，并将各slave节点内符合检索条件的非结构化小文件反馈给merger节点，merger节点得到所有slave节点返回的符合检索条件的非结构化小文件后，对符合检索条件的非结构化小文件进行合并处理，并将合并处理后获得的数据信息返回给用户。
[0011]作为本专利技术的进一步方案，所述slave节点在对非结构化小文件进行数据存储时，首先根据非结构化小文件的文件属性对其进行分类，并将同一类的非结构化小文件合并形成一个或者一个以上的大文件进行存储。
[0012]作为本专利技术的进一步方案，所述文件属性包括文件创建时间、文件格式类型、文件所属业务类型。
[0013]作为本专利技术的进一步方案，当倒排索引关系发生改变时，将发生改变的倒排索引关系同步到relation节点上；
[0014]作为本专利技术的进一步方案，所述合并处理为对相同文件或者多个文件的相同部分进行合并，同时更新被合并文件的文件内容索引，将其指向新的存储位置。
[0015]本专利技术的有益效果：
[0016](1)本专利技术在分布式存储系统中，把海量小文件按照创建时间、类型等属性，将小文件根据相关性分类后合并成大文件，并对每个小文件建立索引，从而减少磁盘存储空间，大大提升了分布式存储系统的性能和扩展性，满足现在快速增长的非结构化数据的存储要求，而且能够快速查找到指定文件；
[0017](2)由于每个小文件都会占用一定的磁盘存储空间存储文件信息，本专利技术中通过将小文件合并成大文件存储后将大大减少磁盘存储空间消耗，固定的磁盘存储空间可以管理更大量的数据，提升了分布式存储系统的扩展性。
具体实施方式
[0018]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本专利技术保护的范围。
[0019]一种提高非结构化小文件分布式存储效率的方法，包括如下步骤：
[0020]S1、将需要进行检索的非结构化小文件通过client节点，发送到所有master节点上；
[0021]所述master节点主要负责对文件系统的管理，master节点的内存中存储有非结构化小文件的文件存储位置及其他文件信息；
[0022]S2、master节点将接收到的非结构化小文件以倒排文件的方式建立倒排索引，在倒排索引关系建立完成后，通过同步的方式，将该倒排索引关系同步到对应的slave节点上；
[0023]所述slave节点主要负责对非结构化小文件的数据存储；
[0024]slave节点在对非结构化小文件进行数据存储时，首先根据非结构化小文件的文件属性对其进行分类，并将同一类的非结构化小文件合并形成一个或者一个以上的大文件进行存储；
[0025]所述文件属性包括文件创建时间、文件格式类型、文件所属业务类型等；
[0026]该步骤通过根据大量的非结构化小文件的各种属性进行智能分类，并将相同属性的非结构化小文件合并后形成大文件夹进行存储，为每个非结构化小文件建立索引，从而减少了内存空间，提升了分布式存储系统的性能与拓展性；
[0027]S3、用户在进行检索时，通过访问merger节点，将检索条件发送到merger节点上，merger节点将检索条件发送到所有的slave节点上，每个slave节点对该节点上的倒排索引关系进行查询，并将各slave节点内符合检索条件的非结构化小文件反馈给merger节点，merger节点得到所有slave节点返回的符合检索条件的非结构化小文件后，对符合检索条件的非结构化小文件进行合并处理，并将合并处理后获得的数据信息返回给用户；
[0028]在本专利技术的一个实施例中，当节点上的倒排索引关系发生改变的时候，将发生改变的倒排索引关系，同步到relation节点上，以便防止数据丢失。
[0029]所述合并处理是指对相同文件或者多个文件的相同部分进行合并，同时更新被合并文件的文件内容索引，将其指向新的存储位置。
[0030]在本专利技术的一个实施例中，对于多个相同文件A、B、C
…
的合并处理，压缩存储后将仅保存一份，并将多份文件的索引都指向同一个A文件的实际存储数据块Block
‑
A，此时会删除除了Block
‑
A以外的原有B、C
…
等文件的内容
[0031]在本专利技术的一个实施例中，对于多个部分内容相同的文件A1、B1、C1，如追加更新等等情况，会被拆分为多个部分存储，每个部分不能单独使用，需要最终合并后使用，但是对最终用户没有影响。此时假设A1文件包含Block
‑
A1、Block
‑
B1两部分，B1文件包含Block
‑
B1、Block
‑
C1两部分，C1文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种提高非结构化小文件分布式存储效率的方法，其特征在于，包括如下步骤：S1、将需要进行检索的非结构化小文件通过client节点，发送到所有master节点上；所述master节点主要负责对文件系统的管理，master节点的内存中存储有非结构化小文件的文件存储位置；S2、master节点将接收到的非结构化小文件以倒排文件的方式建立倒排索引，并将该倒排索引关系同步到对应的slave节点上；所述slave节点用于对非结构化小文件进行数据存储；S3、用户在进行检索时，通过访问merger节点，将检索条件发送到merger节点上，merger节点将检索条件发送到所有的slave节点上，每个slave节点对该节点上的倒排索引关系进行查询，并将各slave节点内符合检索条件的非结构化小文件反馈给merger节点，merger节点得到所有slave节点返回的符合检索条件的非结构化小文件后，对符合检索条件的非结构化...

【专利技术属性】
技术研发人员：岳洋，刘佳，
申请(专利权)人：盟浪可持续数字科技深圳有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人