一种非结构化数据分布式存储方法及装置制造方法及图纸

技术编号:33134165 阅读:23 留言:0更新日期:2022-04-17 00:56
本发明专利技术提供了一种非结构化数据分布式存储方法及装置,可应用于分布式领域或金融领域,使用具有高扩展、实时存储以及检索功能的ElasticSearch存储非结构化数据的元数据信息,用来替代原来MySQL存储元数据的功能。使用高可靠、高性能、可伸缩的分布式存储系统HBASE MOB替代原来的集中式存储来管理非结构化数据,通过建立ElasticSearch索引与Hbase Mob行键的映射关系,实现对非结构化数据的高效分布式存储,便于后续实现对非结构化数据的高效检索、查看、修改、下载等功能。本发明专利技术通过ElasticSearch+HBASE MOB的存储方法,可以有效的解决当前存在的检索速度慢、存储效率低、扩容受限制、备份不容易等问题,提高非结构化数据存储的安全性、稳定性以及高效性。稳定性以及高效性。稳定性以及高效性。

【技术实现步骤摘要】
一种非结构化数据分布式存储方法及装置


[0001]本专利技术涉及计算机
,更具体的,涉及一种非结构化数据分布式存储方法及装置。

技术介绍

[0002]随着业务的快速发展,系统中的非结构化数据呈现出海量增长的趋势,并且在这些非结构化数据中以中小型文档、图片、压缩包等文件居多。目前对于非结构化数据的存储方法主要还是:采用MySQL等关系型数据库存储文件的元数据信息,采用集中式来存储原始文件,之后通过建立mysql与集中式存储的映射关系来实现文件的检索、查看、修改以及下载等功能。
[0003]但是,随着非结构化数据的不断增多,此种方法弊端逐渐显现出来,在数据量大的场景下该种存储方法存在检索效率、存储效率和存储性能较低等缺点,并且采用集中式方式存储文件会出现单点故障不易解决,容量空间扩容较难,数据备份机制不完善等问题,影响数据的安全性、稳定性以及高效性。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种非结构化数据分布式存储方法及装置,实现对非结构化数据的高效分布式存储。
[0005]为了实现上述专利技术目本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种非结构化数据分布式存储方法,其特征在于,包括:提取待存储非结构化数据的元数据信息;将所述待存储非结构化数据的元数据信息存储在ElasticSearch集群中,并生成所述待存储非结构化数据的元数据信息的ElasticSearch索引;将所述待存储非结构化数据存储在HBASE MOB集群中,并生成所述待存储非结构化数据的行键;建立所述待存储非结构化数据的元数据信息的ElasticSearch索引与行键之间的映射关系。2.根据权利要求1所述的方法,其特征在于,所述提取待存储非结构化数据的元数据信息,包括:提取所述待存储非结构化数据的特征信息;利用elasticsearch

analysis

ik对需要分词的特征信息进行分词;将不需要分词的特征信息和分词后得到的特征信息确定为所述待存储非结构化数据的元数据信息。3.根据权利要求1所述的方法,其特征在于,将所述待存储非结构化数据的元数据信息存储在ElasticSearch集群中,包括:根据预设设定的分类规则,将所述待存储非结构化数据的元数据信息进行分类;将分类完成之后的元数据信息分别存储到ElasticSearch集群中对应的元数据存储区。4.根据权利要求1所述的方法,其特征在于,将所述待存储非结构化数据存储在HBASE MOB集群中,并生成所述待存储非结构化数据的行键,包括:将所述待存储非结构化数据存储在HBASE MOB集群中的写区,并生成所述待存储非结构化数据在所述写区的行键;将所述写区存储的所述待存储非结构化数据同步存储到HBASE MOB集群中的读区,并生成所述待存储非结构化数据在所述读区的行键。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:检测所述写区的非结构化数据是否满足自动备份规则;将满足所述自动备份规则的目标非结构化数据从所述写区转移至HBASE MOB集群中的备份区,并生成所述目标非结构化数据在所述备份区的行键;删除所述读区中的所述目标非结构化数据。6.一种非结构化数据分布式存储装置,...

【专利技术属性】
技术研发人员:薛昊
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1