【技术实现步骤摘要】
一种非结构化数据分布式存储方法及装置
[0001]本专利技术涉及计算机
,更具体的,涉及一种非结构化数据分布式存储方法及装置。
技术介绍
[0002]随着业务的快速发展,系统中的非结构化数据呈现出海量增长的趋势,并且在这些非结构化数据中以中小型文档、图片、压缩包等文件居多。目前对于非结构化数据的存储方法主要还是:采用MySQL等关系型数据库存储文件的元数据信息,采用集中式来存储原始文件,之后通过建立mysql与集中式存储的映射关系来实现文件的检索、查看、修改以及下载等功能。
[0003]但是,随着非结构化数据的不断增多,此种方法弊端逐渐显现出来,在数据量大的场景下该种存储方法存在检索效率、存储效率和存储性能较低等缺点,并且采用集中式方式存储文件会出现单点故障不易解决,容量空间扩容较难,数据备份机制不完善等问题,影响数据的安全性、稳定性以及高效性。
技术实现思路
[0004]有鉴于此,本专利技术提供了一种非结构化数据分布式存储方法及装置,实现对非结构化数据的高效分布式存储。
[0005]为 ...
【技术保护点】
【技术特征摘要】
1.一种非结构化数据分布式存储方法,其特征在于,包括:提取待存储非结构化数据的元数据信息;将所述待存储非结构化数据的元数据信息存储在ElasticSearch集群中,并生成所述待存储非结构化数据的元数据信息的ElasticSearch索引;将所述待存储非结构化数据存储在HBASE MOB集群中,并生成所述待存储非结构化数据的行键;建立所述待存储非结构化数据的元数据信息的ElasticSearch索引与行键之间的映射关系。2.根据权利要求1所述的方法,其特征在于,所述提取待存储非结构化数据的元数据信息,包括:提取所述待存储非结构化数据的特征信息;利用elasticsearch
‑
analysis
‑
ik对需要分词的特征信息进行分词;将不需要分词的特征信息和分词后得到的特征信息确定为所述待存储非结构化数据的元数据信息。3.根据权利要求1所述的方法,其特征在于,将所述待存储非结构化数据的元数据信息存储在ElasticSearch集群中,包括:根据预设设定的分类规则,将所述待存储非结构化数据的元数据信息进行分类;将分类完成之后的元数据信息分别存储到ElasticSearch集群中对应的元数据存储区。4.根据权利要求1所述的方法,其特征在于,将所述待存储非结构化数据存储在HBASE MOB集群中,并生成所述待存储非结构化数据的行键,包括:将所述待存储非结构化数据存储在HBASE MOB集群中的写区,并生成所述待存储非结构化数据在所述写区的行键;将所述写区存储的所述待存储非结构化数据同步存储到HBASE MOB集群中的读区,并生成所述待存储非结构化数据在所述读区的行键。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:检测所述写区的非结构化数据是否满足自动备份规则;将满足所述自动备份规则的目标非结构化数据从所述写区转移至HBASE MOB集群中的备份区,并生成所述目标非结构化数据在所述备份区的行键;删除所述读区中的所述目标非结构化数据。6.一种非结构化数据分布式存储装置,...
【专利技术属性】
技术研发人员:薛昊,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。