非结构化数据的管理方法及装置制造方法及图纸

技术编号:20944267 阅读:36 留言:0更新日期:2019-04-24 02:18
本发明专利技术实施例提供一种非结构化数据的管理方法及装置,其中方法包括:根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中;将所述非结构化数据的元数据存储在HBase的元数据列族中,根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中;将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中;其中,所述元数据包括所述非结构化数据的存储方式。本发明专利技术实施例能够更高效的对数据进行精确或模糊搜索,提高整个大数据系统的运行效率。

Management Method and Device of Unstructured Data

The embodiment of the present invention provides a management method and device for unstructured data, which includes: determining the corresponding storage mode according to the size of unstructured data, storing the unstructured data in HDFS or HBase according to the storage mode, storing the metadata of the unstructured data in the metadata column family of HBase, and according to the unstructured number. According to the storage mode, the file index of the unstructured data is stored in the corresponding column family of HBase; the row keys and metadata of the unstructured data in HBase are synchronized to the Solr search engine; and the metadata includes the storage mode of the unstructured data. The embodiment of the invention can search data accurately or vaguely more efficiently, and improve the operation efficiency of the whole large data system.

【技术实现步骤摘要】
非结构化数据的管理方法及装置
本专利技术实施例涉及文件存储
,更具体地,涉及非结构化数据的管理方法及装置。
技术介绍
在数据量越来越庞大的今天,使用单服务器存储海量数据已不太现实,多数公司企业都已使用HDFS分布式文件系统来存储数据文件,但HDFS面临的一个问题是无法适用于小文件存储。为了解决这个问题,通常有两种方案:1、再使用另一类适用于小文件存储的分布式系统(如FastDFS)单独存储小文件,此方案优点是文件读写比较简单,缺点是由于管理两套系统,设备费用和管理成本都比较高。2、在HDFS的文件系统上优化,来避免小文件存储,此方案优点是成本低,以现有方案为主,缺点是实现起来比较复杂。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的非结构化数据的管理方法及装置。第一个方面,本专利技术实施例提供一种非结构化数据的管理方法,包括:根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中;将所述非结构化数据的元数据存储在HBase的元数据列族中,根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中;将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中;其中,所述元数据包括所述非结构化数据的存储方式。第二个方面,本专利技术实施例提供一种非结构化数据的管理装置,包括:存储方式确定模块,用于根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中;元数据存储模块,用于将所述非结构化数据的元数据存储在HBase的元数据列族中,根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中;同步模块,用于将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中;其中,所述元数据包括所述非结构化数据的存储方式。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的非结构化数据的管理方法及装置,根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中;将所述非结构化数据的元数据存储在HBase的元数据列族中,根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中;将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中;其中,所述元数据包括所述非结构化数据的存储方式。本专利技术实施例能够更高效的对数据进行精确或模糊搜索,提高整个大数据系统的运行效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的非结构化数据的管理方法的流程示意图;图2为本专利技术实施例的非结构化数据的存储方法的流程示意图;图3为本专利技术实施例的非结构化数据的查询方法的流程示意图;图4为本专利技术实施例提供的非结构化数据的管理装置的结构示意图;图5为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了克服现有技术的上述问题,本专利技术实施例提供了一种非结构化数据的管理方法,其专利技术构思为:根据非结构化数据文件的大小确定其存储方式,以不同的方式存储到HDFS中,将数据的元数据信息都存储在HBase中,并根据存储方式的不同存入不同的列族,将元数据列族实时同步到搜索引擎Solr中,提供多种模式搜索查询,查询非结构化数据记录时,根据搜索条件搜索引擎Solr中搜索文件的元数据信息,通过搜索到的RowKey和存储方式,快速定位到文件内容所在位置,本专利技术实施例中用的组件都属于同一个分布式平台,可以统一安装管理。图1为本专利技术实施例提供的非结构化数据的管理方法的流程示意图,如图1所示,包括:S101、根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中。需要说明的是,本专利技术实施例根据非结构化数据文件的大小确定其存储方式,以不同的方式存储到HDFS或者HBase中,提高了非结构数据的存储多样性。可以理解的是,HBase是一种分布式的、面向列的开源数据库。它是一个适合于非结构化数据存储的数据库,HBase基于列的模式。S102、将所述非结构化数据的元数据存储在HBase的元数据列族中,根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中。应当理解,元数据是描述数据的数据(dataaboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。具体地,元数据可以包括文件名、文件大小、存储时间、关键字、摘要和存储方式等等。在本专利技术实施例中,HBase中具有不同的列族,其中,元数据列族中用于非结构化数据的元数据,HBase中的其他列族所存储的数据与非结构化数据的存储方式有关。S103、将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中;其中,所述元数据包括所述非结构化数据的存储方式。具体地,本专利技术实施例通过Key-ValueStoreIndexer将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中,HDFS、HBase、Solr、Key-ValueStoreIndexer都是CDH平台统一安装的组件,可以非常方便统一安装、配置、管理。CDH平台也是市场上非常流行的Hadoop商用平台,该平台下所有组件都支持无缝水平扩展,无须担心性能瓶颈。可以理解的是,当非结构化数据存入HBase中时,会生成该非结构数据的唯一标识:行键。本专利技术实施例引入Solr搜索引擎服务提供数据读取服务,将系统读写分离,一是提供了比HBase更高效的全文检索功能,解决了HBase不通过RowKey搜索时效率过低的问题,二是解决了HBase在进行Region的拆分和合并过程中的暂时离线问题。通过Solr搜索引擎读取海量非结构化数据,即可以进行有效组织和管理数据,又能够更高效的对数据进行精确或模糊搜索,提高整个大数据系统的运行效率。在上述实施例的基础上,将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中本文档来自技高网...

【技术保护点】
1.一种非结构化数据的管理方法,其特征在于,包括:根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中;将所述非结构化数据的元数据存储在HBase的元数据列族中,根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中;将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中;其中,所述元数据包括所述非结构化数据的存储方式。

【技术特征摘要】
1.一种非结构化数据的管理方法,其特征在于,包括:根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中;将所述非结构化数据的元数据存储在HBase的元数据列族中,根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中;将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中;其中,所述元数据包括所述非结构化数据的存储方式。2.根据权利要求1所述的非结构化数据的管理方法,其特征在于,所述将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中,之后还包括:设置查询条件,所述查询条件为所述元数据;根据所述查询条件查询Solr搜索引擎;若Solr搜索引擎搜索到与所述查询条件对应的行键以及存储方式,则根据所述存储方式读取所述非结构化数据。3.根据权利要求2所述的非结构化数据的管理方法,其特征在于,所述存储方式包括序列化存储、单独存储以及合并存储;其中,所述序列化存储为将非结构化数据进行序列化操作,并将操作后的文件存储在HBase中;所述合并存储为将若干个非结构化数据进行合并,并将合并后的文件存储在HDFS中;所述单独存储为将所述非结构化数据直接存储在HDFS中。4.根据权利要求3所述的非结构化数据的管理方法,其特征在于,所述根据非结构化数据的大小确定对应的存储方式,根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中,具体为,若所述非结构化数据的大小小于第一阈值,将所述非结构化数据以序列化存储的方式进行存储;若所述非结构化数据的大小大于所述第一阈值且不大于第二阈值,则将同样满足大小大于所述第一阈值且不大于第二阈值的多个非结构化数据以合并存储的方式进行存储;若所述非结构化数据的大小大于所述第二阈值,则将所述非结构数据以单独存储的方式进行存储。5.根据权利要求4所述的非结构化数据的管理方法,其特征在于,所述根据所述非结构化数据的存储方式,将所述非结构化数据的文件索引存在HBase中对应的列族中,具体为:若所述非结构化数据的存储方式为序列化存储,则将所述非结构化数据的二进制内容作为所述非结构化数据的文件索引,存储在HBase中的序列化存储列族中;若所述非结构化数据的存储方式为合并存储,则将合并后...

【专利技术属性】
技术研发人员:徐辉李智徐永
申请(专利权)人:北京市天元网络技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1