非结构化数据的管理方法及装置制造方法及图纸

技术编号：20944267 阅读：36 留言：0更新日期：2019-04-24 02:18

本发明专利技术实施例提供一种非结构化数据的管理方法及装置，其中方法包括：根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。本发明专利技术实施例能够更高效的对数据进行精确或模糊搜索，提高整个大数据系统的运行效率。

Management Method and Device of Unstructured Data

The embodiment of the present invention provides a management method and device for unstructured data, which includes: determining the corresponding storage mode according to the size of unstructured data, storing the unstructured data in HDFS or HBase according to the storage mode, storing the metadata of the unstructured data in the metadata column family of HBase, and according to the unstructured number. According to the storage mode, the file index of the unstructured data is stored in the corresponding column family of HBase; the row keys and metadata of the unstructured data in HBase are synchronized to the Solr search engine; and the metadata includes the storage mode of the unstructured data. The embodiment of the invention can search data accurately or vaguely more efficiently, and improve the operation efficiency of the whole large data system.

全部详细技术资料下载

【技术实现步骤摘要】
非结构化数据的管理方法及装置
本专利技术实施例涉及文件存储
，更具体地，涉及非结构化数据的管理方法及装置。
技术介绍
在数据量越来越庞大的今天，使用单服务器存储海量数据已不太现实，多数公司企业都已使用HDFS分布式文件系统来存储数据文件，但HDFS面临的一个问题是无法适用于小文件存储。为了解决这个问题，通常有两种方案：1、再使用另一类适用于小文件存储的分布式系统(如FastDFS)单独存储小文件，此方案优点是文件读写比较简单，缺点是由于管理两套系统，设备费用和管理成本都比较高。2、在HDFS的文件系统上优化，来避免小文件存储，此方案优点是成本低，以现有方案为主，缺点是实现起来比较复杂。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的非结构化数据的管理方法及装置。第一个方面，本专利技术实施例提供一种非结构化数据的管理方法，包括：根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。第二个方面，本专利技术实施例提供一种非结构化数据的管理装置，包括：存储方式确定模块，用于根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中；元数据存储模块，用于将所述非结构化...

【技术保护点】
1.一种非结构化数据的管理方法，其特征在于，包括：根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。

【技术特征摘要】
1.一种非结构化数据的管理方法，其特征在于，包括：根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中；将所述非结构化数据的元数据存储在HBase的元数据列族中，根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中；将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中；其中，所述元数据包括所述非结构化数据的存储方式。2.根据权利要求1所述的非结构化数据的管理方法，其特征在于，所述将HBase中的非结构化数据的行键以及元数据同步至Solr搜索引擎中，之后还包括：设置查询条件，所述查询条件为所述元数据；根据所述查询条件查询Solr搜索引擎；若Solr搜索引擎搜索到与所述查询条件对应的行键以及存储方式，则根据所述存储方式读取所述非结构化数据。3.根据权利要求2所述的非结构化数据的管理方法，其特征在于，所述存储方式包括序列化存储、单独存储以及合并存储；其中，所述序列化存储为将非结构化数据进行序列化操作，并将操作后的文件存储在HBase中；所述合并存储为将若干个非结构化数据进行合并，并将合并后的文件存储在HDFS中；所述单独存储为将所述非结构化数据直接存储在HDFS中。4.根据权利要求3所述的非结构化数据的管理方法，其特征在于，所述根据非结构化数据的大小确定对应的存储方式，根据所述存储方式将所述非结构化数据所述存储到HDFS或HBase中，具体为，若所述非结构化数据的大小小于第一阈值，将所述非结构化数据以序列化存储的方式进行存储；若所述非结构化数据的大小大于所述第一阈值且不大于第二阈值，则将同样满足大小大于所述第一阈值且不大于第二阈值的多个非结构化数据以合并存储的方式进行存储；若所述非结构化数据的大小大于所述第二阈值，则将所述非结构数据以单独存储的方式进行存储。5.根据权利要求4所述的非结构化数据的管理方法，其特征在于，所述根据所述非结构化数据的存储方式，将所述非结构化数据的文件索引存在HBase中对应的列族中，具体为：若所述非结构化数据的存储方式为序列化存储，则将所述非结构化数据的二进制内容作为所述非结构化数据的文件索引，存储在HBase中的序列化存储列族中；若所述非结构化数据的存储方式为合并存储，则将合并后...

【专利技术属性】
技术研发人员：徐辉，李智，徐永，
申请(专利权)人：北京市天元网络技术股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人