The invention discloses a data device and a data storage method for supporting the analysis and retrieval of an efficient mass of data. The device comprises a plurality of folders containing multiple index segment in each folder; each index segment includes a full-text index component, a data location module and a data storage module; full-text indexing module for inverted index information storage section of the index record; data storage module, comprising a plurality of transverse block. Each transverse block contains multiple columns of slices, each slice contains multiple columns for data pages stored data record data; provide positioning module, data storage module for nested index structure, each horizontal block index stored transverse block record start Id, transverse block position, each slice the location and column slice index set; each column slice index record column slice data page starting position data pages and index set; each data page index record data page Where the file location and page record start Id.
【技术实现步骤摘要】
一种支持高效海量数据分析和检索的数据装置及数据存储方法
本专利技术属于数据存储组织领域,涉及一种针对海量数据高效响应分析和检索应用场景的数据装置及数据存储方法。
技术介绍
现有的海量数据处理技术在给大数据应用提供了有力支撑的同时也面临着技术困难。一方面,尽管数据分析系统在数据顺序读取方面性能出众,但是在处理带有过滤条件的查询场景时明显存在着处理性能不够的情况,而这种情况在过滤条件是全文检索条件时尤为突出;另一方面,融合数据检索和数据分析业务的应用场景在实际应用中比重越来越大,现有解决方案大多运行两套分别面向检索和分析系统来响应这种混合应用场景,然而由于各系统采用了不同的数据存储策略,这样的解决方案不但耗费了大量的存储和计算资源,而且还需要复杂的机制来保证两套系统数据的一致性。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种面向海量数据的数据存储装置及数据存储方法,本专利技术主要包括三个方面:(1)结合全文索引与列式存储的数据装置。(2)针对该数据装置的合并优化技术。(3)针对该数据装置的随机访问优化技术。该专利技术包括以下内容:1)数据装置的组织框架。2)依托该数据装置的数据加载流程。3)数据合并优化技术。4)依托该数据装置的数据读取流程。5)针对读取流程的随机访问优化技术。本专利技术的技术方案为:一种支持高效海量数据分析和检索的数据装置,其特征在于,包括若干文件夹,在每一文件夹中包含多个索引分段;每一索引分段包括一全文索引组件、一数据定位模块和一数据存储模块;其中,全文索引组件,用于存储索引分段中的记录的倒排索引信息;数据存储模块, ...
【技术保护点】
一种支持高效海量数据分析和检索的数据装置,其特征在于,包括若干文件夹,在每一文件夹中包含多个索引分段;每一索引分段包括一全文索引组件、一数据定位模块和一数据存储模块;其中,全文索引组件,用于存储索引分段中的记录的倒排索引信息;数据存储模块,包含多个横向分块,每个横向分块包含多个列分片,每个列分片包含多个用于存储数据记录的数据页;数据定位模块,提供针对数据存储模块的嵌套索引结构,其包括记录的列数、列描述符集合、数据存储模块的压缩模式以及横向分块索引集合;每个横向分块索引存储了横向分块记录起始Id、横向分块位置、各列分片的位置以及列分片索引集合;每个列分片索引记录了列分片中数据页起始位置和数据页索引集合;每个数据页索引记录了数据页所在文件位置和页记录起始Id。
【技术特征摘要】
1.一种支持高效海量数据分析和检索的数据装置,其特征在于,包括若干文件夹,在每一文件夹中包含多个索引分段;每一索引分段包括一全文索引组件、一数据定位模块和一数据存储模块;其中,全文索引组件,用于存储索引分段中的记录的倒排索引信息;数据存储模块,包含多个横向分块,每个横向分块包含多个列分片,每个列分片包含多个用于存储数据记录的数据页;数据定位模块,提供针对数据存储模块的嵌套索引结构,其包括记录的列数、列描述符集合、数据存储模块的压缩模式以及横向分块索引集合;每个横向分块索引存储了横向分块记录起始Id、横向分块位置、各列分片的位置以及列分片索引集合;每个列分片索引记录了列分片中数据页起始位置和数据页索引集合;每个数据页索引记录了数据页所在文件位置和页记录起始Id。2.如权利要求1所述的数据装置,其特征在于,根据数据定位模块中各横向分块包含的起止Id号将有序Id片段划分到各横向分块索引中。3.如权利要求1或2所述的数据装置,其特征在于,根据全文索引组件中记录的起止Id号,将有序的记录Id集合映射到各索引分段中,每个索引分段包含一个有序Id片段。4.如权利要求3所述的数据装置,其特征在于,所述数据页存储的数据内容为采用字典编码的...
【专利技术属性】
技术研发人员:王卓,李波,古晓艳,王伟平,孟丹,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。