基于时间维度的数据预处理方法、单元、数据存储、查询方法技术

技术编号:41260620 阅读:50 留言:0更新日期:2024-05-11 09:18
本发明专利技术公开了一种基于时间维度的数据预处理方法、单元、数据存储、查询方法,包括:确定关键字段,关键字段建立复合索引,确定每个关键字段的ID;根据关键字段ID和时间字段对待预处理数据进行数据切割存储,得到多个数据文件块,在每个数据文件块内部中,第一层存储关键字段ID,第二层存储时间戳数组和分组函数结果;构建索引文件块,索引文件块包括索引头部信息和主键内容,索引头部信息包括起始关键字段ID和起始时间戳,所述主键内容包括关键字段ID、起始时间戳和值,所述值为数据文件块ID或偏移量。本发明专利技术通过事先将数据根据最小时间粒度进行一次合并,因此,实际查询数据量远小于源数据,同时数据存储本质上也是一个列存储,支持高效基于时间维度分组查询,具有更高存储和计算效率性价比。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及一种基于时间维度的数据预处理方法、单元、数据存储、查询方法


技术介绍

1、传统数据库对带有时间字段海量数据进行分组查询分析时,如oracle通常需要扫描当前表所有的数据,当然我们可以通过对分组字段建立复合索引优化需要扫描的数据量,但是如果分组字段中有时间字段,并且对时间字段中有按分、时、天、周、月或年等分组查询要求时,可能就需要建立多个复合索引,此操作会造成大量数据冗余,以及非时间分组字段会有大量重复比较。

2、由此可以看出,传统数据库在进行海量数据分组查询时,如果分组字段中有时间字段时,并且对时间字段有多种时间粒度查询要求时,建立复合索引查询优化成本较高。


技术实现思路

1、专利技术目的:为解决传统数据库在进行海量数据分组查询,以及当分组字段中有时间字段时,并且对时间字段有多种时间粒度查询要求时,建立复合索引查询优化成本较高等问题,本专利技术提出了一种基于时间维度针对海量数据分析场景预处理优化方法和系统,通过为每一组关键字字段都映射了唯一id,存储时直接使用了关本文档来自技高网...

【技术保护点】

1.一种基于时间维度的数据预处理方法,其特征在于:包括:

2.根据权利要求1所述的一种基于时间维度的数据预处理方法,其特征在于:所述关键字段由一个或多个字段组成,所述时间字段有且只有一个字段。

3.根据权利要求1所述的一种基于时间维度的数据预处理方法,其特征在于:所述索引文件块数量为1。

4.一种基于时间维度的数据预处理模型,其特征在于:包括索引文件块和多个数据文件块;

5.根据权利要求4所述的一种基于时间维度的数据预处理模型,其特征在于:所述关键字段由一个或多个字段组成,所述时间字段有且只有一个字段。

6.基于权利要求4或5所...

【技术特征摘要】

1.一种基于时间维度的数据预处理方法,其特征在于:包括:

2.根据权利要求1所述的一种基于时间维度的数据预处理方法,其特征在于:所述关键字段由一个或多个字段组成,所述时间字段有且只有一个字段。

3.根据权利要求1所述的一种基于时间维度的数据预处理方法,其特征在于:所述索引文件块数量为1。

4.一种基于时间维度的数据预处理模型,其特征在于:包括索引文件块和多个数据文件块;

5.根据权利要求4所述的一种基于时间维度的数据预处理模型,其特征在于:所述关键字段由一个或多个字段组...

【专利技术属性】
技术研发人员:姜久文付新邓哲吴道钟张东
申请(专利权)人:达梦数据技术江苏有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1