工业时序数据的查询处理方法及系统技术方案

技术编号:17667618 阅读:35 留言:0更新日期:2018-04-11 05:56
本发明专利技术提供一种工业时序数据的查询处理方法及系统,该方法包括:根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,其中,所述数据分布式存储系统根据存储的工业时序数据的存储时间在时间维度上被划分为多个数据分区;将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划;执行所述查询计划,获取查询结果。本发明专利技术基于应用底层系统分区功能,无需扫描全量数据,直接缩小需要扫描的数据范围,而且本发明专利技术避免了对数据全排序的过程,有效地节约了数据扫描和数据全排序所需消耗的时间和计算资源,提高了数据查询效率。

Query processing method and system for industrial time series data

The invention provides a query processing method and system for industry time series data, the method comprises: according to the data query in the query time, the query of the corresponding target data in a distributed data storage system in the data partition, determine which of the data distributed storage system based on storage time sequential data stored in the industry the time dimension is divided into a plurality of data partition; the data partition as target data scanning area, query the target data query plan in the target data scanning area; executing the query plan, query results. The present invention partition function application system based on the bottom, no need to scan the full amount of data, directly reduce the need to scan the data range, and the invention avoids the process of data sorting, effectively saving data scanning and data ranking and the time required for calculation of resource consumption, improve the efficiency of data query.

【技术实现步骤摘要】
工业时序数据的查询处理方法及系统
本专利技术涉及数据处理
,尤其涉及一种工业时序数据的查询处理方法及系统。
技术介绍
随着互联网技术的广泛应用,在科技行业,以及传统行业与互联网行业的结合的大背景下,工业时序数据的增长呈现指数级。对海量的工业时序数据进行范围查询并返回给定时间段原始数据集是最基本的数据查询形式。当前,面对海量工业时序数据,基于普通计算机(commodityhardware)的分布式存储和计算系统是主流平台架构(如Hadoop)。在这些分布式系统中,进行对某一设备数据的全排序是非常耗时和消耗计算资源的操作。而对时序数据的访问天然需要在时间维度上严格按顺序检索和读取。现有的对于典型的范围查询,如:“分页查询指定时间范围内某个传感器的原始数值,并按照时间排序”在工业领域应用中很常用。在传统关系型数据库中一条简单的SQL语句就能实现,如:“SELECTf1FROMtable1WHEREts>=’2015-01-0100:00:00’ANDts<=’2016-01-0100:00:00’LIMIT100OFFSET500ORDERBYtsASC”。但是在工业互联网领域,传感器产生的数据量巨大,即使是基于SQL-on-Hadoop的Impala查询,也会由于需要扫描的数据量巨大,需要排序的数据量大,使得查询速度很慢或由于内存溢出而无法执行。基于以上分析,如何降低查询扫描数据量和如何降低排序数据量是提高此情景下查询速度的关键。综上所述,在存储海量工业时序数据的大数据分布式存储系统中,如何提供一种能够结合工业时序数据特性、结合底层大数据分布式存储系统能力的高效范围查询的处理方法和系统,使得其在不强制要求底层数据存储和组织方式的前提下可以与其他数据读取负载共存并高效工作具有重要意义。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的工业时序数据的查询处理方法及系统。本专利技术的一个方面,提供了一种工业时序数据的查询处理方法,包括:根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,其中,所述数据分布式存储系统根据存储的工业时序数据的存储时间在时间维度上被划分为多个数据分区;将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划;执行所述查询计划,获取查询结果。其中,所述根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,包括:根据所述查询时间,确定所述目标数据在所述数据分布式存储系统中对应的数据分区分布;遍历所述数据分区分布中的数据分区进行目标数据扫描,根据所述数据查询请求中的数据数量和偏移量,确定所述目标数据对应的数据分区,其中,所述数据查询请求中携带有所述目标数据的数据数量和所述目标数据在所述数据分区分布中的偏移量。其中,所述遍历所述数据分区分布中的数据分区进行目标数据扫描,根据所述数据查询请求中的数据数量,确定所述目标数据对应的数据分区,包括:S31、扫描所述数据分区分布中第一个数据分区,判定所述第一个数据分区中的第一结果数是否大于所述数据数量;若是,则执行S32,否则执行S33;S32、将所述第一个数据分区作为一个数据结果单元,并将所述第一个数据分区的数据分布信息上传到预设的数据分布结构文件;S33、继续扫描所述数据分区分布中的下一个数据分区,判定该数据分区中的第二结果数是否大于所述数据数量,并根据所述偏移量与所述第一结果数的差值更新所述偏移量,得到第二偏移量;若是,则执行S34,否则执行S35;S34、将当前数据分区作为一个数据结果单元,并将当前数据分区的数据分布信息上传到预设的数据分布结构文件;S35、判断当前数据分区是否满足预设的划分条件;若是满足预设的划分条件,则执行S36,否则执行S37;S36、采用基于时间的二分法对当前数据分区进行划分,并返回S33,以分别对划分后的子分区执行分区流程;S37、计算当前数据分区的数据分布信息,根据所述数据分布信息得到一个数据结果单元,并将所述数据结果单元上传到预设的数据分布结构文件,并根据所述第二偏移量与所述第二结果数的差值更新所述第二偏移量,得到第三偏移量;其中,所述数据分布信息包括各数据结果单元中的包结的待查询数据的结果数,以及相应的数据结果在该数据结果单元中偏移量;重复执行上述S31~S37,直到查询到所述目标数据对应的全部数据结果单元。其中,所述将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划,包括:将各个数据结果单元作为目标数据扫描区域,分别生成在各个数据结果单元中查询所述目标数据的查询计划。其中,所述执行所述查询计划,获取查询结果,包括:根据各数据结果单元中工业时序数据的存储时间依次执行各个数据结果单元对应的查询计划,并将查询到的数据进行组合。其中,所述执行所述查询计划,获取查询结果,包括:并行执行各个数据结果单元对应的查询计划,并根据各数据结果单元中工业时序数据的存储时间将各数据结果单元对应的查询结果进行顺序组合。本专利技术的另一个方面,提供了一种工业时序数据的查询处理系统,包括:数据分区确定模块,适用于根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,其中,所述数据分布式存储系统根据存储的工业时序数据的存储时间在时间维度上被划分为多个数据分区;查询计划生成模块,适用于将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划;查询执行模块,适用于执行所述查询计划,获取查询结果。其中,所述数据分区确定模块包括:第一确定子模块,适用于根据所述查询时间,确定所述目标数据在所述数据分布式存储系统中对应的数据分区分布;第二确定子模块,适用于遍历所述数据分区分布中的数据分区进行目标数据扫描,根据所述数据查询请求中的数据数量和偏移量,确定所述目标数据对应的数据分区,其中,所述数据查询请求中携带有所述目标数据的数据数量和所述目标数据在所述数据分区分布中的偏移量。此外,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。此外,本专利技术还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法的步骤。本专利技术实施例提供的工业时序数据的查询处理方法及系统,是一种基于工业时序数据分布分析的范围查询处理优化方法和系统,通过根据对数据的分布分析,进行数据定位并进行局部排序,最终完成对时序数据的顺序返回。本专利技术基于应用底层系统分区功能,无需扫描全量数据,直接缩小需要扫描的数据范围,而且本专利技术避免了对数据全排序的过程,有效地节约了数据扫描和数据全排序所需消耗的时间和计算资源,提高了数据查询效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技本文档来自技高网
...
工业时序数据的查询处理方法及系统

【技术保护点】
一种工业时序数据的查询处理方法,其特征在于,包括:根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,其中,所述数据分布式存储系统根据存储的工业时序数据的存储时间在时间维度上被划分为多个数据分区;将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划;执行所述查询计划,获取查询结果。

【技术特征摘要】
1.一种工业时序数据的查询处理方法,其特征在于,包括:根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,其中,所述数据分布式存储系统根据存储的工业时序数据的存储时间在时间维度上被划分为多个数据分区;将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划;执行所述查询计划,获取查询结果。2.根据权利要求1所述的方法,其特征在于,所述根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,包括:根据所述查询时间,确定所述目标数据在所述数据分布式存储系统中对应的数据分区分布;遍历所述数据分区分布中的数据分区进行目标数据扫描,根据所述数据查询请求中的数据数量和偏移量,确定所述目标数据对应的数据分区,其中,所述数据查询请求中携带有所述目标数据的数据数量和所述目标数据在所述数据分区分布中的偏移量。3.根据权利要求2所述的方法,其特征在于,所述遍历所述数据分区分布中的数据分区进行目标数据扫描,根据所述数据查询请求中的数据数量,确定所述目标数据对应的数据分区,包括:S31、扫描所述数据分区分布中第一个数据分区,判定所述第一个数据分区中的第一结果数是否大于所述数据数量;若是,则执行S32,否则执行S33;S32、将所述第一个数据分区作为一个数据结果单元,并将所述第一个数据分区的数据分布信息上传到预设的数据分布结构文件;S33、继续扫描所述数据分区分布中的下一个数据分区,判定该数据分区中的第二结果数是否大于所述数据数量,并根据所述偏移量与所述第一结果数的差值更新所述偏移量,得到第二偏移量;若是,则执行S34,否则执行S35;S34、将当前数据分区作为一个数据结果单元,并将当前数据分区的数据分布信息上传到预设的数据分布结构文件;S35、判断当前数据分区是否满足预设的划分条件;若是满足预设的划分条件,则执行S36,否则执行S37;S36、采用基于时间的二分法对当前数据分区进行划分,并返回S33,以分别对划分后的子分区执行分区流程;S37、计算当前数据分区的数据分布信息,根据所述数据分布信息得到一个数据结果单元,并将所述数据结果单元上传到预设的数据分布结构文件,并根据所述第二偏移量与所述第二结果数的差值更新所述第二偏移量,得到第三偏移量;其中,...

【专利技术属性】
技术研发人员:张鹏张硕陈景帅杨锐
申请(专利权)人:苏州工业大数据创新中心有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1