The invention provides a query processing method and system for industry time series data, the method comprises: according to the data query in the query time, the query of the corresponding target data in a distributed data storage system in the data partition, determine which of the data distributed storage system based on storage time sequential data stored in the industry the time dimension is divided into a plurality of data partition; the data partition as target data scanning area, query the target data query plan in the target data scanning area; executing the query plan, query results. The present invention partition function application system based on the bottom, no need to scan the full amount of data, directly reduce the need to scan the data range, and the invention avoids the process of data sorting, effectively saving data scanning and data ranking and the time required for calculation of resource consumption, improve the efficiency of data query.
【技术实现步骤摘要】
工业时序数据的查询处理方法及系统
本专利技术涉及数据处理
,尤其涉及一种工业时序数据的查询处理方法及系统。
技术介绍
随着互联网技术的广泛应用,在科技行业,以及传统行业与互联网行业的结合的大背景下,工业时序数据的增长呈现指数级。对海量的工业时序数据进行范围查询并返回给定时间段原始数据集是最基本的数据查询形式。当前,面对海量工业时序数据,基于普通计算机(commodityhardware)的分布式存储和计算系统是主流平台架构(如Hadoop)。在这些分布式系统中,进行对某一设备数据的全排序是非常耗时和消耗计算资源的操作。而对时序数据的访问天然需要在时间维度上严格按顺序检索和读取。现有的对于典型的范围查询,如:“分页查询指定时间范围内某个传感器的原始数值,并按照时间排序”在工业领域应用中很常用。在传统关系型数据库中一条简单的SQL语句就能实现,如:“SELECTf1FROMtable1WHEREts>=’2015-01-0100:00:00’ANDts<=’2016-01-0100:00:00’LIMIT100OFFSET500ORDERBYtsASC”。但是在工业互联网领域,传感器产生的数据量巨大,即使是基于SQL-on-Hadoop的Impala查询,也会由于需要扫描的数据量巨大,需要排序的数据量大,使得查询速度很慢或由于内存溢出而无法执行。基于以上分析,如何降低查询扫描数据量和如何降低排序数据量是提高此情景下查询速度的关键。综上所述,在存储海量工业时序数据的大数据分布式存储系统中,如何提供一种能够结合工业时序数据特性、结 ...
【技术保护点】
一种工业时序数据的查询处理方法,其特征在于,包括:根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,其中,所述数据分布式存储系统根据存储的工业时序数据的存储时间在时间维度上被划分为多个数据分区;将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划;执行所述查询计划,获取查询结果。
【技术特征摘要】
1.一种工业时序数据的查询处理方法,其特征在于,包括:根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,其中,所述数据分布式存储系统根据存储的工业时序数据的存储时间在时间维度上被划分为多个数据分区;将所述数据分区作为目标数据扫描区域,生成在所述目标数据扫描区域中查询所述目标数据的查询计划;执行所述查询计划,获取查询结果。2.根据权利要求1所述的方法,其特征在于,所述根据数据查询请求中的查询时间,确定待查询的目标数据在数据分布式存储系统中对应的数据分区,包括:根据所述查询时间,确定所述目标数据在所述数据分布式存储系统中对应的数据分区分布;遍历所述数据分区分布中的数据分区进行目标数据扫描,根据所述数据查询请求中的数据数量和偏移量,确定所述目标数据对应的数据分区,其中,所述数据查询请求中携带有所述目标数据的数据数量和所述目标数据在所述数据分区分布中的偏移量。3.根据权利要求2所述的方法,其特征在于,所述遍历所述数据分区分布中的数据分区进行目标数据扫描,根据所述数据查询请求中的数据数量,确定所述目标数据对应的数据分区,包括:S31、扫描所述数据分区分布中第一个数据分区,判定所述第一个数据分区中的第一结果数是否大于所述数据数量;若是,则执行S32,否则执行S33;S32、将所述第一个数据分区作为一个数据结果单元,并将所述第一个数据分区的数据分布信息上传到预设的数据分布结构文件;S33、继续扫描所述数据分区分布中的下一个数据分区,判定该数据分区中的第二结果数是否大于所述数据数量,并根据所述偏移量与所述第一结果数的差值更新所述偏移量,得到第二偏移量;若是,则执行S34,否则执行S35;S34、将当前数据分区作为一个数据结果单元,并将当前数据分区的数据分布信息上传到预设的数据分布结构文件;S35、判断当前数据分区是否满足预设的划分条件;若是满足预设的划分条件,则执行S36,否则执行S37;S36、采用基于时间的二分法对当前数据分区进行划分,并返回S33,以分别对划分后的子分区执行分区流程;S37、计算当前数据分区的数据分布信息,根据所述数据分布信息得到一个数据结果单元,并将所述数据结果单元上传到预设的数据分布结构文件,并根据所述第二偏移量与所述第二结果数的差值更新所述第二偏移量,得到第三偏移量;其中,...
【专利技术属性】
技术研发人员:张鹏,张硕,陈景帅,杨锐,
申请(专利权)人:苏州工业大数据创新中心有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。