一种基于存储对象分离机制下的均衡负载时空感知大数据存储查询方法和系统技术方案

技术编号:38878075 阅读:14 留言:0更新日期:2023-09-22 14:10
本发明专利技术属于物联网时空感知大数据快速查询领域,具体涉及一种基于存储对象分离机制下的均衡负载时空感知大数据存储查询方法和系统。该方法包括:1)针对时空数据的自身特征以数据表为基本单位构建二级索引,其中第一级索引为空间的网格划分,第二级索引为时间序列索引;2)第一层索引的粒度为数据表,第二层索引的粒度为多条数据项组成的数据块;根据存储的数据量增加使用贪心算法迭代计算空间索引的动态变化;3)由于空间索引在调整时具有滞后性,因此使用时序模型进行数据量预测,使用2)中方法进行空间划分,得到空间划分集合;4)根据3)中得到的空间划分结构,每一个空间集合由一个线程操作,实现海量数据均衡分治处理的效果。果。果。

【技术实现步骤摘要】
一种基于存储对象分离机制下的均衡负载时空感知大数据存储查询方法和系统


[0001]本专利技术属于物联网时空感知大数据快速查询领域,具体涉及一种基于存储对象分离机制下的均衡负载时空感知大数据存储查询方法和系统。

技术介绍

[0002]随着万物互联的时代的到来,包括我们的手机终端,车载系统,智能家居等等在内的终端系统时刻产生着大量的数据信息,大数据时代进入了一个新的高速发展阶段。物联网大数据的数据体量巨大,种类来源多样,增长速度快等特点不断冲击着已有的数据处理模式,同时向现有的数据存储方法发起着挑战,如何改进和优化数据存储和处理方法成为了一个持续性的研究方向。
[0003]本专利技术针对时空数据既具有时间连续性又具有空间相关性的特有属性,结合当前主流的存储查询方式的对比分析,探究一种针对于IOT(Internet of Things,物联网)传感器产生的时空数据的存储查询方法,针对数据特点,实现对查询过程的优化处理,以达到提高读写效率,更好的应对大数据时代的实时性等相关要求。
[0004]传统的开源数据管理方案,没有针对物联网采样数据形成有效的管理方案,虽然其对数据管理方法有所扩充,例如mysql引入opengis标准下实现空间插件,postgresql中的postgis 插件等是对空间数据管理计算的扩充,influxdb,tdengine等时序数据库利用了时间序列作为索引方法,但是以上管理方法均没有有效利用时间

空间属性。另一方面,geomesa提出的 geohash编码方法提出了一种空间时间相融合的编码方式,一定程度上解决了时空查询的问题,但是,其存在需要预先规定时间起点,查询速度慢,针对物联网信息中常用查询如轨迹跟踪等没有针对性处理等缺点。

技术实现思路

[0005]针对现有技术的不足并结合应用场景中常用的检索需求,本专利技术提供一种基于存储对象分离机制下的均衡负载时空感知大数据存储查询方法。该方法结合物联网时空感知大数据的特点,充分利用传感器采集信息的时间空间属性,服务于物联网数据常用的范围查询等查询需要,提高查询效率,实现查询实时负载均衡。该专利技术可用于车联网,人员流调等大规模单点时空数据的有效管理。
[0006]本专利技术采用的技术方案如下:
[0007]一种基于存储对象分离机制下的均衡负载时空感知大数据存储查询方法,其步骤包括:
[0008]建立时空感知大数据的二级索引结构,其中第一级索引为对均匀化细粒度的空间网格进行合并管理后形成的若干空间集合,每个空间集合中以采集数据的传感器为基本单位构建数据表,使用B+树结构管理不同传感器构建的数据表;所述第二级索引为单个数据表中的时间序列索引,在单个数据表中数据按时间单调递增排列,使用跳表对时序数据进
行管理;
[0009]将物联网感知采样数据写入所述二级索引结构;
[0010]使用时序模型进行数据量预测,根据预测的数据量对第一级索引的空间集合进行动态划分,以实现实时状态下的负载均衡;
[0011]以动态划分的空间集合为基本单位进行数据查询,每一个空间集合由一个线程操作,实现海量数据的均衡分治处理。
[0012]进一步地,所述第一级索引的粒度为数据表,第二级索引的粒度为多条数据项组成的数据块。
[0013]进一步地,所述第二级索引中,在单个表中数据以产生时间生成时间戳并按时间戳单调递增存储,使用跳表链接实际存储的磁盘物理空间。
[0014]进一步地,所述将物联网感知采样数据写入所述二级索引结构,包括:首先提取空间数据信息进行计算,确定需要存储的网格位置,之后根据产生数据的传感器id,通过B+树索引锁定存储的数据表,最后根据时间戳信息将数据追加写入该数据表的末端位置。
[0015]进一步地,采用以下步骤对均匀化细粒度的空间网格进行合并管理,形成第一级索引的若干空间集合:
[0016]1)根据待划分的集合数量n,将网格初始化为n个集合,其中每个集合中包含若干个网格,即grid,每个网格权重为该网格中存在的数据量,为保证后续编码一致性,集合形状为矩形,此时得到计算的阈值参量其中num
i
为每个集合包含的数据量, u为总数据量/n得到的均值;
[0017]2)轮询遍历集合,使用贪心策略,每个集合分别与其相邻的集合进行运算,运算规则为:当前矩形集合向四边扩张,同时相邻集合收缩,由于集合限定为矩形,在该扩张方向上,计算得到最小变动集合群,选择对r产生的影响,选定最大梯度下降的方向,在集合群中调整集合边界大小;
[0018]3)重复步骤2)直到循环结束,结束条件为当r小于设定阈值或多次迭代后不继续下降,此时得到均衡数据体量的空间划分。
[0019]进一步地,所述使用时序模型进行数据量预测,根据预测的数据量对空间集合进行动态划分,包括:
[0020](1)针对每一个grid,随时间推移,数据不断写入,产生关于网格内数据量大小的时间序列,对该时间序列进行ADF检验,满足检验后进入步骤(2),否则进行差分处理等方法使其变为平稳序列;
[0021](2)根据时间序列的识别规则,采用ACF图,PACF图,AIC准则和BIC准则相结合的方式来确定ARIMA模型的阶数,选取AIC和BIC最小的一组作为理想阶数;
[0022](3)确定理想阶数后,根据ARIMA模型公式计算预测t时刻该grid内的数据量大小;
[0023](4)使用ARIMA模型得到grid的数据量预测结果作为前文所述步骤1)的输入,实现实时的负载均衡。
[0024]一种采用上述方法的基于存储对象分离机制下的均衡负载时空感知大数据存储查询系统,其包括:
[0025]索引结构建立模块,用于建立时空感知大数据的二级索引结构,其中第一级索引为对均匀化细粒度的空间网格进行合并管理后形成的若干空间集合,每个空间集合中以采
集数据的传感器为基本单位构建数据表,使用B+树结构管理不同传感器构建的数据表;所述第二级索引为单个数据表中的时间序列索引,在单个数据表中数据按时间单调递增排列,使用跳表对时序数据进行管理;
[0026]数据写入模块,用于将物联网感知采样数据写入所述二级索引结构;
[0027]动态划分模块,用于使用时序模型进行数据量预测,根据预测的数据量对第一级索引的空间集合进行动态划分,以实现实时状态下的负载均衡;
[0028]数据查询模块,用于以动态划分的空间集合为基本单位进行数据查询,每一个空间集合由一个线程操作,实现海量数据的均衡分治处理。
[0029]本专利技术的有益效果:
[0030]1)相较于传统的索引及存储方法,本专利技术的索引粒度粗于传统方法,可在单位内存中指向更多的数据,减少了检索时内存和磁盘I/O的交互;
[0031]2)本专利技术对数据处理实现分治的策略,能够提高数据检索的并行性,降低时间消耗;
[0032]3)本专利技术动态划分集合R,在数据管理层面实现实时负载均衡的效果;
...

【技术保护点】

【技术特征摘要】
1.一种基于存储对象分离机制下的均衡负载时空感知大数据存储查询方法,其特征在于,包括以下步骤:建立时空感知大数据的二级索引结构,其中第一级索引为对均匀化细粒度的空间网格进行合并管理后形成的若干空间集合,每个空间集合中以采集数据的传感器为基本单位构建数据表,使用B+树结构管理不同传感器构建的数据表;所述第二级索引为单个数据表中的时间序列索引,在单个数据表中数据按时间单调递增排列,使用跳表对时序数据进行管理;将物联网感知采样数据写入所述二级索引结构;使用时序模型进行数据量预测,根据预测的数据量对第一级索引的空间集合进行动态划分,以实现实时状态下的负载均衡;以动态划分的空间集合为基本单位进行数据查询,每一个空间集合由一个线程操作,实现海量数据的均衡分治处理。2.根据权利要求1所述的方法,其特征在于,所述第一级索引的粒度为数据表,所述第二级索引的粒度为多条数据项组成的数据块;所述第二级索引中,在单个表中数据以产生时间生成时间戳并按时间戳单调递增存储,使用跳表链接实际存储的磁盘物理空间。3.根据权利要求1所述的方法,其特征在于,所述将物联网感知采样数据写入所述二级索引结构,包括:首先提取空间数据信息进行计算,确定需要存储的网格位置,之后根据产生数据的传感器id,通过B+树索引锁定存储的数据表,最后根据时间戳信息将数据追加写入该数据表的末端位置。4.根据权利要求1所述的方法,其特征在于,采用以下步骤形成所述第一级索引的若干空间集合:1)根据待划分的集合数量n,将网格初始化为n个集合,其中每个集合中包含若干个网格,即grid,每个网格权重为该网格中存在的数据量;为保证后续编码一致性,集合形状为矩形,此时得到计算的阈值参量其中num
i
为每个集合包含的数据量,u为总数据量/n得到的均值;2)轮询遍历各个集合,使用贪心策略,每个集合分别与其相邻的集合进行运算,运算规则为:当前矩形集合向四边扩张,同时相邻集合收缩,由于集合限定为矩形,在该扩张方向上,计算得到最小变动集合群,选择对r产生的影响,选定最大梯度下降的方向,在集合群中调整集合边界大小;3)重复步骤2)直到循环结束,结束条件为当r小于设定阈值或多次迭代后不继续下降,此时得到均衡数据体量的空间划分。5.根据权利要求4所述的方法,其特征在于,所述最小变动集合群是指当前集合变动时会发生相应变动的所有集合,计算得到最小变动集合群的方法是:选定当前集合的待变动边界,在此边界变动方向α的垂直方向β上进行延伸,延伸...

【专利技术属性】
技术研发人员:丁治明张帅严瑾
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1