流处理系统中访问窗口数据的方法和装置制造方法及图纸

技术编号:15437285 阅读:93 留言:0更新日期:2017-05-25 19:26
本发明专利技术公开了一种流处理系统中访问窗口数据的方法和装置,该方法包括:接收客户端发送的窗口数据的访问请求,该访问请求携带窗口指示信息,该窗口指示信息指示存储该窗口数据的分布式滑动窗口;根据该窗口指示信息,确定该窗口数据在该分布式滑动窗口中的分布式数据结构,该分布式数据结构包括多个数据结构分片;根据该多个数据结构分片中的每个数据结构分片的特征标识,确定存储该每个数据结构分片的主机信息;根据存储该每个数据结构分片的主机信息,访问该每个数据结构分片。本发明专利技术实施例的流处理系统中访问窗口数据的方法和装置,能够实现窗口数据的分布式存储,突破了单机内存容量有限的瓶颈问题,同时提高了窗口数据的可靠性。

Method and apparatus for accessing window data in stream processing system

The invention discloses a method and a device access window a data stream processing system, the method includes: receiving window data sent by the client access request, the access request carrying the indicator window information, the window indicates information indicating distributed data storage of the sliding window window; the window according to the indication information, determine the distributed data structure the window in the data distributed in the sliding window, the distributed data structure includes a plurality of data structure; according to the characteristics of each data structure of the plurality of data structure in slice identification, to determine the storage data structure each slice of the host information; according to the storage data structure each slice host information, access to the data structure of each slice. Method and apparatus for accessing the window data stream processing system in the embodiment of the invention can realize distributed storage, data window, break through the single limited memory capacity bottlenecks, and improve the reliability of the data window.

【技术实现步骤摘要】
流处理系统中访问窗口数据的方法和装置
本专利技术涉及信息
,并且更具体地,涉及一种流处理系统中访问窗口数据的方法和装置。
技术介绍
滑动窗口是流处理领域的基本概念,滑动窗口是用于缓存数据流的一定时间长度历史数据的容器,现有技术中滑动窗口是在单主机内存中实现的,我们简称这种实现于单机的滑动窗口为单机滑动窗口,对于单机滑动窗口,窗口数据存储于任务(task)上下文;task故障、执行单元(Executor)故障、进程故障、主机故障都将导致窗口数据丢失,且无法恢复,也就是窗口数据的可靠性无法保障;对于海量数据处理、特别是依赖于海量历史数据进行计算的场景,单机滑动窗口也无法满足要求,因此单机滑动窗口的总容量受限于单机内存容量,因此需要一种能够解决上述问题的在流处理系统中访问窗口数据的方法。
技术实现思路
本专利技术实施例提供一种流处理系统中访问窗口数据的方法和装置,能够实现对窗口数据的分布式存储,因此突破了单机内存容量有限的瓶颈问题。第一方面,提供了一种流处理系统中访问窗口数据的方法,所述方法包括:接收客户端发送的窗口数据的访问请求,所述访问请求携带窗口指示信息,所述窗口指示信息指示存储所本文档来自技高网...
流处理系统中访问窗口数据的方法和装置

【技术保护点】
一种流处理系统中访问窗口数据的方法,其特征在于,所述方法包括:接收客户端发送的窗口数据的访问请求,所述访问请求携带窗口指示信息,所述窗口指示信息指示存储所述窗口数据的分布式滑动窗口;根据所述窗口指示信息,确定所述窗口数据在所述分布式滑动窗口中的分布式数据结构,所述分布式数据结构包括多个数据结构分片,所述多个数据结构分片位于至少两个主机上;根据所述多个数据结构分片中的每个数据结构分片的特征标识,获取存储所述每个数据结构分片的第一内存分区信息;根据所述第一内存分区信息,确定存储所述每个数据结构分片的主机信息;根据存储所述每个数据结构分片的主机信息,访问所述每个数据结构分片。

【技术特征摘要】
1.一种流处理系统中访问窗口数据的方法,其特征在于,所述方法包括:接收客户端发送的窗口数据的访问请求,所述访问请求携带窗口指示信息,所述窗口指示信息指示存储所述窗口数据的分布式滑动窗口;根据所述窗口指示信息,确定所述窗口数据在所述分布式滑动窗口中的分布式数据结构,所述分布式数据结构包括多个数据结构分片,所述多个数据结构分片位于至少两个主机上;根据所述多个数据结构分片中的每个数据结构分片的特征标识,获取存储所述每个数据结构分片的第一内存分区信息;根据所述第一内存分区信息,确定存储所述每个数据结构分片的主机信息;根据存储所述每个数据结构分片的主机信息,访问所述每个数据结构分片。2.根据权利要求1所述的方法,其特征在于,所述分布式数据结构包括所述多个数据结构分片和所述多个数据结构分片的副本,所述多个数据结构分片中的每个数据结构分片和所述每个数据结构分片的副本位于不同主机上,所述方法还包括:根据所述每个数据结构分片的特征标识,获取存储所述每个数据结构分片的副本的第二内存分区信息;根据所述第二内存分区信息,确定存储所述每个数据结构分片的副本的主机信息;根据存储所述每个数据结构分片的副本的主机信息,访问所述每个数据结构分片。3.根据权利要求1或2所述的方法,其特征在于,所述窗口指示信息为所述分布式滑动窗口的窗口名称,所述根据所述窗口指示信息,确定所述窗口数据在所述分布式滑动窗口中的分布式数据结构,包括:根据所述窗口名称,确定所述分布式滑动窗口的窗口数据在所述分布式滑动窗口中的所述分布式数据结构。4.根据权利要求1或2所述的方法,其特征在于,所述窗口指示信息为所述分布式滑动窗口中的子窗口的子窗口名称,所述根据所述窗口指示信息,确定所述窗口数据在所述分布式滑动窗口中的分布式数据结构,包括:根据所述子窗口名称,确定所述子窗口的窗口数据在所述分布式滑动窗口中的所述分布式数据结构。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一内存分区信息为第一内存分区标识,所述根据所述第一内存分区信息,确定存储所述每个数据结构分片的主机信息,包括:根据所述第一内存分区标识以及内存分区表,获取存储所述每个数据结构分片的主机信息,所述内存分区表表征内存分区标识,与所述每个数据结构分片的副本编号,以及所述内存分区标识对应的内存分区所在的主机编号的对应关系。6.根据权利要求2至5中任一项所述的方法,其特征在于,所述第二内存分区信息为第二内存分区标识,所述根据所述第二内存分区信息,确定存储所述每个数据结构分片的副本的主机信息,包括:根据所述第二内存分区标识以及内存分区表,获取存储所述每个数据结构分片的副本的主机信息,所述内存分区表表征内存分区标识,与所述每个数据结构分片的副本编号,以及所述内存分区标识对应的内存分区所在的主机编号的对应关系。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述第一内存分区信息为第一内存分区标识,所述根据所述多个数据结构分片中的每个数据结构分片的特征标识,获取存储所述每个数据结构分片的第一内存分区信息,包括:将所述每个数据结构分片的特征标识转换为二进制数据;利用散列算法对所述二进制数据进行计算得到散列结果;将所述散列结果对预设值取模后得到的结果,确定为所述每个数据结构分片的第一内存分区标识。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述窗口数据的数据结构为以下中的一种:...

【专利技术属性】
技术研发人员:单卫华杨磊
申请(专利权)人:杭州华为数字技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1