【技术实现步骤摘要】
一种基于分布式架构对流数据进行查询的方法和设备
本申请涉及实时流数据处理领域,更具体地,涉及一种基于分布式架构对流数据进行查询的方法和设备。
技术介绍
流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。现有技术中在对流数据进行查询时,一般采用单机对接收的流数据进行处理,在接收一个流数据事件后,通过同一条命名管道将流数据传输到内存,按照流数据到达的先后顺序完成处理,处理后的结果也是一个完整的结果。当用户发出查询请求时,系统就会将处理结果直接反馈给用户。但现有技术中的这种处理方式存在以下问题,其只适用于处理流数据的数据量较小的流数据,在数据传输和可处理的范围之内,数据传输和处理的速度都是比较快。当数据量较大时,超出了系统数据传输和数据处理的性能,将出现数据传输缓慢、堵塞、处理延迟大幅增加等问题,从而严重降低数据流处理性能和响应速度。因此,如何对数据量较大的流数据进行快速 ...
【技术保护点】
1.一种基于分布式架构对流数据进行查询的方法,应用于包括多个分布式并行连接的内存数据库的内存系统中,其特征在于,所述方法包括:/n接收用户发出的数据查询请求;/n根据所述数据查询请求从流数据的流处理进程中的事件窗口中确定多个所述流数据的数据分流,所述流处理进程具体为流适配进程和流连接进程,所述事件窗口为所述流连接进程中对所述数据分流进行接收与累积的窗口;/n基于对所述数据分流的合并确定查询结果;/n向所述用户返回所述查询结果。/n
【技术特征摘要】
1.一种基于分布式架构对流数据进行查询的方法,应用于包括多个分布式并行连接的内存数据库的内存系统中,其特征在于,所述方法包括:
接收用户发出的数据查询请求;
根据所述数据查询请求从流数据的流处理进程中的事件窗口中确定多个所述流数据的数据分流,所述流处理进程具体为流适配进程和流连接进程,所述事件窗口为所述流连接进程中对所述数据分流进行接收与累积的窗口;
基于对所述数据分流的合并确定查询结果;
向所述用户返回所述查询结果。
2.如权利要求1所述的方法,其特征在于,在接收所述用户发出的数据查询请求之前,还包括:
根据接收到的流数据事件建立所述流适配进程和所述流连接进程,所述流数据事件是在所述流数据进入所述内存系统时触发的;
基于所述流适配进程将数据量超过预设阈值的流数据分成多个数据分流,并将所述数据分流按预设格式存入预设命名管道,所述命名管道与所述数据分流一一对应;
基于所述流连接进程中的事件窗口对所述命名管道中的数据分流进行接收与累积,所述事件窗口是与所述流连接进程同步建立的。
3.如权利要求2所述的方法,其特征在于,所述数据量超过预设阈值的流数据的数量为一个或多个,基于所述流适配进程将数据量超过预设阈值的流数据分成多个数据分流,具体为:
当所述数量为一个时,基于所述流适配进程将所述数据量超过预设阈值的流数据分成多个数据分流;
当所述数量为多个时,在各所述流数据上添加不同的标记,基于所述标记在所述流适配进程中将所述数据量超过预设阈值的流数据分成多个数据分流,同一流数据对应的各数据分流上的标记相同。
4.如权利要求3所述的方法,其特征在于,基于对所数据分流的合并确定查询结果,具体为:
当所述数量为一个时,根据所述数据查询请求将所述事件窗口中对应的数据分流合并后确定所述查询结果;
当所述数量为多个时,根据所述查询请求将所述事件窗口中对应的数据分流按所述标记合并后确定所述查询结果。
5.如权利要求2所述的方法,其特征在于,所述预设格式为逗号分隔值CSV格式,所述命名管道为Linux命名管道,在向所述用户返回查询结果之后,还包括:
将所述查询结果中的数据进行删除或存储;
当不存在进入所述系统的流数据时,关闭所述...
【专利技术属性】
技术研发人员:刘睿民,
申请(专利权)人:威讯柏睿数据科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。