流式数据的处理方法和装置制造方法及图纸

技术编号:19822457 阅读:34 留言:0更新日期:2018-12-19 14:56
本发明专利技术涉及一种流式数据处理方法和装置,该方法包括以下步骤:按照时间维度将接收到的流式数据执行分片操作,得到多个数据片;根据时间窗口长度信息对各数据片执行添加头部数据集的操作,得到具有头部的分布式数据集;对所述具有头部的分布式数据集执行批处理操作;将批处理操作之后的具有头部的分布式数据集数据执行去头部数据操作,得到去除了头部的数据片。本发明专利技术实施例既能保证关联数据的完整性从而不会造成部分计算结果的缺失,而且去除了冗余数据而使得数据计算性能提高。

【技术实现步骤摘要】
流式数据的处理方法和装置
本专利技术涉及数据处理
,尤其涉及一种流式数据的处理方法和装置。
技术介绍
随着互联网、物联网等技术的发展,各行各业越来越离不开大数据,大数据的广泛应用使其成为引领众多行业技术进步、促进效益增长的关键支撑技术。根据数据处理的时效性,大数据处理可分为批式(batch)数据处理和流式(streaming)数据处理两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。流式数据处理是对无边界数据集进行连续不断的聚合、处理和分析的过程。流式数据一般均带有时间戳,可以来自于股票市场的时序分析、企业交易、web流量和传感器数据等。与传统的批处理模式(如MapReduce)不同,针对流式数据的处理往往具有滑动时间窗口特性,即处理过程往往基于过去一段时间的数据而非所有数据,同时流式数据处理对实时性要求较高。图1示出了具有数据关联性的流式处理过程,即一个带有滑动窗口的流式数据处理过程。如图1所示,xn为输入数据流,yn为输出数据流。在该例中,时间窗口的长度为3,步长为1。以y3的计算过程为例,y3的计算依赖于x1~x3的输入数据,通过核函数f(x)得到输本文档来自技高网...

【技术保护点】
1.一种流式数据处理方法,其特征在于,该方法包括以下步骤:按照时间维度将接收到的流式数据执行分片操作,得到多个数据片;根据时间窗口长度信息对各数据片执行添加头部数据集的操作,得到具有头部的分布式数据集;对所述具有头部的分布式数据集执行计算处理;将计算处理之后的具有头部的分布式数据集数据执行去头部数据操作,得到去除了头部的数据片。

【技术特征摘要】
1.一种流式数据处理方法,其特征在于,该方法包括以下步骤:按照时间维度将接收到的流式数据执行分片操作,得到多个数据片;根据时间窗口长度信息对各数据片执行添加头部数据集的操作,得到具有头部的分布式数据集;对所述具有头部的分布式数据集执行计算处理;将计算处理之后的具有头部的分布式数据集数据执行去头部数据操作,得到去除了头部的数据片。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将去除了头部的数据片根据时间先后关系进行合成操作,形成输出数据流。3.根据权利要求1所述的方法,其特征在于,执行所述分片操作后得到的多个数据片为固定时间长度的数据片。4.根据权利要求3所述的方法,其特征在于,所述固定时间长度的数据片为不同时段的一维或多维数据,或者所述固定时间长度的数据片为RDD数据片。5.根据权利要求1所述的方法,其特征在于,所述头部数据集为时间维度长度为时间窗口长度的数据。6.根据权利要求5所述的方法,其特征在于,所述多个数据片中第一数据片的头部数据集为空,所述第一数据片之外的其他数据片...

【专利技术属性】
技术研发人员:江树浩鄢贵海
申请(专利权)人:中科驭数北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1