流式计算数据的处理方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:36919744 阅读:24 留言:0更新日期:2023-03-22 18:43
本申请实施例提供了一种流式计算数据的处理方法、装置、设备及计算机存储介质,其中方法包括:根据窗口内的事件数据计算目标事件发生的时间范围以及窗口水位线,基于计算得到的目标事件发生的时间范围以及窗口水位线处理流式计算数据。根据本申请实施例的流式计算数据的处理方法,可以避免窗口进行提前计算,保障了窗口数据的完整性。障了窗口数据的完整性。障了窗口数据的完整性。

【技术实现步骤摘要】
流式计算数据的处理方法、装置、设备及计算机存储介质


[0001]本申请属于互联网
,尤其涉及一种流式计算数据的处理方法、装置、设备及计算机存储介质。

技术介绍

[0002]当前在大数据实时流式计算时,数据的处理依据时间顺序进行,对于乱序问题,当前主流的流式计算框架使用水位线和窗口相结合的方式进行处理。但是在处理过程中,窗口最大时延等待时间由开发人员手动设置,设置不当时会影响计算数据的完整性,且现有的窗口的触发条件容易受到脏数据的影响,也会造成计算数据的不完整,影响最终的计算结果。

技术实现思路

[0003]本申请实施例提供一种流式计算数据的处理方法、装置、设备及计算机存储介质,能够根据窗口的事件数据计算事件发生的时间范围和窗口水位线,进而删除问题数据,同时避免窗口提前进行计算,保障了数据的完整性。
[0004]第一方面,本申请实施例提供一种流式计算数据的处理方法,方法包括:
[0005]获取窗口内的事件数据,窗口内的事件数据包括多个事件发生的时间、多个事件时延、目标事件数据和最大时延,目标事件数据包括目标事本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种流式计算数据的处理方法,其特征在于,包括:获取窗口内的事件数据,所述窗口内的事件数据包括多个事件发生的时间、多个事件时延、目标事件数据和最大时延,所述目标事件数据包括目标事件发生的时间和目标事件时延;基于所述事件发生的时间确定所述窗口内事件发生的时间范围;当所述目标事件发生的时间在所述事件发生的时间范围之外时,删除所述目标事件数据;基于所述多个事件时延计算窗口时延;基于所述窗口时延、所述目标事件时延、事件最大时间和最大时延确定目标窗口水位线,所述事件最大时间为窗口内的事件数据中的最大时间;根据所述目标窗口水位线和所述窗口内事件发生的时间范围处理流式计算数据。2.根据权利要求1所述的方法,其特征在于,所述基于所述事件发生的时间确定所述窗口内事件发生的时间范围,包括:基于所述事件发生的时间计算上分位和下分位;根据所述上分位和所述下分位确定所述窗口内事件发生的时间范围。3.根据权利要求1所述的方法,其特征在于,所述基于所述多个事件时延计算窗口时延,包括:计算所述多个事件时延的平均值作为窗口时延。4.根据权利要求1所述的方法,其特征在于,所述基于所述窗口时延、所述目标事件时延、事件最大时间和最大时延确定目标窗口水位线,包括:基于所述窗口时延、所述目标事件时延和最大时延确定最大时延调整步长;根据所述最大调整步长和所述最大时延确定目标最大时延;基于所述目标最大时延和所述事件最大时间确定目标窗口水位线。5.一种流式计算数据的处理装置,其特征在于,所述装置包括:获取模块,用于获取窗口内的事件数据,所述窗口内的事件数据包括多个事件发生的时间、多个事件时延、目标事件数据和最大时延,所述目标事件数据包括目标事件发生的时间和目标事件时延;第一确定模块,用于基于所述事件发生的时间确定所述窗口内事件发生的时间范围;删除模块...

【专利技术属性】
技术研发人员:杨猛
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1