乱序数据延迟水位线动态自适应生成方法、系统及设备技术方案

技术编号:36574019 阅读:19 留言:0更新日期:2023-02-04 17:31
本发明专利技术公开一种乱序数据延迟水位线动态自适应生成方法、系统及设备,方法包括:水位线延迟计算,用于按照预设周期获取预设时间窗内进入系统的事件和事件时间,计算每个事件的数据延迟时间,并根据获取的事件数量及每个事件的数据延迟时间,计算时间窗内事件的水位线延迟时间,以此延迟时间作为当前周期内的水位线延迟阈值;动态水位线生成,用于根据当前周期内的水位线延迟阈值更新时间窗内的原始水位线,生成当前周期内时间窗事件的实际水位线。本发明专利技术的水位线在当前周期内能够兼顾数据处理的实时性和完整性,解决现有依据人工经验设置固定水位线延迟时间所存在的问题。置固定水位线延迟时间所存在的问题。置固定水位线延迟时间所存在的问题。

【技术实现步骤摘要】
乱序数据延迟水位线动态自适应生成方法、系统及设备


[0001]本专利技术涉及大数据处理
,具体涉及一种乱序数据延迟水位线动态自适应生成方法、系统及设备。

技术介绍

[0002]在实时数据处理领域,数据从产生到加工的过程中,会经历复杂的网路IO和运算过程,导致数据会乱序进入大数据处理系统。目前的大数据处理技术主要采用水位线延迟方法来解决乱序数据的延迟问题。
[0003]现有的水位线延迟方法依据人工经验设置一个固定的水位线延迟时间,其存在的缺陷是:延迟时间设置过短,可能丢失大量延迟数据,造成运算结果产生较大的误差;延迟时间设置过长,则会降低处理系统的实时性,导致数据处理延迟过长。
[0004]在实际数据处理中,进入大数据处理系统的数据吞吐量并不固定,而数据吞吐量的变化会引起数据延迟特性的变化,传统方法无法动态适应数据吞吐量变化所造成的数据延迟特性的变化。

技术实现思路

[0005]为克服上述现有技术的不足,本专利技术提供一种乱序数据延迟水位线动态自适应生成方法、系统及设备,用以解决上述至少一个技术问题。
[0006]根据本专利技术说明书的一方面,提供一种乱序数据延迟水位线动态自适应生成方法,包括:水位线延迟计算,用于按照预设周期获取预设时间窗内进入系统的事件和事件时间,计算每个事件的数据延迟时间,并根据获取的事件数量及每个事件的数据延迟时间,计算时间窗内事件的水位线延迟时间,以此延迟时间作为当前周期内的水位线延迟阈值;动态水位线生成,用于根据当前周期内的水位线延迟阈值更新时间窗内的原始水位线,生成当前周期内时间窗事件的实际水位线。
[0007]上述技术方案通过定量计算水位线延迟时间,得到目标周期内的水位线延迟阈值,并利用该水位线延迟阈值进行水位线更新,生成最终的贴近实际的水位线,该实际的水位线在当前周期内能够兼顾数据处理的实时性和完整性,解决现有依据人工经验设置固定水位线延迟时间所存在的问题。
[0008]进一步来说,上述技术方案通过周期性进行水位线延迟计算,实现水位线延迟阈值的动态调整,进而达到动态调整实际水位线的目的,使实际水位线能够适应数据处理系统复杂的延时性变化状态,解决应用中因数据吞吐量变化造成数据延迟特性变化而导致的实际水位线偏离真实需求的问题。
[0009]上述技术方案中,预设时间窗指的是预设长度的系统时长。获取该系统时长内进入数据处理系统的事件,并将这些事件按照进入系统的时间顺序进行排序,以便于后续水位线更新及水位线延迟时间计算。
[0010]上述技术方案中,预设周期指的是重复水位线延迟计算的周期。对于同一数据处理系统而言,其在不同时刻的数据吞吐量是不同的,而数据吞吐量的不同势必会导致事件的乱序程度产生变化,原有的水位线可能不再适应变化后的乱序程度,不能适应变化后的系统的延时特性,因此,通过定期进行水位线延迟计算和更新,采用动态调整水位线延迟阈值的策略,能够很好地适应同一系统在不同时刻因数据吞吐量的差异所导致的事件乱序程度变化状况,能够自适应跟随系统的延时特性变化。
[0011]作为进一步的技术方案,所述方法还包括:在任一新事件进入系统时,将所述新事件的当前水位线取为时间窗内最大的事件时间与新事件的事件时间之间的最大值,将时间窗内原有的每个事件的当前水位线均更新为每个事件的原始水位线与新事件的事件时间之间的最大值。
[0012]具体地,对于任意一个事件,当其进入数据处理系统时,均更新一次原始水位线,即,每进入一个新的事件,更新时间窗内每个事件的原始水位线。
[0013]进一步地,当时间窗内只有一个事件时,时间窗内的水位线等于该事件的事件时间。
[0014]作为进一步的技术方案,所述方法还包括:根据时间窗内每个事件的当前水位线及每个事件的事件时间,计算每个事件的数据延迟时间。
[0015]具体地,对于时间窗内第i个事件而言,其数据延迟时间等于该事件的当前水位线与该事件的事件时间之间的差值。
[0016]作为进一步的技术方案,所述方法还包括:根据时间窗内的事件数量与时间窗内所有事件的数据延迟时间之和,计算时间窗内事件的水位线延迟时间的均值;根据时间窗内的事件数量、每一事件的数据延迟时间及计算出的均值,计算时间窗内的水位线延迟时间的标准差;根据时间窗内事件的水位线延迟时间的均值和标准差,计算时间窗内事件的水位线延迟时间。
[0017]具体而言,在按照周期进行水位线延迟计算时,每个周期内可能存在的事件乱序程度不同,而计算这些不同乱序程度的事件的均值和标准差,并基于均值和标准差确定的水位线延迟时间能够更好地贴近时间窗内事件乱序的真实状况,进而使得每个周期内更新得到的实际水位线能够兼顾数据处理完整性和实时性的要求,解决现有水位线设置方式存在的不足。
[0018]作为进一步的技术方案,所述方法还包括:在动态水位线生成步骤中,按事件驱动机制生成时间窗内事件的原始水位线。
[0019]选取一段系统时长作为时间窗,获取该时间窗内进入系统的事件,其中,对于该时间窗内进入系统的第一个事件,其原始水位线为该事件的事件时间,此后该时间窗内每进入系统一个事件,就更新一次时间窗内所有事件的原始水位线。因此,在按照预设周期获得水位线延迟阈值时,将该周期内最后一次更新时间窗事件水位线的结果作为时间窗内事件的原始水位线,通过该原始水位线减去水位线延迟阈值生成实际的事件水位线,该实际的事件水位线能够满足当前周期内所有事件的乱序程度状况,能够兼顾数据处理的实时性和完整性。
[0020]作为进一步的技术方案,所述方法还包括:在动态水位线生成步骤中,按时间周期定期生成时间窗内事件的原始水位线。
[0021]选取一段时间周期作为水位线生成周期,获取该周期内进入系统的事件,其中,对于该周期内进入系统的第一个事件,其原始水位线为该事件的事件时间,此后对于该周期内进入系统的任意一个事件,其原始水位线取为前一个进入系统的事件的水位线与该周期内进入系统的所有事件时间的最大值之间的最大值。因此,在按照预设周期(这里指的是重复水位线延迟计算的周期)获得水位线延迟阈值时,将最近一个水位线生成周期内生成的水位线作为时间窗内事件的原始水位线,通过该原始水位线减去水位线延迟阈值生成实际的事件水位线,该实际的事件水位线能够满足当前周期内所有事件的乱序程度状况,能够兼顾数据处理的实时性和完整性。
[0022]根据本专利技术说明书的一方面,提供一种乱序数据延迟水位线动态自适应生成系统,包括:水位线延迟计算器,用于按照预设周期获取预设时间窗内进入系统的事件和事件时间,计算每个事件的数据延迟时间,并根据获取的事件数量及每个事件的数据延迟时间,计算时间窗内事件的水位线延迟时间,以此延迟时间作为当前周期内的水位线延迟阈值;动态水位线生成器,用于根据当前周期内的水位线延迟阈值更新时间窗内的原始水位线,得到时间窗内的实际水位线。
[0023]上述技术方案通过水位线延迟计算器定期进行水位线延迟时间计算,并将计算结果发送至动态水位线生成器,动态水位线生成器再根据计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.乱序数据延迟水位线动态自适应生成方法,其特征在于,包括:水位线延迟计算,用于按照预设周期获取预设时间窗内进入系统的事件和事件时间,计算每个事件的数据延迟时间,并根据获取的事件数量及每个事件的数据延迟时间,计算时间窗内事件的水位线延迟时间,以此延迟时间作为当前周期内的水位线延迟阈值;动态水位线生成,用于根据当前周期内的水位线延迟阈值更新时间窗内的原始水位线,生成当前周期内时间窗事件的实际水位线。2.根据权利要求1所述乱序数据延迟水位线动态自适应生成方法,其特征在于,所述方法还包括:在任一新事件进入系统时,将所述新事件的当前水位线取为时间窗内最大的事件时间与新事件的事件时间之间的最大值,将时间窗内原有的每个事件的当前水位线均更新为每个事件的原始水位线与新事件的事件时间之间的最大值。3.根据权利要求2所述乱序数据延迟水位线动态自适应生成方法,其特征在于,所述方法还包括:根据时间窗内每个事件的当前水位线及每个事件的事件时间,计算每个事件的数据延迟时间。4.根据权利要求3所述乱序数据延迟水位线动态自适应生成方法,其特征在于,所述方法还包括:根据时间窗内的事件数量与时间窗内所有事件的数据延迟时间之和,计算时间窗内事件的水位线延迟时间的均值;根据时间窗内的事件数量、每一事件的数据...

【专利技术属性】
技术研发人员:冯鹏翔林园白云朱昊文李青枝杨安坤夏文昊文振泉
申请(专利权)人:中建三局信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1