乱序数据延迟水位线动态自适应生成方法、系统及设备技术方案

技术编号：36574019 阅读：19 留言：0更新日期：2023-02-04 17:31

本发明专利技术公开一种乱序数据延迟水位线动态自适应生成方法、系统及设备，方法包括：水位线延迟计算，用于按照预设周期获取预设时间窗内进入系统的事件和事件时间，计算每个事件的数据延迟时间，并根据获取的事件数量及每个事件的数据延迟时间，计算时间窗内事件的水位线延迟时间，以此延迟时间作为当前周期内的水位线延迟阈值；动态水位线生成，用于根据当前周期内的水位线延迟阈值更新时间窗内的原始水位线，生成当前周期内时间窗事件的实际水位线。本发明专利技术的水位线在当前周期内能够兼顾数据处理的实时性和完整性，解决现有依据人工经验设置固定水位线延迟时间所存在的问题。置固定水位线延迟时间所存在的问题。置固定水位线延迟时间所存在的问题。

全部详细技术资料下载

【技术实现步骤摘要】
乱序数据延迟水位线动态自适应生成方法、系统及设备

[0001]本专利技术涉及大数据处理
，具体涉及一种乱序数据延迟水位线动态自适应生成方法、系统及设备。

技术介绍

[0002]在实时数据处理领域，数据从产生到加工的过程中，会经历复杂的网路IO和运算过程，导致数据会乱序进入大数据处理系统。目前的大数据处理技术主要采用水位线延迟方法来解决乱序数据的延迟问题。
[0003]现有的水位线延迟方法依据人工经验设置一个固定的水位线延迟时间，其存在的缺陷是：延迟时间设置过短，可能丢失大量延迟数据，造成运算结果产生较大的误差；延迟时间设置过长，则会降低处理系统的实时性，导致数据处理延迟过长。
[0004]在实际数据处理中，进入大数据处理系统的数据吞吐量并不固定，而数据吞吐量的变化会引起数据延迟特性的变化，传统方法无法动态适应数据吞吐量变化所造成的数据延迟特性的变化。

技术实现思路

[0005]为克服上述现有技术的不足，本专利技术提供一种乱序数据延迟水位线动态自适应生成方法、系统及设备，用以解决上述至少一个技术问题。
[0006]根据本专利技术说明书的一方面，提供一种乱序数据延迟水位线动态自适应生成方法，包括：水位线延迟计算，用于按照预设周期获取预设时间窗内进入系统的事件和事件时间，计算每个事件的数据延迟时间，并根据获取的事件数量及每个事件的数据延迟时间，计算时间窗内事件的水位线延迟时间，以此延迟时间作为当前周期内的水位线延迟阈值；动态水位线生成，用于根据当前周期内的水位线延迟阈值更新时间...

【技术保护点】

【技术特征摘要】
1.乱序数据延迟水位线动态自适应生成方法，其特征在于，包括：水位线延迟计算，用于按照预设周期获取预设时间窗内进入系统的事件和事件时间，计算每个事件的数据延迟时间，并根据获取的事件数量及每个事件的数据延迟时间，计算时间窗内事件的水位线延迟时间，以此延迟时间作为当前周期内的水位线延迟阈值；动态水位线生成，用于根据当前周期内的水位线延迟阈值更新时间窗内的原始水位线，生成当前周期内时间窗事件的实际水位线。2.根据权利要求1所述乱序数据延迟水位线动态自适应生成方法，其特征在于，所述方法还包括：在任一新事件进入系统时，将所述新事件的当前水位线取为时间窗内最大的事件时间与新事件的事件时间之间的最大值，将时间窗内原有的每个事件的当前水位线均更新为每个事件的原始水位线与新事件的事件时间之间的最大值。3.根据权利要求2所述乱序数据延迟水位线动态自适应生成方法，其特征在于，所述方法还包括：根据时间窗内每个事件的当前水位线及每个事件的事件时间，计算每个事件的数据延迟时间。4.根据权利要求3所述乱序数据延迟水位线动态自适应生成方法，其特征在于，所述方法还包括：根据时间窗内的事件数量与时间窗内所有事件的数据延迟时间之和，计算时间窗内事件的水位线延迟时间的均值；根据时间窗内的事件数量、每一事件的数据...

【专利技术属性】
技术研发人员：冯鹏翔，林园，白云，朱昊文，李青枝，杨安坤，夏文昊，文振泉，
申请(专利权)人：中建三局信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人