【技术实现步骤摘要】
日切场景的流式数据处理方法及装置
[0001]本专利技术涉及日切场景的流式计算
,尤指一种日切场景的流式数据处理方法及装置。
技术介绍
[0002]流式计算场景中作业依赖于事件时间驱动计算,不同的事件时间会进入不同的时间窗口进行运算。但是在银行日切场景中,上游数据中的事件时间可能在特定时间段内变为未来时间,这些数据进入作业后会将作业的时间错误地提前到未来时间。当日切结束上游发送正常时间数据时,会被作业错误地认为是迟到数据而进入错误的处理分支,被丢弃或未在窗口中被统计到。
[0003]这种错误的未来时间数据会造成大量的业务数据被归属为迟到数据而被丢弃,除此之外,还会造成数据错误。目前针对银行日切场景,针对长时间数据乱序问题并没有一个好的技术方案解决。
技术实现思路
[0004]针对现有技术中存在的问题,本专利技术实施例的主要目的在于提供一种日切场景的流式数据处理方法及装置,解决日切场景下长时间数据乱序问题,提高实时数据处理的准确性。
[0005]为了实现上述目的,本专利技术实施例提供一种日 ...
【技术保护点】
【技术特征摘要】
1.一种日切场景的流式数据处理方法,其特征在于,所述方法包括:获取流式数据,并根据所述流式数据的驱动系统运算类型,对所述流式数据进行数据分流处理,确定所述流式数据的处理模式;根据所述流式数据的处理模式,确定所述流式数据对应的窗口最迟到达时间;对所述流式数据对应的窗口最迟到达时间进行窗口聚合运算,生成运算结果,并对所述运算结果进行数据发送处理。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据预设的窗口时间,确定所述流式数据中的迟到数据;根据所述迟到数据对应的窗口最迟到达时间,对所述迟到数据进行迟到数据分析处理及迟到数据发送处理。3.根据权利要求1所述的方法,其特征在于,所述根据所述流式数据的驱动系统运算类型,对所述流式数据进行数据分流处理,确定所述流式数据的处理模式包括:若所述流式数据的驱动系统运算类型为系统时间类型,则确定所述流式数据的处理模式为系统时间处理模式;若所述流式数据的驱动系统运算类型为时间戳类型,则确定所述流式数据的处理模式为事件时间处理模式。4.根据权利要求3所述的方法,其特征在于,所述根据所述流式数据的处理模式,确定所述流式数据对应的窗口最迟到达时间包括:若所述流式数据的处理模式为系统时间处理模式,则根据所述流式数据对应的系统时间及预设的最大允许事件超时时间,确定所述流式数据对应的窗口最迟到达时间;若所述流式数据的处理模式为事件时间处理模式,则根据所述流式数据对应的事件时间及预设的最大允许事件超时时间,确定所述流式数据对应的窗口最迟到达时间。5.根据权利要求4所述的方法,其特征在于,所述根据所述流式数据对应的系统时间及预设的最大允许事件超时时间,确定所述流式数据对应的窗口最迟到达时间包括:根据所述流式数据对应的系统时间及进入系统延时时间,确定所述流式数据对应的时间戳;根据所述流...
【专利技术属性】
技术研发人员:李天浩,雷赛龄,杨小可,孟少川,赵正阳,黄子豪,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。