The present invention provides a chaotic sequence correction method and a system in flow data processing, which includes: S1, processing the target stream data and obtaining the first processing results; S2, if the time stamp of the second processing result in the scan window of the flow data output end is different from the timestamp pointing to the synchronization pointer of the flow data output end. It is determined whether the second processing result is the same as the first processing result; S3, if the second processing result is not the same as the first processing result, repeated execution of the described processing and the step S2 of the target stream data until the time stamp of the second processing result in the scanned window and the number of the flow. The time stamp directed by the synchronization pointer of the output end is the same, or the second processing result is the same as the first processing result, and the second processing result is output. The invention realizes continuity and correctness of the result of stream data processing.
【技术实现步骤摘要】
一种流数据处理中乱序纠正方法及系统
本专利技术属于数据管理领域,更具体地,涉及一种流数据处理中乱序纠正方法及系统。
技术介绍
随着大数据时代的到来,人们开始越来越多关注从大数据中提取有用信息。而其中流数据处理方法逐渐成为研究焦点。流数据是指由大量数据源持续生成的数据,通常以数据记录的形式发送。流数据包括多种数据,如客户使用移动或Web应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接的设备或仪器的遥测数据等。对流数据的处理,现阶段主要通过大规模的分布式并行计算单元进行处理从而使得流数据处理系统具有高通量、高可用性和水平扩展等性能。其核心思想为假设每次到达的数据包之间不存在任何依赖的前提下,将数据包的处理任务均匀分布到各个计算节点实现,各节点之间不考虑待处理的数据包之间的前后顺序。在大量数据包输入的情况下,各节点之间的处理负荷无法实现平衡,会导致最终处理结果乱序输出的问题。对于这一问题,流数据处理中的乱序纠正通常采用在处理完成以后设置重整窗口对处理结果按到达时间重新排序来进行纠正。但这种方法存在两个局限性,一方面,排序区间依赖于窗口大小,当乱序程度超出窗口大小的极限时无法纠正;另一方面,由于需要在窗口填满后进行缓存和排序然后输出,使得原本连续输出的处理结果的变成离散化批处理输出,无法保证后续处理的连续性。
技术实现思路
为克服上述对流数据处理中的乱序纠正方法对高程度的乱序无法纠正,且使处理结果的输出离散化的问题或者至少部分地解决上述问题,本专利技术提供了一种流数据处理中乱序纠正方法及系统。根据本专 ...
【技术保护点】
1.一种流数据处理中乱序纠正方法,其特征在于,包括:S1,将流数据的输出端的同步指针指向所述目标流数据的时间戳,获取所述目标流数据经过处理后的第一处理结果;S2,若所述流数据输出端的扫描窗口中第二处理结果的时间戳与所述流数据输出端的同步指针指向的时间戳不相同,则判断所述第二处理结果与所述第一处理结果是否相同;其中,所述第二处理结果位于所述扫描窗口的最前方;S3,若所述第二处理结果与所述第一处理结果不相同,则重复执行对所述目标流数据进行所述处理和所述步骤S2,直到所述扫描窗口中第二处理结果的时间戳与所述流数据输出端的同步指针指向的时间戳相同,或者所述第二处理结果与所述第一处理结果相同,输出所述第二处理结果,同时更新所述流数据输出端的同步指针。
【技术特征摘要】
1.一种流数据处理中乱序纠正方法,其特征在于,包括:S1,将流数据的输出端的同步指针指向所述目标流数据的时间戳,获取所述目标流数据经过处理后的第一处理结果;S2,若所述流数据输出端的扫描窗口中第二处理结果的时间戳与所述流数据输出端的同步指针指向的时间戳不相同,则判断所述第二处理结果与所述第一处理结果是否相同;其中,所述第二处理结果位于所述扫描窗口的最前方;S3,若所述第二处理结果与所述第一处理结果不相同,则重复执行对所述目标流数据进行所述处理和所述步骤S2,直到所述扫描窗口中第二处理结果的时间戳与所述流数据输出端的同步指针指向的时间戳相同,或者所述第二处理结果与所述第一处理结果相同,输出所述第二处理结果,同时更新所述流数据输出端的同步指针。2.根据权利要求1所述的方法,其特征在于,所述步骤S1之前包括:当目标流数据通过预先创建的普通数据通道时,对所述目标流数据进行解析和传输。3.根据权利要求2所述的方法,其特征在于,所述步骤S3具体包括:若所述第二处理结果与所述第一处理结果不相同,则通过预先创建的信号通道通知数据发送端通过预先创建的重传通道将所述目标流数据重新发送,以对重新发送的所述目标流数据进行处理。4.根据权利要求3所述的方法,其特征在于,所述重传数据通道的优先级高于所述普通数据通道的优先级;所述信号通道的优先级高于所述重传数据通道的优先级。5.根据权利要求1-4任一所述的方法,其特征在于,所述步骤S3还包括:若在预设时长内没有输出所述第二处理结果,则获知所述第一处理结果丢失。6.根据权利要求1-4任一所述的方法,其特征在于,所述步骤S2还包括:若所述扫描窗口中第二处理结果的时间戳与所述流数据输出端的同步指针指向的时间戳相同,则直接将所述第二处理结果输出,同时更新流...
【专利技术属性】
技术研发人员:王建民,刘英博,丁雨亭,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。