【技术实现步骤摘要】
流式计算系统数据追踪方法、装置、设备以及存储介质
本申请涉及数据处理
,具体涉及云计算
,尤其涉及一种流式计算系统数据追踪方法、装置、设备以及存储介质。
技术介绍
流式计算技术是指对持续产生的数据流进行实时的处理,相比批处理计算,流式计算的时效性更高。流式计算系统与其他数据传输系统对接,接收输入数据并在经过一系列处理后将数据输出到指定系统中。数据在流式计算系统中传输和处理时,会由于某些原因(也许是由于系统bug或者底层存储系统非预期出错导致的)造成非预期的数据丢失。目前开源的流式计算系统主要是ApacheFlink,Flink集群运营维护过程中,很难监控作业的运行情况。现有技术在使用Flink系统时,通过加入Heartbeat机制来检查是否存在数据丢失,并大致估算数据丢失的程度。但是,现有技术对数据丢失情况的评判并不准确。例如,当发现Heartbeat数据丢失时,真实数据可能没有发生丢失;或者当真实数据丢失时,Heartbeat数据没有丢失故而无法发现。同时,当发现Heartbeat数据丢失时,只能知道系 ...
【技术保护点】
1.一种流式计算系统数据追踪方法,包括:/n对进入流式计算系统的数据进行标识,生成所述数据的追踪标识符;/n在所述数据被流式计算系统中的计算节点处理完成后,持久化存储所述数据的记录信息,其中,所述记录信息包括所述数据的追踪标识符和所述数据的当前处理状态信息,其中,所述数据的检查点的存储状态和所述数据的记录信息的存储状态具有一致性。/n
【技术特征摘要】
1.一种流式计算系统数据追踪方法,包括:
对进入流式计算系统的数据进行标识,生成所述数据的追踪标识符;
在所述数据被流式计算系统中的计算节点处理完成后,持久化存储所述数据的记录信息,其中,所述记录信息包括所述数据的追踪标识符和所述数据的当前处理状态信息,其中,所述数据的检查点的存储状态和所述数据的记录信息的存储状态具有一致性。
2.根据权利要求1所述的方法,所述数据的当前处理状态信息包括:
当前处理所述数据的计算节点信息和所述数据的当前状态。
3.根据权利要求2所述的方法,包括:
若所述数据被输出至流式计算系统的外部,则所述数据的当前状态为输出。
4.根据权利要求1所述的方法,包括:
若所述数据被丢弃,所述数据的当前状态为丢弃。
5.根据权利要求1所述的方法,包括:
若所述数据将被下发给流式计算系统中的单个下游计算节点处理,则所述数据的当前状态为输入。
6.根据权利要求1所述的方法,包括:
若所述数据将被分发给流式计算系统中的多个下游计算节点处理,则所述数据的当前状态为分裂。
7.根据权利要求6所述的方法,还包括:
根据所述多个下游计算节点,所述数据被分裂成多个新数据;
对所述多个新数据中的每个新数据进行标识,生成新数据的追踪标识符;
持久化存储所述新数据的追踪标识符以及所述新数据的当前状态信息。
8.根据权利要求7所述的方法,所述新数据的当前状态信息包括:
当前处理所述新数据的计算节点信息和所述新数据的当前状态。
9.根据权利要求2或8所述的方法,所述数据的当前状态包括:
输入、丢弃、分裂、输出。
10.根据权利要求1所述的方法,包括:
根据设置的生存时间确定所述数据的记录信息的存储时间。
11.一种流式计算系统数据追踪装置,包括:
标识模块,被配置成对进入流式计算系统的数据进行标识,生成所述数据的追踪标识符;
持久化存储模块,被配置成在所述数据被流式计算系统中的计算节点处理完成后,持久化存储所述数据的记录信息,其中,所述记录信息包括所述数据的追踪标识符和所述数据的当前处理状态信息,其中,所述数据的检查点的存储状态和所述数据的记录信息的存储状态具有一致...
【专利技术属性】
技术研发人员:孙英富,邢越,汪婷,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。