一种流式分发记录的保存方法、装置及电子设备制造方法及图纸

技术编号:16919396 阅读:40 留言:0更新日期:2017-12-31 14:55
本说明书公开了一种流式分发记录的保存方法、装置及电子设备。该保存方法:对采集到的源头数据生成标识源头数据的第一标识,并将第一标识写入目录的根目录中;对源头数据或处理节点处理后的待分发数据,在分发前针对每一份待分发数据生成用于标识各个数据的标识,将生成的标识按照分发过程依次写入目录中相应的子目录中,实现对流式数据处理过程中的分发记录的保存。

【技术实现步骤摘要】
一种流式分发记录的保存方法、装置及电子设备
本说明书涉及软件
,特别涉及一种流式分发记录的保存方法、装置及电子设备。
技术介绍
随着大数据时代的到来,对大数据流的流式处理要求越来越高。所谓流式处理就是指源源不断的数据流过系统时,系统能够不停地连续计算,比如根据淘宝交易订单日志,通过订单日志连续不断的计算当日淘宝订单量的计算过程叫流式数据处理过程。在流式数据处理中,某些特定场景中数据需要保证源头数据连续的处理,否则会导致计算结果不正确的情况出现。在这种情况下,需要检查上一个源头数据是否已被所有的数据处理节点都处理完成,当所有处理节点都处理完成后再分发处理下一个源头数据,以保证源头数据顺序消费。为了保证源头数据被所有数据处理节点处理完成,需要对源头数据的流式数据分发记录进行保存并校验,当分发记录对应的所有数据都处理完时确认源头数据已被所有数据处理节点处理完成。数据分发记录的保存方式将直接影响到流失数据处理的实效性,需要一种高效的流式数据分发记录的保存方法,来提升流式数据处理的实效性。
技术实现思路
本说明书实施例提供一种流式分发记录的保存方法、装置及电子设备,用于减少保存流式数据分发记录所需的每秒事务处理量,来提升流式数据处理的实效性。第一方面,本说明书实施例提供一种流式分发记录的保存方法,所述方法包括:在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录的根目录中;在将所述源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个所述第二标识写入所述根目录的下一级子目录中;在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个所述第三标识写入被所述目标节点处理的数据所在目录的下一级子目录中。可选的,所述方法还包括:在每一级个处理节点中的每个处理节点处理完分发到的数据后,根据所述目录链查找被处理的数据对应的标识下是否存在子目录;若所述被处理的数据对应标识下不存在子目录,删除所述被处理数据对应的标识所在的目录。可选的,所述方法还包括:在将所述目标节点处理后的数据分发至下一级处理节点时,将被所述目标节点处理的数据的标识、待分发的数据的标识及其对应的处理后的数据,分发至下一级处理节点。可选的,所述方法还包括:在任一处理节点处理数据出错后,获得出错处理节点的上级处理节点处理后的目标数据及所述目标数据对应的目标标识;对所述目标数据进行重新处理,并根据所述目标标识下的子目录重新分发处理后的所述目标数据。第二方面、本说明书实施例提供一种流式分发记录的保存装置,所述装置包括:第一存储单元,用于在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录的根目录中;第二存储单元,用于在将所述源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个所述第二标识写入所述根目录的下一级子目录中;第三存储单元,用于在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个所述第三标识写入被所述目标节点处理的数据所在目录的下一级子目录中。可选的,所述装置还包括:查找单元,用于在每一级个处理节点中的每个处理节点处理完分发到的数据后,根据所述目录链查找被处理的数据对应的标识下是否存在子目录;删除单元,用于在所述被处理的数据对应标识下不存在子目录的情况下,删除所述被处理数据对应的标识所在的目录。可选的,所述装置还包括:分发单元,用于在将所述目标节点处理后的数据分发至下一级处理节点时,将被所述目标节点处理的数据的标识、待分发的数据的标识及其对应的处理后的数据,分发至下一级处理节点。可选的,所述装置还包括:检错单元,用于在任一处理节点处理数据出错后,获得出错处理节点的上级处理节点处理后的目标数据及所述目标数据对应的目标标识;对所述目标数据进行重新处理,并根据所述目标标识下的子目录重新分发处理后的所述目标数据。第三方面、本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录的根目录中;在将所述源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个所述第二标识写入所述根目录的下一级子目录中;在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个所述第三标识写入被所述目标节点处理的数据所在目录的下一级子目录中。第四方面、本说明书实施例还提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录的根目录中;在将所述源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个所述第二标识写入所述根目录的下一级子目录中;在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个所述第三标识写入被所述目标节点处理的数据所在目录的下一级子目录中。本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:本说明书实施例提供一种流式分发记录的保存方法,在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录链的根目录中;在将源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个第二标识写入根目录的下一级子目录中;在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个第三标识写入被目标节点处理的数据所在目录的下一级子目录中。通过目录的方式来保存流式数据分发记录及各分发记录之间的从属关系,减少了存储时存储项,进而减少了保存流式数据分发记录所需的每秒处理事务量,达到提升流式数据处理实效性的有益效果。附图说明为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书实施例提供的一种流式数据处理的过程示意图;图2为本说明书实施例提供的一种流式分发记录的保存方法的流程图;图3为本说明书实施例提供的一种流式分发记录保存目录的示意图;图4为本说明书实施例提供的一种流式分发记录的保存装置示意图;图5为本说明书实施例提供的一种电子设备的示意图。具体实施方式为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完本文档来自技高网...
一种流式分发记录的保存方法、装置及电子设备

【技术保护点】
一种流式分发记录的保存方法,其特征在于,所述方法包括:在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录的根目录中;在将所述源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个所述第二标识写入所述根目录的下一级子目录中;在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个所述第三标识写入被所述目标节点处理的数据所在目录的下一级子目录中。

【技术特征摘要】
1.一种流式分发记录的保存方法,其特征在于,所述方法包括:在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录的根目录中;在将所述源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个所述第二标识写入所述根目录的下一级子目录中;在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个所述第三标识写入被所述目标节点处理的数据所在目录的下一级子目录中。2.如权利要求1所述的方法,其特征在于,所述方法还包括:在每一级个处理节点中的每个处理节点处理完分发到的数据后,根据所述目录链查找被处理的数据对应的标识下是否存在子目录;若所述被处理的数据对应标识下不存在子目录,删除所述被处理数据对应的标识所在的目录。3.如权利要求1所述的方法,其特征在于,所述方法还包括:在将所述目标节点处理后的数据分发至下一级处理节点时,将被所述目标节点处理的数据的标识、待分发的数据的标识及其对应的处理后的数据,分发至下一级处理节点。4.如权利要求1~3任一所述的方法,其特征在于,所述方法还包括:在任一处理节点处理数据出错后,获得出错处理节点的上级处理节点处理后的目标数据及所述目标数据对应的目标标识;对所述目标数据进行重新处理,并根据所述目标标识下的子目录重新分发处理后的所述目标数据。5.一种流式分发记录的保存装置,其特征在于,所述装置包括:第一存储单元,用于在采集到源头数据时,生成标识源头数据的第一标识,并将所述第一标识写入目录的根目录中;第二存储单元,用于在将所述源头数据分发至第一级处理节点前,对待分发至第一级处理节点的每一份所述源头数据生成一个第二标识,将每一个所述第二标识写入所述根目录的下一级子目录中;第三存储单元,用于在将任一级处理节点中的目标节点处理后的数据分发至下一级处理节点前,对待分发至下一级处理节点的每一份处理后的数据生成一个第三标识,将每一个所述第三标识写入被所述目标节点处理的数据所在目录的下一级子目录中。6.如权利要求5所述的装置,其特征在于,所述装置还包括:查找单元,用于在每一级个处理节点中的每个...

【专利技术属性】
技术研发人员:王鑫文
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1