一种流式数据的检测方法及装置制造方法及图纸

技术编号:15652251 阅读:61 留言:0更新日期:2017-06-17 05:34
本发明专利技术实施例公开了一种流式数据的检测方法及装置。所述流式数据的检测方法包括:数据源节点为目标数据流中每组数据配置基于时间的时隙标记;所述数据处理节点根据所述时隙标记生成时隙记录;所述数据处理节点根据所述时隙记录生成第一时隙清单;数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单;根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。本发明专利技术实施例提供的流式数据的检测方法及装置,通过给流式数据配置基于时间的时隙标记,提高流式数据检测的准确度及效率。

【技术实现步骤摘要】
一种流式数据的检测方法及装置
本专利技术实施例涉及互联网大数据处理
,尤其涉及一种流式数据的检测方法及装置。
技术介绍
在大数据时代,随着数据量的爆炸式增长及对数据处理的环节的增加,在数据运营方面的精细化处理对各家互联网企业提出了更高的要求。如何让不断增长的数据完整无缺的展现在用户面前、如何检测各个节点是否正常工作成为很多大数据系统的关键性问题。目前绝大多数的大数据处理采用流式数据处理方式,即数据处理采用流水线作业,各个数据处理环节依赖上一处理环节的输出。现有技术中,在采用流式数据处理方式处理大数据时,当某一环节出现问题时,检测结果很难准确定位到具体环节,使得故障点耦合度高,数据检测的精确度及效率较低。
技术实现思路
本专利技术提供一种流式数据的检测方法及装置,以提高数据检测的准确度及效率。第一方面,本专利技术实施例提供了一种流式数据的检测方法,所述流式数据的检测方法包括:数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。进一步地,所述数据源节点为目标数据流中每组数据配置基于时间的时隙标记,包括:若所述目标数据流中断,则生成测试空数据包;为所述测试空数据包配置基于时间的时隙标记。进一步地,所述数据处理节点根据所述时隙记录生成第一时隙清单,包括:当所述数据处理节点将待添加时隙记录添加到时隙清单时,判断所述第一时隙清单中的时隙记录数量是否到达记录数量阈值;如果所述第一时隙清单中的时隙记录数量到达所述记录数量阈值,则采用回滚的方式将所述待添加时隙记录更新至所述第一时隙清单。进一步地,所述将每个数据处理节点对应的多个所述第一时隙清单进行合并,包括:获取待合并的第一时隙清单中的第一时隙记录;从已存储的第一时隙清单中,查找具有相同时隙标识的第二时隙记录;根据所述第一时隙记录和所述第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,所述合并操作类型包括:累加操作、忽略操作和覆盖操作;根据确定的合并操作类型将所述第一时隙记录与所述第二时隙记录进行合并。进一步地,所述根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点,包括:获取预设参考时间段内,时隙单位对应的平均数据处理量,所述时隙单位为所述时隙标识对应的时长;根据所述平均数据处理量和预设波动比例,确定波动区间,所述预设波动比例大于1;如果目标第二时隙清单中目标时隙记录中的数据量超出所述波动区间,则确定所述目标第二时隙清单对应的数据处理节点为故障节点。第二方面,本专利技术实施例还提供了一种流式数据的检测装置,该流式数据的检测装置包括:时隙标记配置模块,用于数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;时隙记录生成模块,用于所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;第一时隙清单生成模块,用于所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;第二时隙清单生成模块,用于数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;故障节点确定模块,用于根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。进一步地,所述时隙标记配置模块,用于:若所述目标数据流中断,则生成测试空数据包;为所述测试空数据包配置基于时间的时隙标记。进一步地,所述第一时隙清单生成模块,用于:当所述数据处理节点将待添加时隙记录添加到时隙清单时,判断所述第一时隙清单中的时隙记录数量是否到达记录数量阈值;如果所述第一时隙清单中的时隙记录数量到达所述记录数量阈值,则采用回滚的方式将所述待添加时隙记录更新至所述第一时隙清单。进一步地,所述第二时隙清单生成模块,用于:获取待合并的第一时隙清单中的第一时隙记录;从已存储的第一时隙清单中,查找具有相同时隙标识的第二时隙记录;根据所述第一时隙记录和所述第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,所述合并操作类型包括:累加操作、忽略操作和覆盖操作;根据确定的合并操作类型将所述第一时隙记录与所述第二时隙记录进行合并。进一步地,所述故障节点确定模块,用于:获取预设参考时间段内,时隙单位对应的平均数据处理量,所述时隙单位为所述时隙标识对应的时长;根据所述平均数据处理量和预设波动比例,确定波动区间,所述预设波动比例大于1;如果目标第二时隙清单中目标时隙记录中的数据量超出所述波动区间,则确定所述目标第二时隙清单对应的数据处理节点为故障节点。本专利技术实施例,数据源节点为目标数据流中每组数据配置基于时间的时隙标记,并根据时隙标记生成时隙记录,然后根据时隙记录生成第一时隙清单;数据中心根据预设时间间隔分别获取每个数据节点生成的第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,最后根据多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定多个处理节点中的故障节点。处理流式数据的环节较多,现有技术中,当某一环节出现问题时,检测结果很难准确定位到具体环节,使得故障点耦合度高,数据检测的精确度及效率较低。本申请中,给流式数据配置基于时间的时隙标记,使得流式数据在每个环节中检测时可通过时隙标记确定数据被检测的情况,可将检测结果准确定位到具体处理环节,提高流式数据检测的准确度及效率。附图说明图1是本专利技术实施例一中的一种流式数据的检测方法的流程图;图2是本专利技术实施例一中的一种流式数据的检测方法实际场景的流程图;图3是本专利技术实施例一中的一种流式数据的检测方法的流程图;图4是本专利技术实施例一中的一种流式数据的检测方法的流程图;图5是本专利技术实施例一中的一种流式数据的检测方法的流程图;图6是本专利技术实施例一中的一种流式数据的检测方法的流程图;图7是本专利技术实施例二中的一种流式数据的检测装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种流式数据的检测方法的流程图,本实施例可适用于流式数据完整性检测的场景,该方法可以由服务器来执行,如图1所示,该流本文档来自技高网...
一种流式数据的检测方法及装置

【技术保护点】
一种流式数据的检测方法,其特征在于,包括:数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。

【技术特征摘要】
1.一种流式数据的检测方法,其特征在于,包括:数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。2.根据权利要求1所述的流式数据的检测方法,其特征在于,所述数据源节点为目标数据流中每组数据配置基于时间的时隙标记,包括:若所述目标数据流中断,则生成测试空数据包;为所述测试空数据包配置基于时间的时隙标记。3.根据权利要求1所述的流式数据的检测方法,其特征在于,所述数据处理节点根据所述时隙记录生成第一时隙清单,包括:当所述数据处理节点将待添加时隙记录添加到时隙清单时,判断所述第一时隙清单中的时隙记录数量是否到达记录数量阈值;如果所述第一时隙清单中的时隙记录数量到达所述记录数量阈值,则采用回滚的方式将所述待添加时隙记录更新至所述第一时隙清单。4.根据权利要求1所述的流式数据的检测方法,其特征在于,所述将每个数据处理节点对应的多个所述第一时隙清单进行合并,包括:获取待合并的第一时隙清单中的第一时隙记录;从已存储的第一时隙清单中,查找具有相同时隙标识的第二时隙记录;根据所述第一时隙记录和所述第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,所述合并操作类型包括:累加操作、忽略操作和覆盖操作;根据确定的合并操作类型将所述第一时隙记录与所述第二时隙记录进行合并。5.根据权利要求1所述的流式数据的检测方法,其特征在于,所述根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点,包括:获取预设参考时间段内,时隙单位对应的平均数据处理量,所述时隙单位为所述时隙标识对应的时长;根据所述平均数据处理量和预设波动比例,确定波动区间,所述预设波动比例大于1;如果目标第二时隙清单中目标时隙记录中的数据量超出所述波动区间,则确定所述目标第二时隙清单对应...

【专利技术属性】
技术研发人员:欧阳明
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1