数据采集传输方法、装置和电子设备制造方法及图纸

技术编号:25604898 阅读:62 留言:0更新日期:2020-09-12 00:00
本发明专利技术提供了一种数据采集传输方法、装置和电子设备,涉及数据处理的技术领域,包括统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;在字节数总和超过预设阈值时,控制source组件在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值;sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。该方法通过限制流向channel组件的event报文的字节数总和,实现控制sink组件对外发送的数据流量的效果,提高了服务端业务系统的稳定性,进而有效的缓解了现有技术中的数据采集传输方法存在的可靠性差的技术问题。

【技术实现步骤摘要】
数据采集传输方法、装置和电子设备
本专利技术涉及数据处理的
,尤其是涉及一种数据采集传输方法、装置和电子设备。
技术介绍
人们由于过度使用和依赖互联网相关技术而产生了大量的数据,企业能够通过对这些数据进行分析,从中获取数据价值,但由于产生数据的渠道多、产生的数据量大且数据格式多样化,导致收集和使用数据的难度较大。现有技术中,多采用Flume(日志收集系统)作为数据采集框架进行数据采集传输,但在采集和传输数据的过程中,经常出现服务端业务系统响应超时甚至服务器宕机的情况。综上所述,现有技术中的数据采集传输方法存在可靠性差的技术问题。
技术实现思路
本专利技术的目的在于提供一种数据采集传输方法、装置和电子设备,以缓解现有技术中的数据采集传输方法存在的可靠性差的技术问题。第一方面,本专利技术实施例提供一种数据采集传输方法,包括:统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断所述字节数总和是否超过预设阈值;若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。在可选的实施方式中,在控制所述source组件向所述Flume系统中的channel组件发送event报文之前,所述方法还包括:在每条待发送的event报文的报头header添加原始校验码,得到对应的多条待校验event报文,其中,每个所述原始校验码与每条待发送的event报文一一对应。在可选的实施方式中,所述方法还包括:利用预设加密算法对每条所述待校验event报文进行加密,得到对应的多条加密后的待校验event报文。在可选的实施方式中,所述外部存储设备包括:kafka本地集群系统。在可选的实施方式中,所述方法还包括:控制所述sink组件向所述kafka本地集群系统发送所述多条加密后的待校验event报文;其中,所述kafka本地集群系统在接收到所述多条加密后的待校验event报文之后,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,所述过滤后的event报文为未被篡改的报文。在可选的实施方式中,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,包括:对所述多条加密后的待校验event报文进行解密,得到多条解密后的event报文;判断目标event报文是否为合法报文,其中,所述目标event报文为所述多条解密后的event报文中的任一条event报文;若是,则将所述目标event报文存入所述目标topic目录。在可选的实施方式中,判断目标event报文是否为合法报文,包括:基于所述目标event报文的body中的数据确定目标校验码;将所述目标校验码与所述目标event报文的报头header中的原始校验码进行比对;若比对结果一致,则确定所述目标event报文为合法报文;若比对结果不一致,则确定所述目标event报文为非法报文。第二方面,本专利技术实施例提供一种数据采集传输装置,包括:统计模块,用于统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断模块,用于判断所述字节数总和是否超过预设阈值;第一控制模块,若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;发送模块,用于向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式中任一项所述的方法的步骤。第四方面,本专利技术实施例提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行前述实施方式中任一项所述的方法。本专利技术提供的数据采集传输方法,包括:统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断字节数总和是否超过预设阈值;若是,则控制source组件向Flume系统中的channel组件发送event报文,其中,在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值;向Flume系统中的sink组件发送获取指令,以使sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。本专利技术提供的数据采集传输方法,在利用Flume数据采集框架进行数据采集传输时,对Flume系统中的source组件采集的数据的字节数总和进行统计,若预设时间段内采集到的字节数总和超过预设阈值,则限制流向channel组件的event报文的字节数总和,从而达到控制sink组件对外发送的数据流量的效果,提高了服务端业务系统的稳定性,进而有效的缓解了现有技术中的数据采集传输方法存在的可靠性差的技术问题。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据采集传输方法的流程图;图2为本专利技术实施例提供的一种常规的Flume数据采集框架示意图;图3为本专利技术实施例提供的一种判断目标event报文是否为合法报文的流程图;图4为本专利技术实施例提供的一种数据采集传输装置的功能模块图;图5为本专利技术实施例提供的一种电子设备的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图,对本专利技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。现在的社会是一个高本文档来自技高网...

【技术保护点】
1.一种数据采集传输方法,其特征在于,包括:/n统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;/n判断所述字节数总和是否超过预设阈值;/n若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;/n向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。/n

【技术特征摘要】
1.一种数据采集传输方法,其特征在于,包括:
统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;
判断所述字节数总和是否超过预设阈值;
若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;
向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。


2.根据权利要求1所述的方法,其特征在于,在控制所述source组件向所述Flume系统中的channel组件发送event报文之前,所述方法还包括:
在每条待发送的event报文的报头header添加原始校验码,得到对应的多条待校验event报文,其中,每个所述原始校验码与每条待发送的event报文一一对应。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
利用预设加密算法对每条所述待校验event报文进行加密,得到对应的多条加密后的待校验event报文。


4.根据权利要求3所述的方法,其特征在于,所述外部存储设备包括:kafka本地集群系统。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
控制所述sink组件向所述kafka本地集群系统发送所述多条加密后的待校验event报文;
其中,所述kafka本地集群系统在接收到所述多条加密后的待校验event报文之后,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,所述过滤后的event报文为未被篡改的报文。


6.根据权利要求5所述的方法,其特征在于,对所述多条加密后的待校验event报文进行过滤,并将过滤...

【专利技术属性】
技术研发人员:蔡伟培
申请(专利权)人:华青融天北京软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1