数据采集系统、方法技术方案

技术编号:38124991 阅读:7 留言:0更新日期:2023-07-08 09:28
本申请公开了一种数据采集系统、方法。所述系统包括数据源端,将不同存储介质和/或不同类型的数据进行统一化处理;数据采集中心,构建数据采集通道对接数据源端,其中所述数据采集中心绑定在分布式文件系统集群的主节点并用以管理不同采集场景的数据采集任务;还包括:采集通道,作为数据流转的统一通道。通过本申请实现了针对数据采集的具体场景进行抽象分类同时将不同的场景整合进行统一管理,从而并减少人工介入。并减少人工介入。并减少人工介入。

【技术实现步骤摘要】
数据采集系统、方法


[0001]本申请涉及大数据处理领域,具体而言,涉及一种数据采集系统、方法。

技术介绍

[0002]在大数据领域针对于不同存储介质、不同频次的数据采集有许多技术方案。一些方案中根据不同的数据采取场景构建稳定的单独的数据采集系统,一个典型的例子是实时日志数据的采集。一些方案中通过编写数据采集脚本由任务调度系统管理数据采集任务,典型的例子是数据库数据同步,文件采集。此外还有一些方案中采用第三方工具针对不同场景采用不同组件与大数据集群进行对接典型的例子是datax,flume等方式。
[0003]相关技术中,均需针对特定的场景进行特别的系统部署,而相关技术中针对不同数据采集场景可能会采用不同的数据采集技术,不方便数据采集任务的治理。以上形式均可以理解为系统需要根据不同的统计频次与方式,人工设定数据采集的计划任务,人工介入部分过多。
[0004]针对相关技术中不同的数据采集场景需要过多人工介入的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请的主要目的在于提供一种数据采集系统,以解决不同的数据采集场景需要过多人工介入的问题。
[0006]为了实现上述目的,根据本申请的一个方面,提供了一种数据采集系统。
[0007]根据本申请的数据采集系统包括:
[0008]数据源端,将不同存储介质和/或不同类型的数据进行统一化处理;
[0009]数据采集中心,构建数据采集通道对接数据源端,其中所述数据采集中心绑定在分布式文件系统集群的主节点并用以管理不同采集场景的数据采集任务;
[0010]还包括:采集通道,作为数据流转的统一通道。
[0011]在一些实施例中,所述系统还包括:
[0012]通过所述数据源端向所述数据采集中心注册采集任务并上报采集频次信息,同时在所述数据采集中心接收所述数据源端注册的采集任务并按照上报的采集频次信息将采集任务加入每个时间段的任务列表;
[0013]和/或,
[0014]通过所述数据采集中心进行集群状态检查,同时在所述数据源端对被采集数据进行检查以及可采集状态更新;
[0015]和/或,
[0016]通过所述数据采集中心发起通道构建请求,同时在构建通道之后在所述数据源端上报数据,通过所述数据源端进行数据流转和处理。
[0017]在一些实施例中,所述数据源端包括:数据接收模块、消息队列读取模块、数据库
采集模块、文件采集模块、接口调用模块以及实时数据缓存模块,
[0018]按照预设数据采集方式,启动所述数据接收模块接收实时数据,并写入所述实时数据缓存模块;
[0019]和/或,
[0020]按照预设数据采集方式,启动消息队列读取模块,对接消息队列消费数据,并写入所述实时数据缓存模块;
[0021]和/或,
[0022]按照预设数据采集方式,采用所述数据库采集模块,读取数据库的表;
[0023]和/或,
[0024]按照预设数据采集方式,采用所述文件采集模块,读取指定目录下的文件;
[0025]和/或,
[0026]按照预设数据采集方式,启用接口调用模块,并写入所述实时数据缓存模块。
[0027]其中所述实时数据缓存模块,默认采用时间窗口形式,根据数据的实效性,将数据放入不同的时间窗口中。
[0028]在一些实施例中,所述预设数据采集方式至少包括如下之一:
[0029]针对服务器端口数据的采集、针对埋点日志数据的采集、针对消息队列数据的采集、针对数据库数据的采集、针对文件数据的采集、针对接口数据的采集。
[0030]在一些实施例中,所述数据源端还包括:
[0031]状态管理模块,用以管理当前数据源端数据/程序状态是否正常准备就绪;
[0032]数据上报模块,用以对接实时缓存模块,所述文件采集模块,所述数据库采集模块,将数据从对应模块中取出并发送数据至数据采集通道。
[0033]在一些实施例中,所述数据采集中心包括:
[0034]注册中心,用以被动接收数据源端的任务上报,将管理该数据源的状态信息,并将采集任务的配置数据下发给任务管理中心;
[0035]任务管理中心,用以将根据时间生成不同的任务列表,并根据注册中心下发的任务配置数据,将对应的任务添加到不同的任务列表中;
[0036]心跳通信模块,用以与数据源端的交互通信,判断数据源端的状态并上报给注册中心;
[0037]时钟管理模块,用以管理自然时间与任务列表的匹配,获取对应的任务列表,将任务解析下发至通道管理中心;
[0038]通道管理中心,用以根据任务的类型,创建永久或者限时数据采集通道并管理。
[0039]在一些实施例中,所述数据采集中心还用以:按照时间管理任务列表,在每次时间到达某触发时间点时,遍历该时间点对应的任务列表,建立数据采集通道接收数据;
[0040]以及在接收完数据通道的数据后,启动所述数据解析与清洗模块进行处理,处理后上报分布式文件系统集群。
[0041]在一些实施例中,所述数据采集中心的数据采集类型至少包括如下之一:
[0042]强实时数据采集,且对应建立永久数据采集通道;
[0043]近实时数据采集,且在以分钟为频率的预设时间间隔周期性建立一次数据采集通道;
[0044]按小时数据采集,且在以小时为频率的预设时间间隔周期性建立一次数据采集通道;
[0045]按天数据采集,且在以天为频率的预设时间间隔周期性建立一次数据采集通道;
[0046]按周数据采集,且在以周中为频率的预设时间间隔周期性建立一次数据采集通道。
[0047]在一些实施例中,所述系统还包括:任务监控预警模块,用以监控发现数据流通问题并及时报警。
[0048]为了实现上述目的,根据本申请的另一方面,提供了一种数据采集方法应用于如上所述系统。
[0049]根据本申请的数据采集方法包括:
[0050]注册采集任务后上报采集频次信息,启动所述数据采集中心建立所述采集通道,用以采集所述数据源端中的数据。
[0051]在本申请实施例中的数据采集系统、方法,通过数据源端,将不同存储介质和/或不同类型的数据进行统一化处理;数据采集中心,构建数据采集通道对接数据源端,其中所述数据采集中心绑定在分布式文件系统集群的主节点并用以管理不同采集场景的数据采集任务;还包括:采集通道,作为数据流转的统一通道。通过所述数据源端将不同数据采集场景进行统一化处理,由相同的数据采集架构进行处理。通过所述数据采集中心实现数据采集任务的管理,并且由过去被动接收数据变为主动采集数据。此外,还增加可对于对与数据源的监控与状态管理,避免上下游沟通不畅带来的相关问题。具体而言,对于“上下游沟通不畅”主要包括数据库表结构发生变化却未通知采集方、数据库迁移未通知以及接口迭代数据结构变化未通知等,通过数据源的监控与状态管理避本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集系统,其特征在于,所述系统包括:数据源端,将不同存储介质和/或不同类型的数据进行统一化处理;数据采集中心,构建数据采集通道对接数据源端,其中所述数据采集中心绑定在分布式文件系统集群的主节点并用以管理不同采集场景的数据采集任务;还包括:采集通道,作为数据流转的统一通道。2.根据权利要求1所述的数据采集系统,其特征在于,所述系统还包括:通过所述数据源端向所述数据采集中心注册采集任务并上报采集频次信息,同时在所述数据采集中心接收所述数据源端注册的采集任务并按照上报的采集频次信息将采集任务加入每个时间段的任务列表;和/或,通过所述数据采集中心进行集群状态检查,同时在所述数据源端对被采集数据进行检查以及可采集状态更新;和/或,通过所述数据采集中心发起通道构建请求,同时在构建通道之后在所述数据源端上报数据,通过所述数据源端进行数据流转和处理。3.根据权利要求1所述的数据采集系统,其特征在于,所述数据源端包括:数据接收模块、消息队列读取模块、数据库采集模块、文件采集模块、接口调用模块以及实时数据缓存模块,按照预设数据采集方式,启动所述数据接收模块接收实时数据,并写入所述实时数据缓存模块;和/或,按照预设数据采集方式,启动消息队列读取模块,对接消息队列消费数据,并写入所述实时数据缓存模块;和/或,按照预设数据采集方式,采用所述数据库采集模块,读取数据库的表;和/或,按照预设数据采集方式,采用所述文件采集模块,读取指定目录下的文件;和/或,按照预设数据采集方式,启用接口调用模块,并写入所述实时数据缓存模块;其中所述实时数据缓存模块,默认采用时间窗口形式,根据数据的实效性,将数据放入不同的时间窗口中。4.根据权利要求3所述的数据采集系统,其特征在于,所述预设数据采集方式至少包括如下之一:针对服务器端口数据的采集、针对埋点日志数据的采集、针对消息队列数据的采集、针对数据库数据的采集、针对文件数据的采集、针对接口数据的采集。5.根据权利要求3所述的数据采集系统,其特征在于,所述数据源端还包括:状态管理模块,用以管理当前数据...

【专利技术属性】
技术研发人员:张钧涛张猛陈艺方
申请(专利权)人:北京益商慧评网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1