跨网络结构化数据收集系统技术方案

技术编号:16529054 阅读:127 留言:0更新日期:2017-11-09 20:50
本发明专利技术实施例提供一种跨网络结构化数据收集系统。该系统包括:数据载入服务模块和数据中心通信模块;数据载入服务模块用于采集源数据中心各个数据库中的数据,并生成第一通信请求;数据中心通信模块用于将第一通信请求发送给目的数据中心;接收目的数据中心的反馈信息;将数据发送给目的数据中心。本发明专利技术实施例通过在每个分子公司建立上述跨网络结构化数据收集系统,形成对等的网络子集。减轻总部数据中心在数据传送,以及交换过程中的压力,提高了分子公司的效率。形成了一套在各数据中心中收集数据、分布式存储的数据收集系统,并且建立了分子数据中心的通信方式,节省了网络带宽资源,为分子数据中心数据交换使用提供基础。

【技术实现步骤摘要】
跨网络结构化数据收集系统
本专利技术实施例涉及通信
,尤其涉及一种跨网络结构化数据收集系统。
技术介绍
随着大数据应用潜力的不断挖掘,很多公司分布在不同地区的分子公司都拥有自己的数据中心。数据部门需要将这些数据中心的数据跨公网收集、整合集中,为整个公司提供数据服务。现有技术中,分子公司分别收集数据,并将数据汇聚到总部数据中心,总部数据中心对数据进行统一融合,形成数据资产。由于总部数据中心对数据进行统一融合时需要耗费一定的时间,总部数据中心对数据进行统一融合后,分子公司才可以访问获取融合后的数据,造成分子公司的效率下降。另外,不同的分子公司需要向总部数据中心发送数据时,一个分子公司要等另一个分子公司发送完之后再发送,即不同的分子公司不能很好的并发执行数据发送,造成网络带宽资源的浪费。
技术实现思路
本专利技术实施例提供一种跨网络结构化数据收集系统,以提高分子公司的效率,以及网络带宽资源。本专利技术实施例的一个方面是提供一种跨网络结构化数据收集系统,包括:数据载入服务模块和数据中心通信模块;所述数据载入服务模块用于采集源数据中心各个数据库中的数据,并生成第一通信请求,所述第一通信请求用于请求所述数据中心通信模块将所述数据发送给目的数据中心;所述数据中心通信模块用于将所述第一通信请求发送给所述目的数据中心;接收所述目的数据中心的反馈信息;将所述数据发送给所述目的数据中心。可选的,所述数据载入服务模块还用于记录其工作状态,所述工作状态包括如下至少一种:数据采集状态、数据预处理状态、数据传输状态。可选的,所述数据中心通信模块包括:通信输出单元、通信核心组件;所述通信输出单元用于将所述第一通信请求传输给所述通信核心组件;所述通信核心组件用于对所述第一通信请求进行格式转换,并将转换后的所述第一通信请求发送给所述目的数据中心。可选的,所述数据中心通信模块还包括:通信输入单元;所述通信输入单元用于接收所述目的数据中心发送的第二通信请求,并根据所述第二通信请求,对所述目的数据中心的访问权限进行验证。可选的,所述通信输入单元根据所述第二通信请求,对所述目的数据中心的访问权限进行验证时,具体用于:解析所述第二通信请求,获取所述第二通信请求中的统一资源定位符;查询所述数据中心通信模块是否存储有所述统一资源定位符;若所述数据中心通信模块存储有所述统一资源定位符,则对所述目的数据中心的访问权限验证成功。可选的,所述数据中心通信模块存储有白名单,所述白名单包括应用程序编程接口的访问规则;所述通信输入单元查询所述数据中心通信模块是否存储有所述统一资源定位符时,具体用于:查询所述统一资源定位符对应的应用程序编程接口的访问规则是否存储在所述白名单中。可选的,所述通信输入单元对所述目的数据中心的访问权限验证成功之后,还用于:将所述第二通信请求传输给所述通信核心组件。可选的,所述数据中心通信模块还包括:应用程序;所述通信核心组件还用于将所述第二通信请求传输给所述应用程序。可选的,所述应用程序还用于向所述通信输出单元发送所述第一通信请求。可选的,所述数据载入服务模块包括:数据载入引擎;所述数据载入引擎用于周期性的采集源数据中心各个数据库中的数据。本专利技术实施例提供的跨网络结构化数据收集系统,通过在每个分子公司建立上述跨网络结构化数据收集系统,形成对等的网络子集。减轻总部数据中心在数据传送,以及交换过程中的压力,提高了分子公司的效率。形成了一套在各数据中心中收集数据、分布式存储的数据收集系统,并且建立了分子数据中心的通信方式,节省了网络带宽资源,为分子数据中心数据交换使用提供基础。附图说明图1为现有技术中关系型数据库采集方式的示意图;图2为现有技术中开源软件搜集数据并分布式存储的示意图;图3为现有技术中关系型数据库与分布式存储数据互导的示意图;图4为现有技术中分子公司数据汇集的示意图;图5为本专利技术实施例提供的跨网络结构化数据收集系统的示意图;图6为本实施例提供的数据载入服务模块的工作流程示意图;图7为本实施例提供的数据中心通信模块的工作流程示意图。具体实施方式随着大数据应用潜力的不断挖掘,很多公司分布在不同地区的分子公司都拥有自己的数据中心。数据部门需要将这些数据中心的数据跨公网收集、整合集中,为整个公司提供数据服务。现有技术中,每个子数据中心都有自己独立的数据库,如果要有效的分析这些海量数据,需要将这些来自各个分子公司数据库的数据导入到一个分布式存储集群,或者一个集中的大型分布式数据库中。这个过程包含数据的收集和数据的集中,两个阶段。分子公司数据采集有如下几种方式:一种方式是:如图1所示,建立传统的关系型数据库(Oracle,MySQL)。通过传统的关系型数据库产品的命令或者一些中间软件(PL/SQLDeveloper等),建立相应的数据存储,导入相应的数据并存储。另一种方式是:许多企业都有自己的数据采集工具,多用于系统日志收集。如ApacheChukwa,Cloudera的Flume等,这些数据收集工具均采用了分布式架构,可以满足每秒数百MB的数据采集和数据传输需求。通过这些收集工具采集的数据,一般存储到hadoop分布式文件系统中,即HDFS,如图2所示。再一种方式是:如图3所示,企业也可以选择利用sqoop来进行从传统数据库向HDFS传输数据,进行hadoop和传统关系型数据库中的数据相互迁移。Sqoop提供的是各种HDFS与一般数据系统之间的接口,以命令行参数方式执行,将一个关系型数据库(MySQL,Oracle)中的数据写入到hadoop分布式文件系统中。也可以将hadoop分布式文件系统中的数据导入到关系型数据库中。如图4所示,各分子公司通过上述的方式,对数据进行收集,形成传统关系型数据库或者HDFS存储的,即自己的数据中心。进而可以向总部数据中心迁移的大数据集。而这些数据需要汇总到总部数据中心以后,才能对数据进行融合,形成数据资产,进而提供更优质的数据服务。图5为本专利技术实施例提供的跨网络结构化数据收集系统的示意图。如图5所示,本实施例提供的跨网络结构化数据收集系统主要包括两个大的模块:数据载入服务模块和数据中心通信模块;其中,所述数据载入服务模块用于采集源数据中心各个数据库中的数据,并生成第一通信请求,所述第一通信请求用于请求所述数据中心通信模块将所述数据发送给目的数据中心;所述数据中心通信模块用于将所述第一通信请求发送给所述目的数据中心;接收所述目的数据中心的反馈信息;将所述数据发送给所述目的数据中心。所述数据载入服务模块是跨网络结构化数据收集系统的核心,它首要的功能是提供定时数据收集任务,在此基础之上还要根据实际应用提供手动触发任务、重新运行所有失败的任务、重新收集特定的数据等功能。下面具体介绍:1、手动触发任务:用户可以手动的启动所有数据收集任务。如果遇到了故障导致服务无法启动,就需要有手动启动任务的机制。2、重新运行所有失败的任务:所述数据载入服务模块还用于记录其工作状态,所述工作状态包括如下至少一种:数据采集状态、数据预处理状态、数据传输状态。数据载入服务模块的每个阶段都会有相应的记录,记录该任务所处的阶段,是数据抽取阶段还是数据预处理阶段亦或是数据传输阶段。数据载入服务模块会为每个任务的线程设置监视器,监视器负责将任本文档来自技高网...
跨网络结构化数据收集系统

【技术保护点】
一种跨网络结构化数据收集系统,其特征在于,包括:数据载入服务模块和数据中心通信模块;所述数据载入服务模块用于采集源数据中心各个数据库中的数据,并生成第一通信请求,所述第一通信请求用于请求所述数据中心通信模块将所述数据发送给目的数据中心;所述数据中心通信模块用于将所述第一通信请求发送给所述目的数据中心;接收所述目的数据中心的反馈信息;将所述数据发送给所述目的数据中心。

【技术特征摘要】
1.一种跨网络结构化数据收集系统,其特征在于,包括:数据载入服务模块和数据中心通信模块;所述数据载入服务模块用于采集源数据中心各个数据库中的数据,并生成第一通信请求,所述第一通信请求用于请求所述数据中心通信模块将所述数据发送给目的数据中心;所述数据中心通信模块用于将所述第一通信请求发送给所述目的数据中心;接收所述目的数据中心的反馈信息;将所述数据发送给所述目的数据中心。2.根据权利要求1所述的系统,其特征在于,所述数据载入服务模块还用于记录其工作状态,所述工作状态包括如下至少一种:数据采集状态、数据预处理状态、数据传输状态。3.根据权利要求1或2所述的系统,其特征在于,所述数据中心通信模块包括:通信输出单元、通信核心组件;所述通信输出单元用于将所述第一通信请求传输给所述通信核心组件;所述通信核心组件用于对所述第一通信请求进行格式转换,并将转换后的所述第一通信请求发送给所述目的数据中心。4.根据权利要求3所述的系统,其特征在于,所述数据中心通信模块还包括:通信输入单元;所述通信输入单元用于接收所述目的数据中心发送的第二通信请求,并根据所述第二通信请求,对所述目的数据中心的访问权限进行验证。5.根据权利要求4所述的系统,其特征在于,所述通信输入单元根据所述第二通信...

【专利技术属性】
技术研发人员:李董刘露
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1