一种全链路数据管理系统及其管理方法技术方案

技术编号:23764269 阅读:67 留言:0更新日期:2020-04-11 19:00
本发明专利技术公开了一种全链路数据管理系统,包括:数据源,其包括流式数据、批量的文件数据、数据库;离线处理平台,其包括数据采集和离线批处理引擎,所述数据采集包括实时数据采集系统和批量采集系统,所述离线批处理引擎用于实现高性能的离线批处理作业运行;所述离线批处理引擎包括:Hive、MapReduce、Spark SQL、Spark、Yarn、HDFS;业务应用,其用于查询并使用批处理结果的业务应用;本发明专利技术能很好提高海量数据下数据的使用效率,解决异构数据库数据的关联使用问题,还可以很好的管控数据权限。

A full link data management system and its management method

【技术实现步骤摘要】
一种全链路数据管理系统及其管理方法
本专利技术属于计算机科学
,具体涉及一种全链路数据管理系统及其管理方法。
技术介绍
目前国内外采用的数据基础管理技术大多是通过传统关系型数据库,例如Oracle,mysql,postgresql等进行数据存储,通过数据库管理软件,例如Navicat等进行数据管理与使用。传统关系型数据库采用表格的储存方式,数据以行和列的方式进行存储,采用结构化查询语言(即SQL)来对数据库进行查询。这种方案在面对海量数据时会出现查询很慢,对服务器配置要求过高等问题,另外也无法实现异构数据库数据关联使用。在数据安全方面,这种方案也无法很好管控用户数据使用权限。为此,我们提出一种全链路数据管理系统及其管理方法,以解决上述
技术介绍
中提到的问题。
技术实现思路
本专利技术的目的在于提供一种全链路数据管理系统及其管理方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种全链路数据管理系统,包括:数据源,其包括流式数据、批量的文件数据、数据库;离线处理平台,其包括数据采集和离线批处理引擎,所述数据采集包括实时数据采集系统和批量采集系统,所述离线批处理引擎用于实现高性能的离线批处理作业运行;所述离线批处理引擎包括:Hive、MapReduce、SparkSQL、Spark、Yarn、HDFS;业务应用,其用于查询并使用批处理结果的业务应用,由ISV开发。优选的,所述流式数据包括Socket流、OGG日志流、日志文件。优选的,所述实时数据采集系统用于实时采集流式数据,可能的形式包括:Flume:用于Socket流或者日志文件等的数据采集;第三方采集工具:第三方或者定制开发的数据采集工具或程序;所述批量采集系统:用于采集批量数据,可能的形式包括:Flume:用于批量采集数据文件日志文件;Sqoop:用于批量采集数据库数据;第三方采集/ET工具:第三方数据采集、加载、处理工具。优选的,所述Hive:传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛海量数据下表现稳定,但是处理速度较慢;所述MapReduce:传统批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,使用广泛,海量数据下表现稳定,但是处理速度较慢;所述SparkSQL:新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据,处理速度高效;所述Spark:新型批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,适合海量数据,处理速度高效;所述Yarn:资源调度引擎,为各种批处理引擎提供资源调度能力,是多租户资源分配的基础;所述HDFS:分布式文件系统,为各种批处理引擎提供数据存储,可以存储各种文件格式数据。本专利技术还提供了一种全链路数据管理系统的管理方法,具体包括以下步骤:S1、使用sqoop,datax或其他第三方ETL工具同步异构数据库数据至大数据平台;S2、数据文件存储采用HDFS(分布式文件存储系统)存储;S3、使用GaussDB200企业级大规模并行处理关系型数据库;GaussDB200采用MPP(MassivelyParallelProcessing)架构,支持行存储与列存储,提供PB(Petabyte,2的50次方字节)级别数据量的处理能力;S4、使用MapReduce、Hive、Pig等批处理工具,以支持大数据计算作业;S5、建立基于LDAP(LightweightDirectoryAccessProtocol)技术的用户、用户组、项目的用户管理体系。与现有技术相比,本专利技术的有益效果是:本专利技术提供的一种全链路数据管理系统及其管理方法,本专利技术解决传统关系型数据库面对海量数据时查询过慢问题;解决异构数据库数据关联使用问题;提供一种更优的数据权限管理方案。本专利技术能很好提高海量数据下数据的使用效率,解决异构数据库数据的关联使用问题,还可以很好的管控数据权限,附图说明图1为本专利技术的全链路数据管理系统示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,实施例如下:本专利技术提供如下技术方案:一种全链路数据管理系统,包括:数据源,其包括流式数据、批量的文件数据、数据库;离线处理平台,其包括数据采集和离线批处理引擎,所述数据采集包括实时数据采集系统和批量采集系统,所述离线批处理引擎用于实现高性能的离线批处理作业运行;所述离线批处理引擎包括:Hive、MapReduce、SparkSQL、Spark、Yarn、HDFS;业务应用,其用于查询并使用批处理结果的业务应用,由ISV开发。具体的,所述流式数据包括Socket流、OGG日志流、日志文件。具体的,所述实时数据采集系统用于实时采集流式数据,可能的形式包括:Flume:用于Socket流或者日志文件等的数据采集;第三方采集工具:第三方或者定制开发的数据采集工具或程序;所述批量采集系统:用于采集批量数据,可能的形式包括:Flume:用于批量采集数据文件日志文件;Sqoop:用于批量采集数据库数据;第三方采集/ET工具:第三方数据采集、加载、处理工具。具体的,所述Hive:传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛海量数据下表现稳定,但是处理速度较慢;所述MapReduce:传统批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,使用广泛,海量数据下表现稳定,但是处理速度较慢;所述SparkSQL:新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据,处理速度高效;所述Spark:新型批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,适合海量数据,处理速度高效;所述Yarn:资源调度引擎,为各种批处理引擎提供资源调度能力,是多租户资源分配的基础;所述HDFS:分布式文件系统,为各种批处理引擎提供数据存储,可以存储各种文件格式数据。本专利技术还提供了一种全链路数据管理系统的管理方法,具体包括以下步骤:S1、使用sqoop,datax或其他第三方ETL工具同步异构数据库数据至大数据平台;S2、数据文件存储采用HDFS(分布式文件存储系统)存储;S3、使用GaussDB200企业级大规模并行处理关系型数据库;GaussDB200采用MPP(MassivelyParallelProcessing)架构,支持行存储与列存储,提供P本文档来自技高网...

【技术保护点】
1.一种全链路数据管理系统,其特征在于,包括:/n数据源,其包括流式数据、批量的文件数据、数据库;/n离线处理平台,其包括数据采集和离线批处理引擎,所述数据采集包括实时数据采集系统和批量采集系统,所述离线批处理引擎用于实现高性能的离线批处理作业运行;/n所述离线批处理引擎包括:Hive、MapReduce、Spark SQL、Spark、Yarn、HDFS;/n业务应用,其用于查询并使用批处理结果的业务应用,由ISV开发。/n

【技术特征摘要】
1.一种全链路数据管理系统,其特征在于,包括:
数据源,其包括流式数据、批量的文件数据、数据库;
离线处理平台,其包括数据采集和离线批处理引擎,所述数据采集包括实时数据采集系统和批量采集系统,所述离线批处理引擎用于实现高性能的离线批处理作业运行;
所述离线批处理引擎包括:Hive、MapReduce、SparkSQL、Spark、Yarn、HDFS;
业务应用,其用于查询并使用批处理结果的业务应用,由ISV开发。


2.根据权利要求1所述的一种全链路数据管理系统,其特征在于:所述流式数据包括Socket流、OGG日志流、日志文件。


3.根据权利要求1所述的一种全链路数据管理系统,其特征在于:所述实时数据采集系统用于实时采集流式数据,可能的形式包括:
Flume:用于Socket流或者日志文件等的数据采集;
第三方采集工具:第三方或者定制开发的数据采集工具或程序;
所述批量采集系统:用于采集批量数据,可能的形式包括:
Flume:用于批量采集数据文件日志文件;
Sqoop:用于批量采集数据库数据;
第三方采集/ET工具:第三方数据采集、加载、处理工具。


4.根据权利要求1所述的一种全链路数据管理系统,其特征在于:所述Hive:传统SQL批处理引擎,用于处理SQL...

【专利技术属性】
技术研发人员:谢菁陆冰芳翁小云马玉林梁仲峰韦宗慧张希翔陶镇威万义飞
申请(专利权)人:广西电网有限责任公司
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1