一种基于互联网数据采集的数据资源管理平台制造技术

技术编号:14911934 阅读:115 留言:0更新日期:2017-03-30 01:57
本发明专利技术公开了一种基于互联网数据采集的数据资源管理平台,该平台用于在数据从源数据库迁移至Hive过程中的数据资源管理,包括:数据源管理模块,用于对存储源数据的数据库进行管理;模型接入管理模块,用于在Hive中创建表,并对该创建过程进行管理;数据接入管理模块,该模块对数据从源数据库迁移至Hive过程进行管理;审核模块,该模块对模型接入、数据接入任务进行审查;数据资源监控,该模块用于对Hive中导入数据量进行监控并统计展示。该基于互联网数据采集的数据资源管理平台与现有技术相比,实现了对不同来源、不同业务范畴的数据的有效整合与监控,不仅提高了数据质量,而且提高了对数据的管理能力,提升了使用效率,实用性强。

【技术实现步骤摘要】

本专利技术涉及大数据
,具体地说是一种实用性强、基于互联网数据采集的数据资源管理平台。
技术介绍
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。资料显示,2011年,全球数据规模为1.8ZB,可以填满575亿个32GB的iPad,这些iPad可以在中国修建两座长城。到2020年,全球数据将达到40ZB,如果把它们全部存入蓝光光盘,这些光盘和424艘尼米兹号航母重量相当。我国,2010年新存储的数据为250PB,2012年中国的数据存储量达到364EB,约为日本的60%,北美的7%。某购物网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,如何管理和使用这些数据,逐渐成为一个新的领域,于是数据资源管理的概念应运而生。随着互联网数据采集平台采集能力的增强,数据量快速增长,现阶段,数据被存放到不同的数据库中,各种业务的相关数据混杂在各个数据库中。这种情况下,要实现数据的整合、应用、管理变得十分困难,要想构建数据仓库显得更加困难。因此,需要数据管理平台对不同数据库、不同业务相关数据进行统一集中管理,以便于后期构建数据仓库。基于此,本专利技术提出了一种基于互联网数据采集的数据资源管理平台。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、基于互联网数据采集的数据资源管理平台。一种基于互联网数据采集的数据资源管理平台,该平台用于在数据从源数据库迁移至Hive过程中的数据资源管理,其结构包括以下几个模块:数据源管理模块,用于对存储源数据的数据库进行管理;模型接入管理模块,用于在Hive中创建表,该Hive表的表结构与源数据库中的表结构,并对该创建过程进行管理;数据接入管理模块,该模块对数据从源数据库迁移至Hive过程进行管理;审核模块,当发起创建新模型以及新数据接入任务时,该模块对模型接入、数据接入任务进行审查,审查通过后继续执行创建新模型以及新数据接入任务;数据资源监控,该模块用于对Hive中导入数据量进行监控并统计展示。所述数据源管理模块实现对数据源的管理的具体过程为:数据源注册管理,用于关系型数据库在数据资源管理平台上的注册,注册成功的数据库,才能将库内的数据导入到Hive中;数据源删除管理,对成功注册但弃用的数据库进行删除,保证数据源的有效性;数据源修改管理,对已经注册过的数据源进行信息更新;数据源查看管理,查看在数据资源管理平台上注册的所有数据源信息。所述模型接入模块用于创建Hive表,并设置表的分类,具体实现过程为:模型创建,设置Hive表名、表所属类别、字段内容;模型删除,对非本次创建且要弃用的Hive表进行删除操作;模型修改,对创建好的模型进行修改;模型查看,查看已经创建的模型的具体内容。数据接入模块用于将数据从数据源导入到分布式Hive数据库中,具体实现过程为:首先进行数据接入任务创建,确定数据接入任务的命名、源表的选择、目标表的选择;进行数据接入任务删除,对失效任务进行删除;进行数据接入任务修改,对已经创建的任务进行修改;数据接入任务查看,查看已经创建好的任务;最后进行任务执行,选择任务执行时间以及执行周期,当到达设定的时间点时,完成数据从数据源导入到Hive的任务。审核模块用于用户创建新模型以及新数据接入任务时,对模型以及数据接入任务进行评估,如果符合要求,申请通过该审核模块的审核,并发放相关权限,用户获得权限后进行模型创建以及执行数据接入任务。数据资源监控模块用于提供多维度查询数据总量以及数据增量抽取情况,这里的多维度包括通过时间维度查询数据量的变化,通过行业类别查看数量变化;以及提供钻取功能,该钻取功能是指在查看各年的数据抽取总量,当选择某一年时,查看这一年中每个月数据抽取总量。本专利技术的一种基于互联网数据采集的数据资源管理平台,具有以下优点:本专利技术提供的一种基于互联网数据采集的数据资源管理平台,针对互联网采集的数据,提出了数据资源管理的一套完整流程,将创建Hive表结构与往Hive表中导入数据分开管理,对Hive中数据资源进行了实时监控,根据Hive中的表所存储的不同数据,对表进行了分类管理,数据资源管理平台的研发,实现了对不同来源、不同业务范畴的数据的有效整合与监控,不仅提高了数据质量,而且提高了对数据的管理能力,提升了使用效率,实用性强,适用范围广泛,易于推广。具体实施方式下面结合具体实施例对本专利技术作进一步说明。本专利技术的一种基于互联网数据采集的数据资源管理平台,该平台用于在数据从源数据库迁移至Hive过程中的数据资源管理,其结构包括以下几个模块:数据源管理模块,用于对存储源数据的数据库进行管理;模型接入管理模块,用于在Hive中创建表,该Hive表的表结构与源数据库中的表结构,并对该创建过程进行管理;数据接入管理模块,该模块对数据从源数据库迁移至Hive过程进行管理;审核模块,该模块对模型接入、数据接入任务的准确性、安全性进行审查;数据资源监控,该模块用于对Hive中导入数据量进行监控并统计展示。数据源管理模块是为了实现对数据源的管理,具体功能包括:数据源注册。该功能实现关系型数据库在数据资源管理平台上的注册,注册成功的数据库,才能将库内的数据导入到Hive中。数据源删除。该功能可以对成功注册但是弃用的数据库进行删除,保证数据源的有效性。数据源修改。该功能实现对已经注册过的数据源进行信息更新。数据源查看。该功能可以查看在数据资源管理平台上注册的所有数据源信息。模型接入模块功能是创建Hive表,并设置表的分类。具体功能包括:模型创建。该功能实现Hive表名、表所属类别、字段内容设置。模型删除。该功能可以对以前创建但要弃用的Hive表进行删除操作。模型修改。对创建好的模型进行修改模型查看。可以查看已经创建的模型的具体内容。数据接入模块主要实现数据从数据源导入到分布式Hive数据库中的功能,具体功能包括:数据接入任务创建。该功能可以完成数据接入任务的命名、源表的选择、目标表的选择数据接入任务删除。该功能可以完成对失效任务进行删除的功能。数据接入任本文档来自技高网
...

【技术保护点】
一种基于互联网数据采集的数据资源管理平台,其特征在于,该平台用于在数据从源数据库迁移至Hive过程中的数据资源管理,其结构包括以下几个模块:数据源管理模块,用于对存储源数据的数据库进行管理;模型接入管理模块,用于在Hive中创建表,该Hive表的表结构与源数据库中的表结构,并对该创建过程进行管理;数据接入管理模块,该模块对数据从源数据库迁移至Hive过程进行管理;审核模块,当发起创建新模型以及新数据接入任务时,该模块对模型接入、数据接入任务进行审查,审查通过后继续执行创建新模型以及新数据接入任务;数据资源监控,该模块用于对Hive中导入数据量进行监控并统计展示。

【技术特征摘要】
1.一种基于互联网数据采集的数据资源管理平台,其特征在于,该平台用于在数据从源数据库迁移至Hive过程中的数据资源管理,其结构包括以下几个模块:数据源管理模块,用于对存储源数据的数据库进行管理;模型接入管理模块,用于在Hive中创建表,该Hive表的表结构与源数据库中的表结构,并对该创建过程进行管理;数据接入管理模块,该模块对数据从源数据库迁移至Hive过程进行管理;审核模块,当发起创建新模型以及新数据接入任务时,该模块对模型接入、数据接入任务进行审查,审查通过后继续执行创建新模型以及新数据接入任务;数据资源监控,该模块用于对Hive中导入数据量进行监控并统计展示。2.根据权利要求1所述的一种基于互联网数据采集的数据资源管理平台,其特征在于,所述数据源管理模块实现对数据源的管理的具体过程为:数据源注册管理,用于关系型数据库在数据资源管理平台上的注册,注册成功的数据库,才能将库内的数据导入到Hive中;数据源删除管理,对成功注册但弃用的数据库进行删除,保证数据源的有效性;数据源修改管理,对已经注册过的数据源进行信息更新;数据源查看管理,查看在数据资源管理平台上注册的所有数据源信息。3.根据权利要求1所述的一种基于互联网数据采集的数据资源管理平台,其特征在于,所述模型接入模块用于创建Hive表,并设置表的分类,具体实现过程为:模型创建,设置Hive表名、表所属类别、字段...

【专利技术属性】
技术研发人员:王洪添刘在友
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1