云计算平台下实现异构数据处理功能的ETL系统及其处理方法技术方案

技术编号:22166747 阅读:36 留言:0更新日期:2019-09-21 10:30
本发明专利技术涉及一种云计算平台下实现异构数据处理功能的ETL系统,包括WEB应用前端处理模块,用于进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;ETL数据处理模块;数据存储及交互模块。本发明专利技术还涉及一种实现云计算平台下的异构数据处理方法。采用了本发明专利技术的云计算平台下实现异构数据处理功能的ETL系统及其处理方法,采用了该发明专利技术中的实现异构数据处理的ETL系统,通过本系统就能处理多种异构数据,从中提取有用的信息,并且在与外部系统的数据交互中,也能减少数据格式转换带来的麻烦,能使有用的数据快速流转,在简化开发工作量的同时提升了业务处理的效率。

ETL System and Its Processing Method for Heterogeneous Data Processing on Cloud Computing Platform

【技术实现步骤摘要】
云计算平台下实现异构数据处理功能的ETL系统及其处理方法
本专利技术涉及计算机软件领域,尤其涉及云计算平台领域,具体是指一种云计算平台下实现异构数据处理功能的ETL系统及其处理方法。
技术介绍
随着云计算和大数据时代的到来,网络信息和数据量日益增长。在诸多领域当中,都具有极大规模的数据信息,人们需要使用各种各样的数据处理系统来对网络上的海量数据进行分析和整理,发掘其数据价值。数据处理系统(Dataprocessingsystem)是指运用计算机处理信息而构成的系统。通过数据处理系统对数据信息进行加工、整理,计算得到各种分析指标,转变为易于被人们所接受的信息形式,并可以将处理后的信息进行贮存。网络上的数据包含多种结构,有结构化、非结构化和半结构化,要在这些异构的数据当中提取有用的信息,人们常常使用ETL工具来将数据进行转换。ETL是用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,因而也称为数据仓库技术。其目的是将分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。海量数据处理系统及方法,公开了一种海量数据处理系统及方法,该系统包括:整合单元,用于从不同数据源中获取源数据,并对所述源数据进行处理后生成与不同业务对应的统一接口的主题数据;存储单元,用于将所述主题数据存储在分布式文件系统中;分析单元,用于根据不同的任务请求,对所述分布式文件系统中存储的数据进行多节点、多任务的并行计算和分析;展现单元,用于展现所述分析单元的计算和分析结果。利用本专利技术,可以实现对智能小区中海量数据的处理,提高处理效率及系统扩展性。但是,在实际过程中,一个数据处理系统往往并不能满足企业的分析需求,数据的共用,才能使数据的利用达到最大化,因为本文在实现异构数据处理的基础上,增加了数据交流,有效提升系统的开放性。同时系统采用分布式结构,使得系统便于扩展,能减轻系统处理数据的压力,提升处理速度,满足现今的数据处理要求。
技术实现思路
本专利技术的目的是克服了上述现有技术的缺点,提供了一种效率高、操作简便、适用范围较为广泛的云计算平台下实现异构数据处理功能的ETL系统及其处理方法。为了实现上述目的,本专利技术的云计算平台下实现异构数据处理功能的ETL系统及其处理方法如下:该云计算平台下实现异构数据处理功能的ETL系统,其主要特点是,所述的系统包括:WEB应用前端处理模块,用于进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;ETL数据处理模块,与所述的WEB应用前端处理模块相连接,用于采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;数据存储及交互模块,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于进行数据存储以及与其他模块进行数据交互。较佳地,所述的WEB应用前端处理模块包括:采集数据源配置单元,用于配置异构数据的类型、采集产物的挂载点及指定需要采集的异构数据的存储介质类型;采集器信息配置单元,与所述的采集数据源配置单元相连接,用于配置采集产物关系生成规则及采集产物的展示方式;采集任务配置单元,与所述的采集器信息配置单元相连接,用于根据不同的采集器信息配置,发起采集任务;采集产物管理单元,与所述的采集任务配置单元相连接,用于查看采集成功的产物并可对产物进行操作;浏览操作日志单元,与所述的采集产物管理单元相连接,用于对每个操作步骤进行记录。较佳地,所述的ETL数据处理模块包括:数据采集单元,与所述的WEB应用前端处理模块相连接,用于根据不同的采集任务,将大量异构数据转换为统一数据格式的数据;采集产物分析单元,与所述的数据采集单元相连接,用于调用采集产物存储模块中的数据,对这些数据进行分析,提炼出用户需要的信息;产生日志单元,与所述的采集产物分析单元相连接,用于记录ETL数据采集模块中的每个操作步骤。较佳地,所述的数据存储及交互模块包括:采集产物存储单元,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于将采集成功后的数据存储至数据库,前端页面可调用这些数据;WEB前端录入存储单元,与所述的采集产物存储单元相连接,用于将前端录入的信息录入至数据库;日志信息存储单元,与所述的WEB前端录入存储单元相连接,用于将WEB前端应用的操作日志和ETL的采集日志存储至数据库;系统交互单元,与所述的日志信息存储单元相连接,用于通过开放接口供其他系统订阅调用数据。较佳地,所述的采集数据源配置单元支持的存储介质类型包括xml文件、excel文档、ETL的数据脚本和主流的关系型数据库。较佳地,所述的采集任务配置单元的任务启动方式包括手工启动和定时周期启动。该基于上述系统实现云计算平台下的异构数据处理方法,其主要特点是,所述的方法包括以下步骤:(1)所述的WEB应用前端处理模块进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;(2)所述的ETL数据处理模块采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;(3)所述的数据存储及交互模块进行数据存储以及与其他模块进行数据交互。较佳地,所述的步骤(1)具体包括以下步骤:(1.1)所述的采集数据源配置单元配置采集数据源,配置异构数据的类型、采集产物挂载点及指定需要采集的异构数据的存储介质类型;(1.2)所述的采集器信息配置单元配置采集器信息,配置采集产物关系生成规则及配置采集产物的展示方式;(1.3)所述的采集任务配置单元配置采集任务,根据采集器信息配置,发起采集任务;(1.4)所述的采集产物管理单元浏览并管理采集产物,查看采集成功的产物并可对产物执行修改、删除等操作。较佳地,所述的步骤(1)还包括以下步骤:(1.5)所述的浏览操作日志单元浏览操作日志,查看每一步操作的记录。较佳地,所述的ETL数据处理模块包括数据采集单元、采集产物分析单元和产生日志单元,所述的步骤(2)具体包括以下步骤:(2.1)所述的数据采集单元采集数据,并根据采集任务调用对应的适配器,将异构数据转化为统一数据格式的数据;(2.2)所述的采集产物分析单元分析采集产物,对数据采集模块产出的统一格式的数据,进行关系分析。较佳地,所述的步骤(2)还包括以下步骤:(2.3)所述的产生日志单元记录详细操作日志,将日志信息保存至数据库并生成日志文件。较佳地,所述的数据存储及交互模块包括采集产物存储单元、WEB前端录入存储单元和日志信息存储单元,所述的步骤(3)具体包括以下步骤:(3.1)所述的采集产物存储单元将采集产物存储至数据库;(3.2)所述的WEB前端录入存储单元将Web前端应用录入信息存储;(3.3)所述的日志信息存储单元存储日志信息。采用了本专利技术的云计算平台下实现异构数据处理功能的ETL系统及其处理方法,采用了该专利技术中的实现异构数据处理的ETL系统,业务开发人员在实现业务需求时,不再需要开发多个只针对单一数据模式的数据处理系统。而是通过本系统就能处理多种异构数据,从中提取有用的信息,并且在与外部系统的数据交互中,也能减少数据格式转换带来的麻烦,能使有用的数据快速流转,本文档来自技高网
...

【技术保护点】
1.一种云计算平台下实现异构数据处理功能的ETL系统,其特征在于,所述的系统包括:WEB应用前端处理模块,用于进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;ETL数据处理模块,与所述的WEB应用前端处理模块相连接,用于采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;数据存储及交互模块,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于进行数据存储以及与其他模块进行数据交互。

【技术特征摘要】
1.一种云计算平台下实现异构数据处理功能的ETL系统,其特征在于,所述的系统包括:WEB应用前端处理模块,用于进行门户管理,配置数据源配置、采集器信息、采集任务的配置、采集产物浏览管理以及浏览操作日志;ETL数据处理模块,与所述的WEB应用前端处理模块相连接,用于采集异构数据,根据WEB应用发起的采集任务来采集不同的异构数据;数据存储及交互模块,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于进行数据存储以及与其他模块进行数据交互。2.根据权利要求1所述的云计算平台下实现异构数据处理功能的ETL系统,其特征在于,所述的WEB应用前端处理模块包括:采集数据源配置单元,用于配置异构数据的类型、采集产物的挂载点及指定需要采集的异构数据的存储介质类型;采集器信息配置单元,与所述的采集数据源配置单元相连接,用于配置采集产物关系生成规则及采集产物的展示方式;采集任务配置单元,与所述的采集器信息配置单元相连接,用于根据不同的采集器信息配置,发起采集任务;采集产物管理单元,与所述的采集任务配置单元相连接,用于查看采集成功的产物并可对产物进行操作;浏览操作日志单元,与所述的采集产物管理单元相连接,用于对每个操作步骤进行记录。3.根据权利要求1所述的云计算平台下实现异构数据处理功能的ETL系统,其特征在于,所述的ETL数据处理模块包括:数据采集单元,与所述的WEB应用前端处理模块相连接,用于根据不同的采集任务,将大量异构数据转换为统一数据格式的数据;采集产物分析单元,与所述的数据采集单元相连接,用于调用采集产物存储模块中的数据,对这些数据进行分析,提炼出用户需要的信息;产生日志单元,与所述的采集产物分析单元相连接,用于记录ETL数据采集模块中的每个操作步骤。4.根据权利要求1所述的云计算平台下实现异构数据处理功能的ETL系统,其特征在于,所述的数据存储及交互模块包括:采集产物存储单元,与所述的WEB应用前端处理模块和ETL数据处理模块均相连接,用于将采集成功后的数据存储至数据库,前端页面可调用这些数据;WEB前端录入存储单元,与所述的采集产物存储单元相连接,用于将前端录入的信息录入至数据库;日志信息存储单元,与所述的WEB前端录入存储单元相连接,用于将WEB前端应用的操作日志和ETL的采集日志存储至数据库;系统交互单元,与所述的日志信息存储单元相连接,用于通过开放接口供其他系统订阅调用数据。5.根据权利要求2所述的云计算平台下实现异构数据处理功能的ETL系统,其特征在于,所述的采集数据源配置单元支持的存储介质类型包括xml文件、excel文档、ETL的数据脚本和主流的关系型数据库。6.根据权利要求2所述的云计算平台下实...

【专利技术属性】
技术研发人员:骆宇园何政文张志平
申请(专利权)人:普元信息技术股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1