一种数据池对数据同步和处理的方法技术

技术编号:13457843 阅读:57 留言:0更新日期:2016-08-03 16:16
本发明专利技术的目的在于提供一种数据池对数据同步和处理技术,包括数据抽取、数据处理、数据存储、数据集市四个步骤,本方法改变了传统的计量数据存蓄、处理、查询和应用方式,实现了海量计量数据的灵活存储与实时处理,便于其他业务系统的数据实时需求,同时也实现了高效数据查询功能,提供了更加灵活的数据发布方式。

【技术实现步骤摘要】

本专利技术涉及数据同步和处理技术,具体涉及一种对海量数据的同步和处理的方法。
技术介绍
随着技术的进步迎来了大数据时代。所谓大数据,便是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理的。如今时间已经走进了21世纪,各行各业已经受到科技的影响非常深。各行各业累计的数据也相当庞大,数据的价值可越来越值得研究。目前,某电科院的省级集中计量自动化系统实现计量装置在线监测和用户负荷、电量、电压等重要信息的实时采集,并且积累了海量的数据。该系统每日大概需要处理100万数据文件,对其他系统的发布数据量超过千万或近亿记录。系统目前处理数据文件的方式是通过将文件存储到关系型数据库后,再通过程序进行调度输出,在这一过程中就会存在调度延时的问题。且系统目前是采用关系型数据库处理日常的数据,当日常处理数据记录数过大时,通过数据库进行数据对象关联的过程中造成了资源的严重消耗。
技术实现思路
本专利技术的目的在于提供一种数据池对数据同步和处理的方法,本方法通过对计量自动化主站系统各类型数据进行数据抽取,并对数据进行数据传输与数据解析处理,并通过统一的数据装载模块实现数据的装载,能够实现对海量的计量自动化主站系统各类数据的同步和处理。本专利技术的目的可通过以下的技术措施来实现:一种数据池对数据同步和处理的方法,包含以下步骤:步骤1:数据抽取,从计量自动化主站系统中抽取各类型数据,包括计算的流式数据与数据库的结构化数据;步骤2:数据处理,对抽取的各类型数据进行数据传输与数据解析处理;步骤3:数据存储,通过数据装载模块将抽取得到的两种不同种类的数据存储在数据池的DW(DataWarehouse指数据仓库)中;步骤4:数据集市,根据业务分析需求和业务主体分类形成不同的数据集集合。所述的步骤1中的数据抽取是从计量自动化主站系统中抽取各类数据到数据池。其中数据来源主要分为两类:计算的流式数据和数据库结构化数据。计算的流式数据包括:采集原始表码、负荷类、告警数据;结构化数据包括系统档案拓扑模型、分析对象模型和统计汇总数据。所述计算的流式数据的抽取过程为:通过文件发布代理的方式抽取计量自动化主站系统的计算数据,该计算数据是以具有一定命名规则的文本文件的形式保存。所述数据库结构化数据的抽取过程为:通过调度服务模块配置抽取策略,以增量或全量的方式以一定的周期抽取关系数据库中的表数据。所述的步骤2中的数据传输与数据解析处理的具体过程为:所述数据传输的具体过程为:其中结构化数据是通过配置Sqoop工具实现数据的传输;流式数据是通过文件传输模块实现数据的传输;所述数据解析处理的具体过程为:所述结构化数据是关系数据库转移到关系数据库,不需要解析直接存入;所述流式数据通过Oozie(管理Hadoop的任务的工作流调度系统)的流程启动Hive(Highly-parallelIntegratedVirtualEnvironment,指基于Hadoop的一个数据仓库工具),Hive过程中开发UDF(UserDefineFunction)模块对计算流式数据格式进行解析。所述的步骤3中的数据存储为通过数据装载操作将两种不同种类的数据存储在数据池的DW中,包括如下内容:结构化数据直接存入数据池中,计算的流式数据采用通用的MapReduce实现数据装载。其中所述的DW为:数据池的存储模块,该模块分为两类存储,一类是基于HDFS(HadoopDistributedFileSystem,是Hadoop的分布式文件系统。)的非结构化存储,一类是基于MySQL(关系型数据库管理系统)的结构化数据存储。所述的步骤4中的数据集市是通过在Yarn(YetAnotherResourceNegotiator,另一种资源协调者)中部署MapReduce作业将存储在数据池中的数据通过分类统计汇总运算生成。并且数据集市中的数据支持频繁的数据更新。本专利技术对比现有技术,有如下优点:本专利技术通过数据池的数据同步与处理技术改变了传统计量数据的存储、处理、查询和应用方式,实现了对海量计量数据的灵活、高效查询以及实时处理。为后续的数据灵活发布功能提供基础,实现了实时响应其他业务系统的数据需求。附图说明图1为本专利技术的数据同步和处理技术流程图;图2为本专利技术的调度服务模块图;图3为本专利技术的数据处理流程图;图4为本专利技术的文件传输模块图;图5为本专利技术的数据装载图。具体实施方式下面结合附图对本专利技术的技术方案进行详细的说明。如图1所示,本专利技术所述的一种数据池对数据同步和处理技术,首先通过对计量自动化主站系统各类型数据进行数据抽取,然后对抽取的数据进行数据传输与数据解析处理,并通过统一的数据装载模块实现数据的装载,最后根据业务分析需求和业务主体分类形成不同的数据集集合。本专利技术所述的一种数据池对数据同步和处理技术包括如下步骤:步骤1:数据抽取,从计量自动化主站系统中抽取各类型数据,包括计算的流式数据与数据库的结构化数据。步骤2:数据处理,对抽取的各类型数据进行数据传输与数据解析处理。步骤3:数据存储,通过数据装载模块将抽取得到的两种不同种类的数据存储在数据池的DW中。步骤4:数据集市,根据业务分析需求和业务主体分类形成不同的数据集集合。所述的步骤1具体说明如下:计量自动化主站系统中计算的流式数据主要包括:采集原始表码、负荷类、告警等数据;结构化数据主要包括系统档案拓扑模型、分析对象模型和统计汇总数据等。计算的流式数据的抽取方法为:通过文件发布代理的方式抽取计量自动化主站系统的计算数据,其数据是以具有一定命名规则的文本文件的形式保存。数据库结构化数据的抽取方法为:通过调度服务模块配置抽取策略,以增量或全量的方式以一定的周期抽取关系数据库中的表数据。其中计算的流式数据的内容以及文件名,都必须遵循一定规则与格式,其详细说明如下:文件名命名格式:$(表名).db.ok.$(时间).$(序号)[.$(同时间升序号)].${文件发布代理本文档来自技高网...

【技术保护点】
一种数据池对数据同步和处理的方法,其特征在于包括以下步骤:步骤1:数据抽取,用于从计量自动化主站系统中抽取各类型数据,包括计算的流式数据与数据库的结构化数据;步骤2:数据处理,用于对抽取的各类型数据进行数据传输与数据解析处理;步骤3:数据存储,通过数据装载模块将抽取得到的两种不同种类的数据存储在数据池的数据仓库DW中;步骤4:数据集市,用于根据业务分析需求和业务主体分类形成不同的数据集集合。

【技术特征摘要】
1.一种数据池对数据同步和处理的方法,其特征在于包括以下步骤:
步骤1:数据抽取,用于从计量自动化主站系统中抽取各类型数据,包括计
算的流式数据与数据库的结构化数据;
步骤2:数据处理,用于对抽取的各类型数据进行数据传输与数据解析处理;
步骤3:数据存储,通过数据装载模块将抽取得到的两种不同种类的数据存
储在数据池的数据仓库DW中;
步骤4:数据集市,用于根据业务分析需求和业务主体分类形成不同的数据
集集合。
2.根据权利要求1所述的方法,其特征在于:所述的步骤1中的数据抽取
是从计量自动化主站系统中抽取各类数据到数据池;其中的数据来源主要分为两
类:计算的流式数据和数据库结构化数据。
3.根据权利要求2所述的方法,其特征在于:所述计算的流式数据包括:采
集原始表码、负荷类、告警数据;所述结构化数据包括系统档案拓扑模型、分析
对象模型和统计汇总数据。
4.根据权利要求3所述的方法,其特征在于:所述计算的流式数据的抽取过
程为:通过文件发布代理的方式抽取计量自动化主站系统的计算数据,该计算数
据是以具有一定命名规则的文本文件的形式保存。
5.根据权利要求3所述的方法,其特征在于:所述数据库结构化数据的抽取
过程为:通过调度服务模块配置抽取策略,以增量或全量的方式以一定的周期抽
取关系数据库中的表数据。
6.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:卢世祥阙华坤林国营雷晓江柳志明
申请(专利权)人:广东电网有限责任公司电力科学研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1