一种配电网规划基础数据集成方法技术

技术编号:13385811 阅读:71 留言:0更新日期:2016-07-22 00:12
本发明专利技术涉及一种配电网规划基础数据集成方法,步骤为:数据抽取,提取集成系统数据,将PMS、GIS、调度等业务系统数从源端经过ETL过程至前置机,转换为结构化的关系数据,统一存储和管理;数据校验,提取转换后的数据,应用校验规则到数据上,检查数据的完整性、正确性和逻辑性;数据融合,将通过校验的数据,应用融合规则到数据上,建立异构数据间的逻辑关系;数据化简,将数据间的逻辑关系作为依据,提取异构系统的数据,应用到化简规则上,按照化简规则简化数据的内容和连接关系,输出满足规划需要的数据。本发明专利技术提供一种适合各层级配电网特点和需求、对配电网规划具有针对性、适应性和可操作性的利用“Spark+EDA”的数据集成方法,可广泛应用于异数据集成中。

【技术实现步骤摘要】
一种配电网规划基础数据集成方法
本专利技术涉及一种电网数据处理方法,特别是关于一种基于“内存计算+事件驱动架构+大数据”的配电网规划基础数据集成方法。
技术介绍
随着电力行业对配电网建设和规划水平要求的不断提升,配电网规划基础数据收集已成为提升配电网规划精益化水平的主要瓶颈。配电网数据来源于调度自动化、生产管理、电网GIS、营销业务(SG186)等多个专业系统,数据量大、来源复杂;同时,由于各业务系统的数据模型、格式不统一,系统相互独立,访问接口各异,使得系统的信息交互困难,难以实现异构数据资源之间的数据共享。介于上述原因,为了消除信息壁垒,实现数据融合,开展配电网数据集成相关技术研究显得至关重要。目前的数据集成与处理只针对数据量大本身,但是配电网规划数据来自多个业务系统,目前的研究对以下几个方面的考虑较少:1、配电网数据来源复杂,重复率高且参差不齐。配电网业务系统众多,由于缺乏全局统筹,除了GIS与PMS实现了主要设备数据的同源维护,用采系统与营销系统实现了计量点数据的同源维护,各业务系统之间普遍缺乏联系,大量数据需要在不同系统中重复维护,数据重复率高。2、数据一致性差,联动困难。各业务部门对数据信息的编号、命名习惯不同,造成数据一致性低、联动困难。同时,信息系统研发单位多,数据标准与模型不一致,造成系统之间接口标准无法统一。3、数据处理实时性要求高。因此,如不能有效解决上述问题,将极大限制配电网基础数据对配电网规划工作的数据支撑作用。
技术实现思路
针对上述问题,本专利技术的目的是提供一种配电网规划基础数据集成方法,该方法基于大数据框架,结合数据集成和数据处理将数据和业务逻辑完全放在内存中,通过内存计算使CPU直接在内存对数据进行提取和分析,满足了平台海量数据和实时数据分析处理的需求。为实现上述目的,本专利技术采取以下技术方案:一种配电网规划基础数据集成方法,其特征在于,该方法包括以下步骤:(1)数据抽取:建立适应各系统架构特点的数据传输方式和通道,并将获取的数据转换为满足集成规范的结构化数据;(2)数据校验:按照配电网数据集成规范,将数据提取后转换成格式统一的结构化数据,进行数据校验;将转换后的数据和预定义的校验规则内存化,然后交由基于Disruptor和EDA为核心的校验引擎检查数据的正确性、完整性和逻辑性;(3)数据融合:根据配电网规划基础数据特点,建立融合关系清单;融合准则为:配电设备信息以PMS系统中设备属性数据为基准,将GIS系统、用采系统、调度系统数据进行对应融合;用户设备信息以营销系统中属性数据为基准,将GIS系统、用采系统数据进行对应融合;(4)数据化简:数据化简过程分为属性合并和拓扑合并两个子过程,两个子过程不分先后、同时进行;在完整的数据化简过程中,应用基于内存的大数据框架Spark,将化简后的结果RDD保存在内存中,同时应用不同的化简规则,进行反复迭代。所述步骤(1)中,采用“Web服务”、“数据中心+企业服务总线”、“FTP+E文件”三种数据交互通道,并结合配电网规划基础数据来源业务系统的特点,选取不同数据交互方式和通道:(1.1)GIS系统提供外部WEB服务,供各集成系统调用;(1.2)用采系统、营销系统、PMS系统已与数据中心进行数据共享,其他系统需要集成数据时,通过企业服务总线发布数据抽取需求,由数据中心对外提供数据,其集成均采用数据中心+企业服务总线方式;(1.3)调度系统采用FTP+E文件方式到指定FTP服务器获取。所述步骤(1.1)中,首先由前置机数据接口调用GIS平台Web服务,发送数据抽取请求;GIS系统收到请求后向Web服务发送传输指令;最后由Web服务调取GIS数据传输给前置机。所述步骤(1.2)中,首先由前置机数据接口服务通过企业服务总线,向数据中心发送数据抽取请求,数据中心向各系统发送数据抽取指令,各系统收到指令后向数据中心反馈数据,最后由数据中心通过企业服务总线将数据传输给前置机。所述步骤(1.3)中,由前置机数据接口服务定时到E文件服务器查看E文件准备记录,若有更新的E文件则直接抓取,到前置机后进行解密存储。所述步骤(2)中,采用以“并行计算+事件驱动架构EDA+内存数据库TimesTen”为核心的架构,以完整性校验阶段为例:(2.1)通过TimesTen内存数据库,将需要校验的数据内存化,同时将完整性校验规则载入内存中;(2.2)开启Disruptor的并行计算模式,从内存中直接提取校验规则和待校验数据,交由EDA校验引擎处理;(2.3)EDA校验引擎将数据应用到规则上,满足规则的数据进入下一阶段校验,校验失败的数据,生成校验日志,记录相关的校验信息。所述步骤(3)中,按照数据关联成熟度和处理效率高低的不同,将数据融合从高到低,划分为三阶段实现:(3.1)设备编码匹配:如设备编码一致,则将两条数据按照融合规则合并为一条数据;(3.2)字段组合匹配:针对设备编码未匹配上的数据,采用字段组合匹配;两个系统数据中设备名称、电压等级多个相同字段,关键字相同或相似的两条数据合并为一条数据;(3.3)人工识别匹配:针对上述两个阶段都不能匹配的数据,分别人工查询两个系统对应信息,人工判断是否为同一数据;若是,将两条数据合并为一条。本专利技术由于采取以上技术方案,其具有以下优点:1、本专利技术由于采用EDA架构,提高了配电网数据集成对不断变化的业务需求的响应,降低了集成系统模块间的耦合度,最大限度地减少了对现有数据集成业务应用的影响,基于业务目标快速确定可控的业务变更,并直接、迅速、有效地实施变更以达到集成业务敏捷性和完整性。2、本专利技术由于采用基于内存计算的大数据框架Spark,特别适合数据集成中需要多次迭代计算的算法,集成过程实时性、响应性高。3、本专利技术基于Spark可靠的分布式数据集的容错性特征(数据检查点和记录数据的更新),提高了数据集成过程中数据处理的可靠性和容错性,保证了集成数据处理过程的稳定和质量。4、本专利技术在进行数据化简过程,充分利用了基于内存计算的Spark大数据框架中的图计算GraphX和复杂的、需要反复迭代的计算优势,从而改善了系统的物理设备利用率,有利于提升电网的经济性和供电可靠性。本专利技术适用范围广,适合各层级配电网的特点和需求。附图说明图1是本专利技术的数据抽取和转换流程图;图2是本专利技术的基于Disruptor框架的数据校验流程图;图3是本专利技术的数据融合流程图;图4是本专利技术的考虑属性合并和拓扑合并的数据化简流程图;图5是本专利技术实施例中配电网规划基础数据集成方法全过程流程图;图6是本专利技术实施例中杆塔和连接线化简过程图;图7是本专利技术实施例中的基于GraphX图的拓扑化简过程图。具体实施方式下面结合附图和实施例对本专利技术进行详细的描述。本专利技术提供一种配电网规划基础数据集成方法,该方法将数据集成解耦为数据抽取、数据校验、数据融合和数据化简等四个过程,其具体步骤如下:(1)数据抽取:建立适应各系统架构特点的数据传输方式和通道,并将获取的数据转换为满足集成规范的结构化数据。根据配电网规划基础数据的特点,本专利技术采用“Web服务”、“数据中心+企业服务总线”、“FTP+E文件”三种数据交互通道,并结合配电网规划基础数据来源业务系统的特点,选取不同数据交互方式和通道(本文档来自技高网...

【技术保护点】
一种配电网规划基础数据集成方法,其特征在于,该方法包括以下步骤:(1)数据抽取:建立适应各系统架构特点的数据传输方式和通道,并将获取的数据转换为满足集成规范的结构化数据;(2)数据校验:按照配电网数据集成规范,将数据提取后转换成格式统一的结构化数据,进行数据校验;将转换后的数据和预定义的校验规则内存化,然后交由基于Disruptor和EDA为核心的校验引擎检查数据的正确性、完整性和逻辑性;(3)数据融合:根据配电网规划基础数据特点,建立融合关系清单;融合准则为:配电设备信息以PMS系统中设备属性数据为基准,将GIS系统、用采系统、调度系统数据进行对应融合;用户设备信息以营销系统中属性数据为基准,将GIS系统、用采系统数据进行对应融合;(4)数据化简:数据化简过程分为属性合并和拓扑合并两个子过程,两个子过程不分先后、同时进行;在完整的数据化简过程中,应用基于内存的大数据框架Spark,将化简后的结果RDD保存在内存中,同时应用不同的化简规则,进行反复迭代。

【技术特征摘要】
1.一种配电网规划基础数据集成方法,其特征在于,该方法包括以下步骤:(1)数据抽取:建立适应各系统架构特点的数据传输方式和通道,并将获取的数据转换为满足集成规范的结构化数据;(2)数据校验:按照配电网数据集成规范,将数据提取后转换成格式统一的结构化数据,进行数据校验;将转换后的数据和预定义的校验规则内存化,然后交由基于Disruptor和EDA为核心的校验引擎检查数据的正确性、完整性和逻辑性;采用以“并行计算+事件驱动架构EDA+内存数据库TimesTen”为核心的架构,以完整性校验阶段为例:(2.1)通过TimesTen内存数据库,将需要校验的数据内存化,同时将完整性校验规则载入内存中;(2.2)开启Disruptor的并行计算模式,从内存中直接提取校验规则和待校验数据,交由EDA校验引擎处理;(2.3)EDA校验引擎将数据应用到规则上,满足规则的数据进入下一阶段校验,校验失败的数据,生成校验日志,记录相关的校验信息;(3)数据融合:根据配电网规划基础数据特点,建立融合关系清单;融合准则为:配电设备信息以PMS系统中设备属性数据为基准,将GIS系统、用采系统、调度系统数据进行对应融合;用户设备信息以营销系统中属性数据为基准,将GIS系统、用采系统数据进行对应融合;(4)数据化简:数据化简过程分为属性合并和拓扑合并两个子过程,两个子过程不分先后、同时进行;在完整的数据化简过程中,应用基于内存的大数据框架Spark,将化简后的结果RDD保存在内存中,同时应用不同的化简规则,进行反复迭代。2.如权利要求1所述的一种配电网规划基础数据集成方法,其特征在于:所述步骤(1)中,采用“Web服务”、“数据中心+企业服务总线”、“FTP+E文件”三种数据交互通道,并结合配电网规划基础数据来源业务系统的特点,选取不同数据交互方式和通道:(1.1)...

【专利技术属性】
技术研发人员:孙充勃宋毅靳夏宁薛振宇吴志力齐晓光靖海汪雄才高晓鹏李红军杨卫红
申请(专利权)人:国家电网公司国网北京经济技术研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1