一种基于正则表达式的电力大数据采集、存储及分析方法技术

技术编号：11979310 阅读：128 留言：0更新日期：2015-09-02 09:45

一种基于正则表达式的电力大数据采集、存储及分析方法，其特征在于，所述方法包括：(1)电力信息大数据采集；(2)多级存储技术；(3)电力市场大数据主成分分析方法；电力市场大数据主成分分析方法采用基于主成分分析的多元回归方法建立售电量事务信息模型。为了实现电力交易业务的数据增值服务，研究挖掘电力市场大数据价值的方法和技术，提取电力交易中心的交易业务大数据，分析典型应用场景，利用数据集成管理、数据存储、数据计算、分析挖掘等技术，实现面向典型业务场景的模式创新及应用提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电力信息大数据信息挖掘与分析领域。设及一种多级存储的电力信息大数据的分析方法，解决电力信息大数据分析的问题。
技术介绍
随着数据库应用的规模、范围不断地扩大，电力管理部口及相关企业利用计算机管理事务能力的增强，产生了庞大的大规模数据集，将如此庞大的数据集采集并存储到服务器上是非常复杂的。原本很多数据采集算法在数据集规模较小时尚能取得不错的采集效果，但是针对大规模数据集，计算量太大W至于不能在可接受的时间内获得很好的结果。在W往的工业生产、商业服务领域，传统的数据挖掘分析算法可W处理小规模的数据集，也能取得较好的执行效率，获得较高的挖掘质量。但在当前的大数据时代，处理大规模数据的过程遇到了难题。随着一体化电网规划设计平台的建设推进，业务应用数据正 W前所未有的速度增长，大数据时代正式到来。电力大数据分析技术在最近两年开始成为研究热点，但主要集中在电力生产领域，如电力调度、电力负荷预巧U、电网资源配置、电网信息监测等。当前，大数据分析技术依然停留在传统的数据分析方法层面，比如，数据挖掘技术在市场交易行为的分析，研究大多集中在交易行为的模型和方法改进方面。而对基于分布式数据仓库化ive)的电力市场大数据挖掘（分布式电力数据挖掘）方法和技术（电力数据分布式挖掘算法）的研究，在国内属于空白领域，即将成为热点研究方向，有待深入开展此领域的研究。由于电力信息的激增，数据库的应用规模和范围不断扩大，产生了庞大的大规模数据集。通过对大数据内涵和外延的深入理解，需要结合电力市场交易的数据现状和业务需求，为了更好的分析...

【技术保护点】
一种基于正则表达式的电力大数据采集、存储及分析方法，其特征在于，所述方法包括：(1)电力信息大数据采集电力信息采集的大数据主要格式分为：结构化、半结构化和非结构化数据；结构化：指在网页上发布的表格，内涵标准的数据库数据，可直接读取存储进关系数据库中；半结构化：指虽然用表格显示在网页中，但是内容行或者列之间的数据不一致，需要逐行或者逐列处理；或者将结构化的数据以文本行的形式显示，中间用分隔符分割的情况；非结构化：纯文本数据，需要从文本中按照一定的规则查找匹配需要的数据；采集的数据按照数据类型可分类：文本、多媒体、表格；爬虫将网页下载之后，根据HTML的语法规则，从中找出标题、主体中的文本内容，找出多媒体链接、以及内嵌的表格，分别对文本、多媒体、表格进行处理；其中，文本采集模式：采用正则表达式进行匹配，JAVA内置的正则表达式基本满足要求，也可将匹配规则写成PERL脚本，其对文本的处理更加全面；模式数据库中存储的是正则表达式的模板，其中的关键词可以成组进行，使用正则表达式中的[]进行多选匹配，也可逐一进行；但是这些具体的匹配表达式中的关键词需要程序根据数据库中指定的关键词进行动态修改后再进...

【技术特征摘要】

【专利技术属性】
技术研发人员：杨建华，白顺明，肖达强，魏庆海，代勇，刘定宜，高春成，樊爱军，方印，陶力，史述红，王蕾，李守保，王清波，丁鹏，袁明珠，任东明，刘杰，赵显，谭翔，汪涛，袁晓鹏，张雪，
申请(专利权)人：国家电网公司，北京科东电力控制系统有限责任公司，华中电网有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人