一种光伏发电影响因素的大数据分析系统及方法技术方案

技术编号:20545837 阅读:29 留言:0更新日期:2019-03-09 18:46
本发明专利技术属于信息检索及其数据库结构技术领域,公开了一种光伏发电影响因素的大数据分析系统及方法,其云计算方式是基于深度学习的Spark,同时可以利用低成本的设备及公有云搭建大型的数据处理模型,通过比较容易实现的MySQL、Oracle等关系型数据库构成数据源层。光伏发电影响因素的大数据分析系统主要的方法在于将大数据放入大数据处理平台之前,进行光伏发电的因素重要性分析。相对于数据量小的光伏数据因素分析建立建立的模型来说,通过大数据因素分析得到的模型具有更多特征,整个模型更加具有泛化性,可以适用于多种情况而不失去较高的准确性,经过大数据因素分析可以避免一些降低预测精度的特殊数据输入,从而提高整个模型对未来光伏数据预测的精度。

A Large Data Analysis System and Method for the Influencing Factors of Photovoltaic Power Generation

The invention belongs to the field of information retrieval and database structure technology, and discloses a large data analysis system and method for influencing factors of photovoltaic power generation. Its cloud computing method is based on deep learning Spark. At the same time, a large data processing model can be built by using low-cost equipment and public cloud, and a data source can be formed by relatively easy-to-implement relational databases such as MySQL and Oracle. Layer. The main method of large data analysis system for influencing factors of photovoltaic power generation is to analyze the importance of factors of photovoltaic power generation before putting large data into large data processing platform. Compared with the model established by the factor analysis of photovoltaic data with small amount of data, the model obtained by the factor analysis of large data has more characteristics, and the whole model is more generalized. It can be applied to many situations without losing high accuracy. After the factor analysis of large data, some special data input which reduces the prediction accuracy can be avoided, thus improving the whole model. Prediction accuracy of future photovoltaic data.

【技术实现步骤摘要】
一种光伏发电影响因素的大数据分析系统及方法
本专利技术属于信息检索及其数据库结构
,尤其涉及一种光伏发电影响因素的大数据分析系统及方法。
技术介绍
目前,业内常用的现有技术是这样的:根据国际能源署估计,全球2030年一次能源需求将达到177亿吨油当量,能源需求量如此巨大,而化石能源(煤、石油、天然气等不可再生资源)的日益枯竭以及对全球气候环境的影响,使得在世界范围内,优先大力发展可再生能源的能源革命被掀起。随着各国对太阳能光伏发电技术的投入,目前光伏发电已经实现了产业化,太阳能光伏发电逐步成为了电力能源的重要组成部分。光伏发电属于波动性和间歇性电源,当大规模光伏发电接入电网后,就会产生随机发电与随机用电两组互不相关变量的实时平衡问题,这就使得对光伏发电预测模型和效率评价指标的研究成为了必须。光伏发电预测模型就是对运行中的光伏发电诸多气候等因素进行分析,预先评估发电量的变化情况、用来合理调度发电容量、充分利用资源,达到提高光伏并网后电网的安全性和稳定性的目的。光伏电站采集了大量的发电数据,其中蕴含了极大的挖掘应用价值,建设光伏大数据平台,不仅可以用于实现光伏发电系统的发电量预测和管理,而且对海量数据的存储和大数据的并行计算问题,以及在加快新能源和清洁能源领域的良性发展方面发挥着重大作用。目前大多采用经验法对光伏数据进行影响因素分析,基本不采用算法对光伏多组因素进行选择,采取某几维重要性高的因素建立模型。经验法主要选用和光伏发电没有直接关系的因素数据,例如光照角度和光照强弱,温度,湿度,晴雨多云,风力等等因素,经验法会先排除直接相关的因素(电流和电压),再根据电站当地的一些天气特征决定放入的因素建立模型。虽然电流和电压对光伏发电是有直接影响的,在建立模型时没有说服力,但是在预测方面,电流和电压并不是直接影响发电,所以也能作为影响因素建立预测模型。目前有很多算法,例如PCA算法,GBDT算法等,都会根据所有因素的重要性,来选取放入的特征,抛开人类的主观意识,得到的模型更加具有科学性。在大数据领域的光伏影响因素比小数据的光伏影响因素分析起来更加困难,本专利技术采用GBDT算法分析海量数据的重要性。综上所述,现有技术存在的问题是:一般经验法选取影响光伏发电因素,会根据主观意识,筛选光伏发电因素,删除与光伏发电直接相关的因素数据(电流、电压),选取与光伏发电不直接相关的因素数据,在筛选结果后,会失去很多与目标值相关性高的因素数据,产生重要特征丢失,影响最后的预测精度。解决上述技术问题的难度和意义:GBDT算法虽然能找出因素特征重要性,但是不排除因重要性低的因素和重要性高的因素组合产生好的预测精度,GBDT只能给出一个相对的参考价值,需要通过GBDT算法结果的参考进行实验找出最优组合。目前大数据技术在光伏行业的应用尚处于起步阶段,文献及技术支持较少。很多处理小数据的算法已经成熟,但是没有应用在大数据领域,而大数据技术更新较快,不断的新技术出现,需要了解各个大数据处理工具的特性及优缺点,才能建设更好的光伏大数据处理平台。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种光伏发电影响因素的大数据分析系统及方法。本专利技术是这样实现的,一种光伏发电影响因素的大数据分析系统,所述光伏发电影响因素的大数据分析系统包括:数据源层:目前光伏发电系统的大量历史数据和每天产生的记录数据存储在mySQL、Oracle等关系型数据库中,为了降低成本和增强系统的可扩展性,仍然采用关系型数据库来暂存光伏发电数据,光伏电站用于存储发电数据的mySQL、Oracle等关系型数据库构成了本平台的数据源层;数据传输层:用于实现数据在关系型数据库和HDFS之间的传输,能将暂存在mySQL、Oracle等关系型数据库中的光伏发电数据导入Hbase数据库,也能将数据导出到关系型数据库中;数据存储层:由HDFS和Hbase构成,用于存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据,为数据处理层提供快速数据访问的支撑;数据处理层:使用YARN进行系统资源的调度和管理,使用Spark来实现大数据快速计算,为上层数据分析提供计算支持,使用Zookeeper来协调多个分布式应用的运行;数据分析层:利用Spark机器学习库对大量光伏发电历史数据建立发电量模型;根据当前光伏发电的各种影响因素,通过光伏发电量模型来对发电量做出预测。进一步,所述数据传输层Sqoop将HDFS和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中的数据导进到HDFS中,也可以将HDFS的数据导入到关系型数据库中。本专利技术的另一目的在于提供一种应用所述光伏发电影响因素的大数据分析系统的光伏发电影响因素的大数据分析方法,所述光伏发电影响因素的大数据分析方法包括:采用GBDT算法对海量历史光伏进行特征分析,第一步,得到历史光伏数据,删除发电量因素,得到的其余因素的数据作为训练集,发电量数据作为测试集;第二步,训练集和测试集采用GBDT算法建立因素特征重要性模型;第三步,从模型中可直接得到训练集中的每个因素重要性系数,将系数最大的设为100%(归一化),删除低于50%的光伏影响因素;第四步,将高于50%的光伏影响因素建立预测模型,看哪些影响因素的组合最适合作为预测发电的数据。本专利技术的另一目的在于提供一种应用所述光伏发电影响因素的大数据分析系统的信息数据处理终端。综上所述,本专利技术的优点及积极效果为:本专利技术将主流的大数据处理平台与光伏发电系统发电量预测的需求相结合,采用技术成熟的GBDT算法,分析大数据中的光伏影响因素,并提出了Spark平台下的光伏发电量的预测系统;能够存储和处理光伏发电系统的海量数据,对数据保存多个副本,数据副本丢失或宕机能够自动恢复数据,具有高安全性、高容错性,非常适合部署在廉价的机器上,节省了购买高性能机器的成本。Spark平台并行计算的框架适合大规模数据的处理,其在内存计算模式下比Mapreduce快100倍。将Spark平台应用到光伏发电大数据挖掘分析领域是本专利技术的一个创新。利用Spark对大量历史数据进行快速分析,分析各个因素对光伏发电效率的影响程度,基于大规模数据的因素分析相较于传统基于部分数据的因素分析,更具有科学性,可作为后期新建光伏电站和优化改进旧光伏电站的参考;基于深度学习的Spark预测系统模型为系统开发提供了多层次的支撑,其Hbase非关系型数据库,适合存储结构化、半结构化以及非结构化数据,并提供在线查询的低延迟性能,非常适合光伏发电预测模型的监测。本专利技术基于深度学习的Spark大数据处理平台,可以利用低成本的设备及公有云搭建大型的数据处理模型,通过比较容易实现的MySQL、Oracle等关系型数据库构成数据源层。通过在大数据平台实现GBDT算法对传入数据因素的重要性分析,删除重要性低的因素,极大地降低的处理数据的难度,又避免了人类主观意识带来的预测结果的高误差。最终预测结果将通过数据可视化技术呈现给管理者,给管理者对电网的调度提供了一种智能化的参考依据。附图说明图1是本专利技术实施例提供的光伏发电影响因素的大数据分析系统结构示意图;图中:1、数据源层;2、数据传输层;3、数据存储层;4、数据处理层;5、数据分析层。本文档来自技高网
...

【技术保护点】
1.一种光伏发电影响因素的大数据分析系统,其特征在于,所述光伏发电影响因素的大数据分析系统包括:数据源层,光伏发电系统的大量历史数据和每天产生的记录数据存储在关系型数据库中;由关系型数据库来构成数据源层;数据传输层,用于实现数据在关系型数据库和HDFS之间的传输;数据存储层,用于存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据;数据处理层,用于为上层数据分析提供计算支持;数据分析层,利用大量的历史数据对光伏发电量建立模型;根据当前光伏发电的各种影响因素,通过光伏发电量模型来对发电量做出预测。

【技术特征摘要】
1.一种光伏发电影响因素的大数据分析系统,其特征在于,所述光伏发电影响因素的大数据分析系统包括:数据源层,光伏发电系统的大量历史数据和每天产生的记录数据存储在关系型数据库中;由关系型数据库来构成数据源层;数据传输层,用于实现数据在关系型数据库和HDFS之间的传输;数据存储层,用于存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据;数据处理层,用于为上层数据分析提供计算支持;数据分析层,利用大量的历史数据对光伏发电量建立模型;根据当前光伏发电的各种影响因素,通过光伏发电量模型来对发电量做出预测。2.如权利要求1所述的光伏发电影响因素的大数据分析系统,其特征在于,所述数据传输层Sqoop将HDFS和关系型数据库中的数据相互转移的工具,...

【专利技术属性】
技术研发人员:周杭霞杨凌帆张雨金郑夏均刘倩卫东葛双冶
申请(专利权)人:中国计量大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1