一种基于机器学习算法预测每小时用电量的方法及系统技术方案

技术编号:37148939 阅读:27 留言:0更新日期:2023-04-06 22:03
本发明专利技术提供一种基于机器学习算法预测每小时用电量的方法及系统,所述方法包括:获取用电量数据和天气数据,其中电量数据包括含时间、用户编号、用电量,天气数据包括当地记录时间、气温、风力、湿度;对获取到的电量数据和天气数据进行清洗处理;对清洗后的数据进行建模,得到VAR模型;根据建立的VAR模型预测未来时刻的用电量。本发明专利技术建立的VAR模型是基于ARIMA模型的改进版本,预测精度得到了提高,同时基于自身算法特点使得所需数据样本量少,相比有监督学习的机器学习算法在所需的样本量上优势明显。在样本数量不足的特定场景下,使用该算法模型相较其它机器学习模型,预测效果较为突出。较为突出。较为突出。

【技术实现步骤摘要】
一种基于机器学习算法预测每小时用电量的方法及系统


[0001]本专利技术涉及机器学习算法领域,具体是一种基于机器学习算法预测每小时用电量的方法及系统。

技术介绍

[0002]当今,智能电网被认为是有很大的潜力用来提供无故障的持续不断的电力供应。为了达到这一目标,很多研究关注于使用历史每小时的用电量来预测每小时用电量。这种技术有助于监控用电量需求、合理分配电力、维护用电网络稳定性和保障可靠的电力供应和用电安全。否则,高估或者低估电网的用电量会对电网带来挑战。
[0003]电力负荷预测高估会导致不必要的电力留存备用、能量分配不均匀,从而导致运营成本的增加。然而电力负荷的低估会带来用电的可靠性和用电安全的问题。综上而言,精确的电量预测对智能电网非常重要,它可以提高电力系统的稳定性、安全性和可靠性。
[0004]目前对电力的预测的方法通常有2类,分别是基于ARIMA整合移动平均自回归等统计学的方法和基于RNN循环神经网络等机器学习的方法。然而,这2类方法的缺点也比较明显,前者提出的年代比较久远,预测的效果往往不太理想,后者作为有监督学习的算法,往往需要大量的学习样本。

技术实现思路

[0005]本专利技术提供一种基于机器学习算法预测每小时用电量的方法及系统,可以提高预测精度得,同时基于自身算法特点使得所需数据样本量少,相比有监督学习的机器学习算法在所需的样本量上优势明显,在样本数量不足的特定场景下,使用该算法模型相较其它机器学习模型,预测效果较为突出。
[0006]一种基于机器学习算法预测每小时用电量的方法,包括如下步骤:
[0007]步骤一、获取用电量数据和天气数据,其中电量数据包括含时间、用户编号、用电量,天气数据包括当地记录时间、气温、风力、湿度;
[0008]步骤二、对步骤一获取到的电量数据和天气数据进行清洗处理;
[0009]步骤三、对清洗后的数据进行建模,建模过程依次如下:
[0010]进行自变量与因变量的检验1,即格兰杰因果关系检验,判断作为因变量的用电量别和作为自变量的气温、风力、湿度之间是否存在因果关系,若存在因果关系,则执行下一步:
[0011]进行自变量与因变量的检验2,即协整检验,判断时间序列是否平稳,当协整检验失败时,需要做差分,然后用差分数据再来进行协整检验,若检验通过则执行下一步;
[0012]根据赤池信息准则确定模型的滞后阶数;
[0013]进行模型因变量的检验,即判断用电量时序数列没有随机误差自相关时,检验通过,然后执行下一步;
[0014]建立VAR模型:所述VAR模型包括多元线性回归模型和时间序列模型,让当前作为X
的气温、风力、湿度和滞后阶数的作为Y的用电量之间形成第一映射,并让当前作为Y1的用电量和滞后阶数的作为Y2的用电量之间形成第二映射,其中第一映射即为多元线性回归模型,第二映射即为ARIMA时间序列模型;
[0015]步骤四、根据步骤三建立的VAR模型预测未来时刻的用电量。
[0016]进一步的,步骤一中,在公司数据库中通过SQL查询方式获取用电量数据,通过爬虫程序抓取天气网站得到天气数据。
[0017]进一步的,步骤二对获取到的数据进行清洗处理,具体包括:
[0018]合并数据:将数据库查询的用电量数据和爬虫获取的天气数据通过时间维度进行关联,得到每条数据同时包含的维度有时间、用户编号、用电量、气温、风力、湿度;
[0019]删除异常值:包括对用电量为负数的样本进行删除;
[0020]空缺值删除:对用电量存在空缺值的样本进行删除;
[0021]维度相关性分析:通过散点图、热力图,得到自变量维度中的气温、风力、湿度与因变量中的用电量之间存在相关性。
[0022]进一步的,采用杜宾

瓦特森检验判断残差,当检验值接近于2的时候,则没有随机误差自相关,时序数列通过了杜宾

瓦特森检验。当检验值接近0或者4的时候,说明随机需要存在正序列相关性或者负序列相关性,时序数列没有通过杜宾

瓦特森检验。
[0023]进一步的,步骤四根据步骤三建立的VAR模型预测未来时刻的用电量,具体包括:向VAR模型输入包括用电量、气温、风力、湿度的预测集,即输出未来第24个时刻的用电量。
[0024]一种基于机器学习算法预测每小时用电量的系统,包括:
[0025]数据获取模块,用于获取用电量数据和天气数据,其中电量数据包括含时间、用户编号、用电量,天气数据包括当地记录时间、气温、风力、湿度;
[0026]数据清洗模块,用于对数据获取模块获取到的电量数据和天气数据进行清洗处理;
[0027]VAR模型建立模块,用于对清洗后的数据进行建模,建模过程依次如下:
[0028]进行自变量与因变量的检验1,即格兰杰因果关系检验,判断作为因变量的用电量别和作为自变量的气温、风力、湿度之间是否存在因果关系,若存在因果关系,则执行下一步:
[0029]进行自变量与因变量的检验2,即协整检验,判断时间序列是否平稳,当协整检验失败时,需要做差分,然后用差分数据再来进行协整检验,若检验通过则执行下一步;
[0030]根据赤池信息准则确定模型的滞后阶数;
[0031]进行模型因变量的检验,即判断用电量时序数列没有随机误差自相关时,检验通过,然后执行下一步;
[0032]建立VAR模型:所述VAR模型包括多元线性回归模型和时间序列模型,让当前作为X的气温、风力、湿度和滞后阶数的作为Y的用电量之间形成第一映射,并让当前作为Y1的用电量和滞后阶数的作为Y2的用电量之间形成第二映射,其中第一映射即为多元线性回归模型,第二映射即为ARIMA时间序列模型;
[0033]预测模块,用于根据VAR模型建立模块建立的VAR模型预测未来时刻的用电量。
[0034]进一步的,所述数据获取模块通过SQL查询方式获取用电量数据,通过爬虫程序抓取天气网站得到天气数据。
[0035]进一步的,所述数据清洗模块对数据获取模块获取到的电量数据和天气数据进行清洗处理,具体包括:
[0036]合并数据:将数据库查询的用电量数据和爬虫获取的天气数据通过时间维度进行关联,得到每条数据同时包含的维度有时间、用户编号、用电量、气温、风力、湿度;
[0037]删除异常值:包括对用电量为负数的样本进行删除;
[0038]空缺值删除:对用电量存在空缺值的样本进行删除;
[0039]维度相关性分析:通过散点图、热力图,得到自变量维度中的气温、风力、湿度与因变量中的用电量之间存在相关性。
[0040]本专利技术建立的VAR模型是基于ARIMA模型的改进版本,预测精度得到了提高,同时基于自身算法特点使得所需数据样本量少(通常几十个就足够了),相比有监督学习的机器学习算法在所需的样本量上优势明显。在样本数量不足的特定场景下,使用该算法模型相较其它机器学习模型,预测效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法预测每小时用电量的方法,其特征在于:包括如下步骤:步骤一、获取用电量数据和天气数据,其中电量数据包括含时间、用户编号、用电量,天气数据包括当地记录时间、气温、风力、湿度;步骤二、对步骤一获取到的电量数据和天气数据进行清洗处理;步骤三、对清洗后的数据进行建模,建模过程依次如下:进行自变量与因变量的检验1,即格兰杰因果关系检验,判断作为因变量的用电量别和作为自变量的气温、风力、湿度之间是否存在因果关系,若存在因果关系,则执行下一步:进行自变量与因变量的检验2,即协整检验,判断时间序列是否平稳,当协整检验失败时,需要做差分,然后用差分数据再来进行协整检验,若检验通过则执行下一步;根据赤池信息准则确定模型的滞后阶数;进行模型因变量的检验,即判断用电量时序数列没有随机误差自相关时,检验通过,然后执行下一步;建立VAR模型:所述VAR模型包括多元线性回归模型和时间序列模型,让当前作为X的气温、风力、湿度和滞后阶数的作为Y的用电量之间形成第一映射,并让当前作为Y1的用电量和滞后阶数的作为Y2的用电量之间形成第二映射,其中第一映射即为多元线性回归模型,第二映射即为ARIMA时间序列模型;步骤四、根据步骤三建立的VAR模型预测未来时刻的用电量。2.如权利要求1所述的基于机器学习算法预测每小时用电量的方法,其特征在于:步骤一中,在公司数据库中通过SQL查询方式获取用电量数据,通过爬虫程序抓取天气网站得到天气数据。3.如权利要求1所述的基于机器学习算法预测每小时用电量方法,其特征在于:步骤二对获取到的数据进行清洗处理,具体包括:合并数据:将数据库查询的用电量数据和爬虫获取的天气数据通过时间维度进行关联,得到每条数据同时包含的维度有时间、用户编号、用电量、气温、风力、湿度;删除异常值:包括对用电量为负数的样本进行删除;空缺值删除:对用电量存在空缺值的样本进行删除;维度相关性分析:通过散点图、热力图,得到自变量维度中的气温、风力、湿度与因变量中的用电量之间存在相关性。4.如权利要求1所述的基于机器学习算法预测每小时用电量的方法,其特征在于:采用杜宾

瓦特森检验判断残差,当检验值接近于2的时候,则没有随机误差自相关,时序数列通过了杜宾

瓦特森检验。当检验值接近0或者4的时候,说明随机需要存在正序列相关性或者负序列相关性,时序数列没有通过杜宾

【专利技术属性】
技术研发人员:夏勇军罗宾郭志刚陈莉娟施志勇徐文赵立华
申请(专利权)人:国网湖北省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1