一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法技术

技术编号:25636964 阅读:40 留言:0更新日期:2020-09-15 21:29
由于实际生产生活中的用电不规律性(例如突发事件造成的用电高峰或低谷,监测系统故障等),经常会出现监测值背离实际情况或者不符合电力预测对象普遍用电规律的情况。在电力负荷预测中纳入这类异常的数值将会大大的降低电力负荷预测模型的训练效果,进而降低电力负荷预测结果的准确性,通过相应的数学统计的方式分析以及处理原始的电力负荷历史数据,保证用于电力负荷预测的负荷历史数据的有效性已经成为电力负荷预测中的一个重要研究课题。本发明专利技术公开了一种电力负荷预测中对历史负荷数据应用孤立森林算法剔除异常数据处理的方法,达到剔除电力系统运行中产生的异常历史电力负荷数据的目的。

【技术实现步骤摘要】
一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法
本专利技术涉及电力负荷预测
,具体涉及一种电力负荷预测中对历史负荷数据中应用孤立森林算法剔除异常数据处理的方法。
技术介绍
电力负荷预测在电力系统运营中起到决定性的作用,对电力负荷的准确预测是保证电力系统安全,经济运行和实现电网科学管理及调度的重要基础,又是电力能源管理系统的核心组成部分,也是今后进行电网商业化运营的前提条件。在电力负荷预测中,指定单位的历史负荷数据通常是进行预测计算,模拟的重要基础数据。电力负荷预测通常会在考虑一些重要的系统运行特性,自然条件下,研究或利用一系列数学方法,找到历史数据之间特有的联系,在满足一定精度的意义下,进而确定未来某特定时刻或某些特定时刻的电力负荷数值。由此可见,电力历史负荷数据在电力负荷预测中十分关键,在电力预测数据分析,预测模型中都会起到重要作用。但是,由于实际生产生活中的用电不规律性(例如突发事件造成的用电高峰或低谷,监测系统故障等),经常会出现监测值背离实际情况或者不符合电力预测对象普遍用电规律的情况。在电力负荷预测中纳入这类异常的数值将会大大的降低电力负荷预测模型的训练效果,进而降低电力负荷预测结果的准确性。通过相应的数学统计的方式分析以及处理原始的电力负荷历史数据,保证用于电力负荷预测的负荷历史数据的有效性已经成为电力负荷预测中的一个重要研究课题。本专利技术公开了一种电力负荷预测中对历史负荷数据应用孤立森林算法剔除异常数据处理的方法,达到剔除电力系统运行中产生的异常历史电力负荷数据的目的。
技术实现思路
本专利技术提出了一种基于孤立森林算法对大量电力负荷历史数据的异常数据筛选和去噪处理的方法,其特点在于包括了孤立森林算法剔除极大异常数据以及线性插值恢复剔除数据两大功能模块,孤立森林是用于异常检测的机器学习算法。这是一种无监督学习算法,通过隔离数据中的离群值识别异常。孤立森林是基于决策树的算法。从给定的特征集合中随机选择特征,然后在特征的最大值和最小值间随机选择一个分割值,来隔离离群值。这种特征的随机划分会使异常数据点在树中生成的路径更短,从而将它们和其他数据分开。一般而言,异常检测的第一步是构造「正常」内容,然后报告任何不能视为正常的异常内容。但孤立森林算法不同于这一原理,首先它不会定义「正常」行为,而且也没有计算基于点的距离。孤立森林不通过显式地隔离异常,它隔离了数据集中的异常点。孤立森林的原理是:异常值是少量且不同的观测值,因此更易于识别。孤立森林集成了孤立树,在给定的数据点中隔离异常值。隔离的异常值被标注并且立即剔除并由下一步骤补充相应的数据。孤立森林算法主要针对的是连续型结构化数据中的异常点。使用孤立森林的前提是,将异常点定义为那些“容易被孤立的离群点”——可以理解为分布稀疏,且距离高密度群体较远的点。从统计学来看,在数据空间里,若一个区域内只有分布稀疏的点,表示数据点落在此区域的概率很低,因此可以认为这些区域的点是异常的;线性插值方法应用于恢复对前两步数据处理中被剔除的数据,通过被剔除数据时间序列前后的数据来计算线性插值,最大程度的拟合模拟被剔除数据的实际值,进而一定程度上恢复被剔除的数据。处理前的原始数据及处理后的应用数据将进行单因素方差分析(oneway-ANOVA),计算两组数据间显著性差异值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整步孤立森林算法中具体限制性参数的选择,减少对原始数据剔除极大差异值的数量以及降低去噪处理的程度以确保处理后的数据与原始数据不存在显著性差异,处理后的数据保持有效性。实际收集到的电力负荷历史数据经过上述模块的处理,可以达到去除异常值与去噪的效果,提高了原始数据的有效性。将进行过数据清洗后的电力负荷历史数据用于电力负荷预测模型将大大的提高电力负荷预测的可靠度与准确性,本专利技术对历史负荷数据异常数据剔除和去噪处理的方法如图1所示。附图说明图1为本专利技术实施例中历史负荷数据异常数据剔除和去噪处理的方法的处理流程示意图。图2为本专利技术实施例中对子样本进行切割过程示意图。具体实施方式为使得本专利技术的内容、目的、特征及优点能够更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护说明书的范围。步骤一、数据预处理:对采集到的原始历史电力负荷历史数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间。步骤二、孤立森林算法剔除异常值:将经过步骤1预处理的历史电力负荷数据标注时间戳后输入孤立森林算法模型。首先对数据进行单棵树的训练:1.从训练数据中随机选择n个点作为子样本,放入一棵孤立树的根节点;2.随机指定一个维度,在当前节点数据范围内,随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值与最小值之间;3.此切割点的选取生成了一个超平面,将当前节点数据空间切分为2个子空间:把当前所选维度下小于p的点放在当前节点的左分支,把大于等于p的点放在当前节点的右分支;4.在节点的左分支和右分支节点递归步骤2、3,不断构造新的叶子节点,直到叶子节点上只有一个数据(无法再继续切割)或树已经生长到了所设定的高度。图2所示为对子样本进行切割训练的过程,左图的Xi处于密度较高的区域,因此切割了十几次才被分到了单独的子空间,而右图的Xo落在边缘分布较稀疏的区域,只经历了四次切分就被“孤立”了。在对孤立树分别进行计算后再整合全部孤立树的结果,由于切割过程是完全随机的,所以需要用集合的方法来使结果收敛,即反复从头开始切,然后计算每次切分结果的平均值。在获得t个孤立树后,单棵树的训练就结束了。接下来就可以用生成的孤立树来评估测试数据了,即计算异常分数s。对于每个样本x,需要对其综合计算每棵树的结果,通过下面的公式计算异常得分:h(x)为x在每棵树的高度,c(Ψ)为给定样本数Ψ时路径长度的平均值,用来对样本x的路径长度h(x)进行标准化处理。对计算的异常得分进行分析:如果异常得分接近1,那么一定是异常点;如果异常得分远小于0.5,那么一定不是异常点;如果异常得分所有点的得分都在0.5左右,那么样本中很可能不存在异常点。对历史负荷数据的每个数据点的异常得分进行统计,通过设定不同的阈值,收紧或放松异常值剔除条件,按预想的效果剔除异常值。被剔除的异常值按时间戳被标记并输入至下一步骤补充缺失值。步骤三、线性插值补充数据:经过剔除异常值的数据集将会在时间序列上造成缺省,即在某些时间段没有相对应的历史数据,对于这些缺省值,将使用线性插值的方法进行数据补充,以保证电力负荷历史数据在时间序列上的连贯性。具体采用的计算方法如下:式中P(t)为需要补充的时间序列上某一时刻本文档来自技高网
...

【技术保护点】
1.一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法其特征在于,包括:/n步骤一、数据预处理:对采集到的原始历史电力负荷历史数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间;/n步骤二、孤立森林算法剔除异常值:将经过步骤1预处理的历史电力负荷数据标注时间戳后输入孤立森林算法模型;/n首先对数据进行单棵树的训练:/n1)从训练数据中随机选择 n个点作为子样本,放入一棵孤立树的根节点;/n2)随机指定一个维度,在当前节点数据范围内,随机产生一个切割点 p —— 切割点产生于当前节点数据中指定维度的最大值与最小值之间;/n3)此切割点的选取生成了一个超平面,将当前节点数据空间切分为2个子空间:把当前所选维度下小于 p 的点放在当前节点的左分支,把大于等于 p 的点放在当前节点的右分支;/n4)在节点的左分支和右分支节点递归步骤 2、3,不断构造新的叶子节点,直到叶子节点上只有一个数据(无法再继续切割) 或树已经生长到了所设定的高度;/n图2所示为对子样本进行切割训练的过程,左图的Xi处于密度较高的区域,因此切割了十几次才被分到了单独的子空间,而右图的Xo落在边缘分布较稀疏的区域,只经历了四次切分就被 “孤立” 了;/n在对孤立树分别进行计算后再整合全部孤立树的结果,由于切割过程是完全随机的,所以需要用 集合的方法来使结果收敛,即反复从头开始切,然后计算每次切分结果的平均值;/n在获得 t 个孤立树后,单棵树的训练就结束了;/n接下来就可以用生成的孤立树来评估测试数据了,即计算异常分数 s;/n对于每个样本 x,需要对其综合计算每棵树的结果,通过下面的公式计算异常得分:/n...

【技术特征摘要】
1.一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法其特征在于,包括:
步骤一、数据预处理:对采集到的原始历史电力负荷历史数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间;
步骤二、孤立森林算法剔除异常值:将经过步骤1预处理的历史电力负荷数据标注时间戳后输入孤立森林算法模型;
首先对数据进行单棵树的训练:
1)从训练数据中随机选择n个点作为子样本,放入一棵孤立树的根节点;
2)随机指定一个维度,在当前节点数据范围内,随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值与最小值之间;
3)此切割点的选取生成了一个超平面,将当前节点数据空间切分为2个子空间:把当前所选维度下小于p的点放在当前节点的左分支,把大于等于p的点放在当前节点的右分支;
4)在节点的左分支和右分支节点递归步骤2、3,不断构造新的叶子节点,直到叶子节点上只有一个数据(无法再继续切割)或树已经生长到了所设定的高度;
图2所示为对子样本进行切割训练的过程,左图的Xi处于密度较高的区域,因此切割了十几次才被分到了单独的子空间,而右图的Xo落在边缘分布较稀疏的区域,只经历了四次切分就被“孤立”了;
在对孤立树分别进行计算后再整合全部孤立树的结果,由于切割过程是完全随机的,所以需要用集合的方法来使结果收敛,即反复从头开始切,然后计算每次切分结果的平均值;
在获得t个孤立树后,单棵树的训练就结束了;
接下来就可以用生成的孤立树来评估测试数据了,即计算异常分数s;
对于每个样本x,需要对其综合计算每棵树的结果,通过下面的公式计算异常得分:



h(x)为x在每棵树的高度,c(Ψ)为给定样本数Ψ时路径长度的平均值,用来对样本x的路径长...

【专利技术属性】
技术研发人员:周浩胡炳谦顾一峰韩俊
申请(专利权)人:上海积成能源科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1