对资源消耗量进行预测的数据处理方法技术

技术编号:13504694 阅读:122 留言:0更新日期:2016-08-10 04:51
本发明专利技术公开一种对资源消耗量进行预测的数据处理方法,该方法对海量资源消耗历史数据进行特征提取和感知分析,挖掘用户对资源消耗的发展规律和特点,针对特征感知结果进行相应的数据处理,选择合适的算法和模型,综合搭建资源消耗数据处理的预测模型。本发明专利技术有效地为资源管理部门提供必须的资源消耗预测数据,实际提升了资源消耗预测的精准度,为资源管理部门的数据分析打下基础。

【技术实现步骤摘要】

本专利技术涉及电子信息及数据处理
,具体涉及一种对资源消耗量进行预测 的数据处理方法。
技术介绍
电力、水资源、天然气等资源的配置关系到国计民生,进行资源消耗量的预测,对 于社会生产经营及人们日常生活有着重要的指导意义,以下以用电量为例进行说明: 电力财务管控系统中汇集了电力营销、生产、调度等信息系统所产生的海量信息 数据。例如某省3000万用户用电数据,从营销同步过来达到16GB左右,在财务管控系统中, 需要按照行业、用电类别等多维度统计及存储约35GB,累计十年就达到42TB。对如此海量的 数据信息进行分析处理,从中获取有用信息,挖掘潜在的价值,是电力行业对用电数据管控 工作所面临的挑战和机遇。 月用电量数据作为一种基础指标数据,其预测工作涉及到财务管控的账务、报表、 资金管理、预算管理等多个业务领域。月用电量预测性,将直接影响到预算等管理在电力业 务中引导作用的发挥。在实际应用中,通常会遇到两个主要问题: 第一、用电结构不稳定。月用电量在财务管理中应用时,会需要根据不同的业务区 域、用电行业、以及电价等级来分别考虑。财务管控系统中,实际操作中电价处会参考历史 同期用电结构人为硬性分摊到各用户类别,由于不同用户类别售电单价存在差异较大,而 按此方法分摊势必会影响到各类售电收入预测以及售电收入总额预测的准确性,尤其是当 售电结构不稳定时,这种预测方法对售电收入的影响和误差将会继续扩大。其准确不高将 会影响到年度、月度损益预算以及先进流预算的准确性,进而影响整个电力融资预算的准 确性; 第二、用电量预测通常需要和业务决策目标相互关联。在财务管控系统中的用于 决策的月用电量预测,较多的办法是通过月用电统计数据,结合采用回归分析、趋势分析等 直接定量预测的方法,并辅之以经验判断验证,直接针对决策目标进行预测。这种方法基于 粗粒度的统计口径,利用某一时间序列基本方法来推断月用电量整体发展趋势,势必丢失 了很多用户的用电特征的感知,使得用电业务和业务决策分离,也实际需求偏差较大。
技术实现思路
本专利技术旨在提供一种,该方法对海量历史 数据进行特征提取和感知分析,挖掘用户对资源消耗的发展规律和特点,针对特征感知结 果进行相应的数据处理,选择合适的算法和模型,综合搭建资源消耗量数据处理的预测模 型。 为了实现上述目的,本专利技术采取如下的技术方案: -种,其特征在于,包括如下步骤: (1)从数据库中抽取以用户为单位连续时段的资源消耗量基础数据,将资源消耗 量基础数据导入大数据平台的文件系统,得到基础分析数据; (2)读取所述基础分析数据,统计数据不完整和资源消耗为0的时间序列分布; (3)对步骤(2)输出序列进行数据特征的感知,包括:判断序列是否具有周期特征、 记录序列波动中的奇异点位置、检验序列是否稳定; (4)基于步骤(3)特征感知的结果,做如下处理:针对序列波动中的奇异点进行平 滑处理;对检验不稳定的序列进行差分处理,每差分一次,再次检验序列是否稳定,如果不 合要求,再进行差分,找到差分稳定序列类型或者差分不超过d次; (5)根据步骤(4)输出结果,选择合适的预测算法模型进行预测;具体操作如下: (5-1)具有周期且波动较小的特征序列,使用AR頂A算法模型进行预测; (5-2)具有周期性但数据不稳定的特征序列,使用HoltWinters指数平滑算法模型 进行预测; (5-3)周期性不明确,且数据不稳定的特征序列,使用灰色算法模型进行预测。 作为具体的技术方案:所述步骤(2)中,读取所述基础分析数据,统计数据不完整 和资源消耗为〇的时间序列分布,具体方法包括: (2-1)以大比例空值结尾的时间序列,做销户序列,该类序列直接删除; (2-2)以大比例空值开始的时间序列,做新增用户序列,该类序列直接加和; (2-3)间隔出现少量空值的时间序列,空值前,连续拥有大于等于5个数时,采用GM 算法预测填充空值; (2-4)间隔出现少量空值的时间序列,空值前,连续数值小于5时,采用平移办法填 充空值。 作为具体的技术方案:所述步骤(3)中判断序列是否具有周期特征的方法为:使用 傅里叶变换获得数据的周期特征,调用R语言中的傅里叶变换函数,获得频域数据结果,得 到极大值点的位置e,该序列的周期为f= |n/(e-l) |,式中η为该序列长度;当f结果为1时, 该序列无周期特征。 作为具体的技术方案:所述步骤(3)中记录序列波动中的奇异点位置的方法为:根 据公式:V = SD/E,V为变异系数、SD为标准差、E为均值,计算该序列的变异系数,并存储结 果;判断序列值di/E>=m或者di/E〈 = l/m,m为设定常数,记录序列中的奇异点位置i。 作为具体的技术方案:所述步骤(3)中检验序列是否稳定的方法为:调用R语言中 的单位根检验函数adf. test 〇计算获得序列的p值,如果p〈0.01认为该序列稳定。 作为具体的技术方案:所述步骤(4)中,采用滤波算法进行奇异点的平滑处理,滤 波算法为用整体序列的均值或者异常点前后3个正常值的均值进行替换,dk为奇异点,dk = (dk_2+dk_l+dk+l )/3,dk_2、dk_l、dk+l 为 dk 的二个相邻值。 作为具体的技术方案:所述步骤(4)中,采用R语言中的diff()函数对检验不稳定 的序列进行差分处理。 作为具体的技术方案:所述步骤(5-1)具体为:将满足要求的序列数据分别放入R 语言中的自相关函数acf()和片自相关函数pacf()中,根据规则训练出参数p和q,在根据稳 定性检验的差分次数d,将参数放入函数arima(q,d,p)中,进行计算获得预测结果。作为具体的技术方案:所述步骤(5-2)具体为:将满足要求的序列数据放入R语言 中的指数平滑函数Ho 1 tWi nt er s (data,be ta = FALSE,gamma = TRUE)中进行计算获得预测结 果。 作为具体的技术方案:所述步骤(5-3)具体为:将满足要求的序列数据放入R语言 中的灰色预测函数GM(data)中进行计算获得预测结果。 作为进一步的技术方案:所述还包括步骤 (6) :对所述步骤(5)的预测结果,综合外部影响属性进行预测结果的修正,并评估预测结 果。 作为进一步的技术方案:所述还包括步骤 (7) :根据所述步骤(6)修正后的预测数据和真实资源消耗数据计算残差。 作为具体的技术方案:所述外部影响属性包括:节假日基数、温度基数、资源消耗 相关业务基数。 本专利技术实现了在海量用户的资源消耗量数据基础上,基于资源消耗量特征感知的 资源消耗量预测方法,有效地为资源管理部门提供必须的资源消耗量预测数据,实际提升 了资源消耗量预测的精准度,为资源管理部门的数据分析业务打下基础。【附图说明】 图1为本专利技术提供的的流程图。【具体实施方式】下面以用电量为例,结合附图和【具体实施方式】详细说明本专利技术。 如图1所示,本实施例提供的对用电量进行预测的数据处理方法包括以下步骤: -、基础用户数据的收集和统计,并导入大数据平台。根据给定的汇总统计语法,从某网省数据库中获得一个区域所有用户,从2013年1 月到2014年8月的每月用电量数据,总计有效用户数据为402520条。将此本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105678414.html" title="对资源消耗量进行预测的数据处理方法原文来自X技术">对资源消耗量进行预测的数据处理方法</a>

【技术保护点】
一种对资源消耗量进行预测的数据处理方法,其特征在于,包括如下步骤:(1)从数据库中抽取以用户为单位连续时段的资源消耗量基础数据,将资源消耗量基础数据导入大数据平台的文件系统,得到基础分析数据;(2)读取所述基础分析数据,统计数据不完整和资源消耗为0的时间序列分布;(3)对步骤(2)输出序列进行数据特征的感知,包括:判断序列是否具有周期特征、记录序列波动中的奇异点位置、检验序列是否稳定;(4)基于步骤(3)特征感知的结果,做如下处理:针对序列波动中的奇异点进行平滑处理;对检验不稳定的序列进行差分处理,每差分一次,再次检验序列是否稳定,如果不合要求,再进行差分,找到差分稳定序列类型或者差分不超过d次;(5)根据步骤(4)输出结果,选择合适的预测算法模型进行预测;具体操作如下:(5‑1)具有周期且波动较小的特征序列,使用ARIMA算法模型进行预测;(5‑2)具有周期性但数据不稳定的特征序列,使用HoltWinters指数平滑算法模型进行预测;(5‑3)周期性不明确,且数据不稳定的特征序列,使用灰色算法模型进行预测。

【技术特征摘要】

【专利技术属性】
技术研发人员:唐静向万红宁立
申请(专利权)人:远光软件股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1