一种计量数据恢复方法及系统技术方案

技术编号:25521322 阅读:36 留言:0更新日期:2020-09-04 17:11
本发明专利技术涉及一种计量数据恢复方法及系统,本发明专利技术使用矩阵正则化可以避免过拟合的问题,提高具有稀疏矩阵的概率矩阵分解方法的性能。并在数据恢复过程中考虑异常数据对恢复效果的影响,采用孤立森林算法检测异常数据并剔除,可以实现异常数据快速挖掘,提高恢复缺失计量数据的准确性。

【技术实现步骤摘要】
一种计量数据恢复方法及系统
本专利技术属于数据恢复领域,尤其是一种计量数据恢复方法及系统。
技术介绍
随着泛在电力物联网建设的推进,智能电表及多种能源计量的部署,电量数据的获取效率与质量得到了极大的提升,但数据的记录误差与随机丢失仍然不可避免,而设备损坏、线路停电检修、大型节庆活动,甚至用户窃电等特殊情况也会引起异常的峰谷波动。这些数据误差与异常必将覆盖用电曲线的真实走向趋势,使后续用电管理与负载预测出现重大偏差,导致电力规划和运行维护成本的提高,直接影响到供电系统的自动化调度运行。因此,高效、精确地修补现有用电数据中的误差与缺失,检测异常用电情况已成为电力部门信息化进程中的关键研究课题,具有重要的现实意义。用电数据恢复的最简单方法是均值替换,它会推算所有非缺失值的平均值以替换缺失值。但是,均值替换不能保留变量之间的关系,因此在大多数情况下不能提供正确的估计值。通常,概率矩阵分解(probabilisticmatrixfactorization,PMF)用于将单个矩阵分解为两个矩阵的乘积。PMF在电力系统中的应用有两个主要优势。首先,由于分解后所得矩阵的维数较低,因此PMF允许减少大数据数组的存储值总数。另外,由于PMF具有通过计算两个矩阵的乘积来获取原始矩阵的属性,因此也可以使用此属性来恢复原始矩阵中的缺失值。将PMF方法应用于丢失的数据恢复问题时,仍然存在一些挑战。首先,复杂度随着矩阵大小的增加而呈指数增长。其次,当算法试图使导致通用性丧失的错误最小化时,可能会出现过度拟合问题。同时,异常数据会降低数据恢复精度。
技术实现思路
本专利技术的目的在于克服现有技术的不足,解决电力系统中计量数据的异常检测与缺失数据修复问题,提供一种计量数据恢复方法及系统。本专利技术解决其技术问题是采取以下技术方案实现的:一种计量数据恢复方法,包括以下步骤:步骤一,采集需要进行处理的计量数据;步骤二,对采集的计量数据进行归一化处理,得到归一化矩阵;步骤三,利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型;步骤四,利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据;步骤五,剔除由孤立森林模型检测出的异常数据,形成计量数据集;步骤六,利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵;步骤七,利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵;步骤八,将最佳修复矩阵进行反归一化,得到修复后的计量数据。而且,所述的计量数据从智能电表及等电量计量终端中采集。而且,所述需要进行处理的计量数据包括下述中的至少一种:台区信息、用户ID、用电时间及用电功率。而且,所述对采集的计量数据进行归一化处理,得到归一化矩阵采用如下公式:其中,元素xij,norm为归一化后的值,取值范围在[0,1]之间;元素xij表示第j个台区或用户在第i时刻的用电量,xij,min是矩阵X中元素的最小值,xij,max是矩阵X中元素的最大值。而且,所述利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型的方法为:步骤1,从归一化矩阵Xnorm中均匀选取ψ条计量数据,作为iTree的样本;步骤2,从iTree的样本中选取一个负荷特征量,并在该负荷特征量的取值范围内确定特征值k;步骤3,对iTree的样本进行二叉划分,将样本中小于特征值k的数据放在左边,把大于等于特征值k的数据放在右边,递归执行此过程,直至数据不可再分或树的深度达到log2ψ;步骤4,通过步骤1-3可生成多个iTree,将其组合为孤立森林模型。而且,所述的负荷特征量包括下述中的至少一种:峰谷差、最高利用小时数、峰值负荷。而且,所述的计算计量数据的异常分数,判断数据是否为异常数据的方法为:将数据遍历每个iTree,计算其在每个iTree的深度和平均深度,按照下式计算计量数据的异常分数,其中,h(xij,norm)是被计量数据xij,norm在iTree中检索到的深度,E(h(xij,norm))是平均深度,H(ψ)=ln(ψ)+ζ,ζ为欧拉常数,s(xij,norm)越接近1表示其为异常数据的可能性越大。而且,所述利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵的方法包括:所述定义待修复数据矩阵的方法为:将剔除异常数据的计量数据集表示为N×M阶待修复矩阵R,如式下式所示:所述定义修复矩阵的方法为:生成K×N阶随机矩阵U和K×M阶随机矩阵V,使得修复矩阵R′,如式下式所示:其中,K表示U和V中的潜在特征列向量的数量;所述定义描述丢失数据点位的矩阵I,其维度与R相同,其中,I中的元素值Iij如式下式所示:所述定义随机矩阵中潜在特征向量的数据分布方法为:令U和V的每一列都是具有均值μ=0的多元高斯且方差是单位矩阵I的倍数,对于U的倍数是σU,对于V的倍数是σV,如下式所示:定义计量数据的条件分布,基于上两式中的先验分布,将计量数据的条件分布定义如下式所示:计算随机矩阵的后验概率,矩阵U和V独立,根据贝叶斯公式计算U和V的后验概率,可得下式:将及代入上式,并在等式两边取对数可得下式:其中,C是一个独立的常数;通过最大化上式中的对数后验,获得最佳修复矩阵R′。而且,所述利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵的方法为:包括在目标函数中引入正则项参数;采用最速下降法求解引入正则项参数的目标函数,得到修复矩阵;设定收敛判据以及更新得到的修复矩阵,直至满足收敛判据;所述在目标函数中引入正则项参数的方法为:建立计量数据恢复优化模型:其中,正则化项的参数λU和λV用于控制更新矩阵U和V的幅度,||U||和||V||为矩阵元素绝对平方和的平方根,所述采用最速下降法求解引入正则项参数的目标函数,得到修复矩阵的方法为:固定方差参数并利用下式更新随机矩阵U和V,且R′=UT·V,其中α定义了U和V中的元素需要调整的步长,重复执行本步骤,直到满足下式;所述的设定收敛判据的方法为:将计量数据恢复优化模型中计算的RMSE值与最大可接受误差RMSEmax进行比较,RMSE≤RMSEmax如果满足上式,则获得最佳修复矩阵;否则,将继续执行步骤七继续更新修复矩阵。本专利技术的优点和积极效果是:1、本专利技术使用矩阵正则化可以避免过拟合的问题,提高具有稀疏矩阵的概率矩阵分解方法的性能。并在数据恢复过程中考虑异常数据对恢复效果的影响,采用孤立森林算法检测异常数据并剔除,可以实现异常数据快速挖掘,本文档来自技高网
...

【技术保护点】
1.一种计量数据恢复方法,其特征在于:包括以下步骤:/n步骤一,采集需要进行处理的计量数据;/n步骤二,对采集的计量数据进行归一化处理,得到归一化矩阵;/n步骤三,利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型;/n步骤四,利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据;/n步骤五,剔除由孤立森林模型检测出的异常数据,形成计量数据集;/n步骤六,利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵;/n步骤七,利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵;/n步骤八,将最佳修复矩阵进行反归一化,得到修复后的计量数据。/n

【技术特征摘要】
1.一种计量数据恢复方法,其特征在于:包括以下步骤:
步骤一,采集需要进行处理的计量数据;
步骤二,对采集的计量数据进行归一化处理,得到归一化矩阵;
步骤三,利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型;
步骤四,利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据;
步骤五,剔除由孤立森林模型检测出的异常数据,形成计量数据集;
步骤六,利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵;
步骤七,利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵;
步骤八,将最佳修复矩阵进行反归一化,得到修复后的计量数据。


2.根据权利要求1所述的一种计量数据恢复方法,其特征在于:所述对采集的计量数据进行归一化处理,得到归一化矩阵,采用如下公式:



其中,元素xij,norm为归一化后的值,取值范围在[0,1]之间;元素xij表示第j个台区或用户在第i时刻的用电量,xij,min是矩阵X中元素的最小值,xij,max是矩阵X中元素的最大值。


3.根据权利要求2所述的一种计量数据恢复方法,其特征在于:所述利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型的方法为:
步骤1,从归一化矩阵Xnorm中均匀选取ψ条计量数据,作为iTree的样本;
步骤2,从iTree的样本中选取一个负荷特征量,并在该负荷特征量的取值范围内确定特征值k;
步骤3,对iTree的样本进行二叉划分,将样本中小于特征值k的数据放在左边,把大于等于特征值k的数据放在右边,递归执行此过程,直至数据不可再分或树的深度达到log2ψ;
步骤4,通过步骤1-3可生成多个iTree,将其组合为孤立森林模型。


4.根据权利要求3所述的一种计量数据恢复方法,其特征在于:所述利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据的方法为:
将数据遍历每个iTree,计算其在每个iTree的深度和平均深度,按照下式计算计量数据的异常分数,






其中,h(xij,norm)是被计量数据xij,norm在iTree中检索到的深度,E(h(xij,norm))是平均深度,H(ψ)=ln(ψ)+ζ,ζ为欧拉常数,s(xij,norm)越接近1表示其为异常数据的可能性越大。


5.根据权利要求4所述的一种计量数据恢复方法,其特征在于:所述利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵的方法包括:
所述定义待修复数据矩阵的方法为:将剔除异常数据的计量数据集表示为N×M阶待修复矩阵R,如式下式所示:



所述定义修复矩阵的方法为:生成K×N阶随机矩阵U和K×M阶随机矩阵V,使得修复矩阵R′,如式下式所示:



其中,K表示U和V中的潜在特征列向量的数量;
所述定义描述丢失数据点位的矩阵I,其维度与R相同,



其中,I中的元素值Iij如下式所示:



所述定义随机矩阵中潜在特征向量的数据分布方法为:令U和V的每一列都是具有均值μ=0的多元高斯且方差是单位矩阵I的倍数,对于U的倍数是σU,对于V的倍数是σV,如下式所示:






定义计量数据的条件分布,基于上两式中的先验分布,将计量数据的条件分布定义如下式所示:





6.根据权利要求5所述的一种计量数据恢复方法,其特征在于:所述利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵的方法为:包括在目标函数中引入正则项参数...

【专利技术属性】
技术研发人员:赵紫敬李刚肖杰何泽昊杨光李野季浩马玉莹孔祥玉董得龙窦健顾强郄爽孙虹卢静雅李静刘浩宇张兆杰乔亚男翟术然许迪吕伟嘉
申请(专利权)人:国网天津市电力公司电力科学研究院国网天津市电力公司中国电力科学研究院有限公司国家电网有限公司天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1