一种计量数据恢复方法及系统技术方案

技术编号：25521322 阅读：36 留言：0更新日期：2020-09-04 17:11

本发明专利技术涉及一种计量数据恢复方法及系统，本发明专利技术使用矩阵正则化可以避免过拟合的问题，提高具有稀疏矩阵的概率矩阵分解方法的性能。并在数据恢复过程中考虑异常数据对恢复效果的影响，采用孤立森林算法检测异常数据并剔除，可以实现异常数据快速挖掘，提高恢复缺失计量数据的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种计量数据恢复方法及系统
本专利技术属于数据恢复领域，尤其是一种计量数据恢复方法及系统。
技术介绍
随着泛在电力物联网建设的推进，智能电表及多种能源计量的部署，电量数据的获取效率与质量得到了极大的提升，但数据的记录误差与随机丢失仍然不可避免，而设备损坏、线路停电检修、大型节庆活动，甚至用户窃电等特殊情况也会引起异常的峰谷波动。这些数据误差与异常必将覆盖用电曲线的真实走向趋势，使后续用电管理与负载预测出现重大偏差，导致电力规划和运行维护成本的提高，直接影响到供电系统的自动化调度运行。因此，高效、精确地修补现有用电数据中的误差与缺失，检测异常用电情况已成为电力部门信息化进程中的关键研究课题，具有重要的现实意义。用电数据恢复的最简单方法是均值替换，它会推算所有非缺失值的平均值以替换缺失值。但是，均值替换不能保留变量之间的关系，因此在大多数情况下不能提供正确的估计值。通常，概率矩阵分解(probabilisticmatrixfactorization,PMF)用于将单个矩阵分解为两个矩阵的乘积。PMF在电力系统中的应用有两个主要优势。首先，由于分解后所得矩阵的维数较低，因此PMF允许减少大数据数组的存储值总数。另外，由于PMF具有通过计算两个矩阵的乘积来获取原始矩阵的属性，因此也可以使用此属性来恢复原始矩阵中的缺失值。将PMF方法应用于丢失的数据恢复问题时，仍然存在一些挑战。首先，复杂度随着矩阵大小的增加而呈指数增长。其次，当算法试图使导致通用性丧失的错误最小化时，可能会出现过度拟合问题。同时，异常数据会降低数据恢...

【技术保护点】
1.一种计量数据恢复方法，其特征在于：包括以下步骤：/n步骤一，采集需要进行处理的计量数据；/n步骤二，对采集的计量数据进行归一化处理，得到归一化矩阵；/n步骤三，利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型；/n步骤四，利用建立的孤立森林模型计算计量数据的异常分数，判断数据是否为异常数据；/n步骤五，剔除由孤立森林模型检测出的异常数据，形成计量数据集；/n步骤六，利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵；/n步骤七，利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵；/n步骤八，将最佳修复矩阵进行反归一化，得到修复后的计量数据。/n

【技术特征摘要】
1.一种计量数据恢复方法，其特征在于：包括以下步骤：
步骤一，采集需要进行处理的计量数据；
步骤二，对采集的计量数据进行归一化处理，得到归一化矩阵；
步骤三，利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型；
步骤四，利用建立的孤立森林模型计算计量数据的异常分数，判断数据是否为异常数据；
步骤五，剔除由孤立森林模型检测出的异常数据，形成计量数据集；
步骤六，利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵；
步骤七，利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵；
步骤八，将最佳修复矩阵进行反归一化，得到修复后的计量数据。

2.根据权利要求1所述的一种计量数据恢复方法，其特征在于：所述对采集的计量数据进行归一化处理，得到归一化矩阵，采用如下公式：

其中，元素xij,norm为归一化后的值，取值范围在[0,1]之间；元素xij表示第j个台区或用户在第i时刻的用电量，xij,min是矩阵X中元素的最小值，xij,max是矩阵X中元素的最大值。

3.根据权利要求2所述的一种计量数据恢复方法，其特征在于：所述利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型的方法为：
步骤1，从归一化矩阵Xnorm中均匀选取ψ条计量数据，作为iTree的样本；
步骤2，从iTree的样本中选取一个负荷特征量，并在该负荷特征量的取值范围内确定特征值k；
步骤3，对iTree的样本进行二叉划分，将样本中小于特征值k的数据放在左边，把大于等于特征值k的数据放在右边，递归执行此过程，直至数据不可再分或树的深度达到log2ψ；
步骤4，通过步骤1-3可生成多个iTree，将其组合为孤立森林模型。

4.根据权利要求3所述的一种计量数据恢复方法，其特征在于：所述利用建立的孤立森林模型计算计量数据的异常分数，判断数据是否为异常数据的方法为：
将数据遍历每个iTree，计算其在每个iTree的深度和平均深度，按照下式计算计量数据的异常分数，

其中，h(xij,norm)是被计量数据xij,norm在iTree中检索到的深度，E(h(xij,norm))是平均深度，H(ψ)＝ln(ψ)+ζ，ζ为欧拉常数，s(xij,norm)越接近1表示其为异常数据的可能性越大。

5.根据权利要求4所述的一种计量数据恢复方法，其特征在于：所述利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵的方法包括：
所述定义待修复数据矩阵的方法为：将剔除异常数据的计量数据集表示为N×M阶待修复矩阵R，如式下式所示：

所述定义修复矩阵的方法为：生成K×N阶随机矩阵U和K×M阶随机矩阵V，使得修复矩阵R′，如式下式所示：

其中，K表示U和V中的潜在特征列向量的数量；
所述定义描述丢失数据点位的矩阵I，其维度与R相同，

其中，I中的元素值Iij如下式所示：

所述定义随机矩阵中潜在特征向量的数据分布方法为：令U和V的每一列都是具有均值μ＝0的多元高斯且方差是单位矩阵I的倍数，对于U的倍数是σU，对于V的倍数是σV，如下式所示：

定义计量数据的条件分布，基于上两式中的先验分布，将计量数据的条件分布定义如下式所示：

6.根据权利要求5所述的一种计量数据恢复方法，其特征在于：所述利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵的方法为：包括在目标函数中引入正则项参数...

【专利技术属性】
技术研发人员：赵紫敬，李刚，肖杰，何泽昊，杨光，李野，季浩，马玉莹，孔祥玉，董得龙，窦健，顾强，郄爽，孙虹，卢静雅，李静，刘浩宇，张兆杰，乔亚男，翟术然，许迪，吕伟嘉，
申请(专利权)人：国网天津市电力公司电力科学研究院，国网天津市电力公司，中国电力科学研究院有限公司，国家电网有限公司，天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人