一种智能电表远传电能时间序列数据的处理方法技术

技术编号:37983465 阅读:10 留言:0更新日期:2023-06-30 09:58
本发明专利技术公开了一种智能电表远传电能时间序列数据的处理方法。本发明专利技术提供针对智能电表远传并存储到数据库中时间序列的历史数据的缺失、噪声数据、重复数据等脏数据问题,进行数据前处理。通过遍历数据库记录的数据,对不同类型的“脏数据”进行相应的删除、填补、合理的修改,实现数据清洗,保证数据总体精度以及令数据具备统计意义,为后续数据分析、特征提取、用能预测、节能策略使用等提供数据基础。在能耗数据分析的流程中,本发明专利技术针对采集到数据库中的数据进行处理,克服了硬件层数据采集、通过各样网络及设备转发之间可能导致的数据遗失、重复等问题,使清洗后的数据可以直接分析利用,是大数据工程中不可或缺的一环。是大数据工程中不可或缺的一环。是大数据工程中不可或缺的一环。

【技术实现步骤摘要】
一种智能电表远传电能时间序列数据的处理方法


[0001]本专利技术涉及一种智能电表数据的数据清洗方法,属于智能电表数据处理


技术介绍

[0002]建筑节能是节能减排的重要途径。为了推进建筑节能工作,加强节能监管,我国正逐步建立完善的能耗数据库与合理的基准评价体系和方法,利用能耗监测管理系统,完成建筑能耗数据的采集、分析及转发,为节能减排效果的评价提供详实的数据依据。
[0003]目前我国对于建筑能耗监测系统的监测内容一般要求按照能源种类划分,一般包括水、电、气、集中供热、集中供冷及其他可再生能源等。耗水量是记录建筑的用水总量,燃气消耗主要是厨房餐厅及热源用气,电耗可分为照明插座用电、空调用电、动力用电及特殊用电等。在建筑建造阶段,即对建筑分析能耗的划分要求设计计量表的安装位置,建筑能耗的分项计量与建筑日常使用行为密不可分。电表的精确计量不仅可以反馈建筑平时的用能水平,更是关乎社会和电网的利益,在电网系统中扮演极其重要的角色。但目前业内采集到的建筑用电能耗数据中,几乎每个建筑的用电能耗数据都存在噪声数据、空数据、破坏性数据和重复数据。如将这些数据未经处理就直接导入数据分析系统中使用,非但较为复杂的神经网络、机器学习算法会输出错误的结果,就连基本的描述性统计分析、同环比分析等也失去意义。因此在数据进入计算流程之前应经过彻底的清洗,提升整体的数据质量。
[0004]用电数据的“脏数据”,一般会出现四种情况:1.数据缺失;2.出现远超电表量程的破坏性数据;3.由于系统波动产生的噪声数据;4.数据库记录的重复数据。可见,电表“脏数据”表现出了一定的特征性。

技术实现思路

[0005]本专利技术的目的是:针对脏数据问题,进行数据前处理。
[0006]为了达到上述目的,本专利技术的技术方案是提供了一种智能电表远传电能时间序列数据的处理方法,其特征在于,包括以下步骤:
[0007]步骤一:将数据库中的历史电能数据去重,确保数据库中记录的时间序列型数据唯一;
[0008]步骤二:根据电能数据的采集频率及采集周期,构建空的时间序列,将上一步获得的历史电能数据填入相应的时间序列中,从而标记原始电能时间序列数据的缺失值;
[0009]步骤二用于构建空时间序列,因为电表数据的采集往往是收集到一条数据,标记时刻后直接存放至数据库中,并不能自动标记出哪些是空值,而步骤二就是主动设定步长,标记出未记录的空值;
[0010]步骤三:计算数据完整程度,用缺失值占总数据的百分比来表示数据完整程度;若空数据占总数据的百分比大于预先设定的阈值,则将上一步获得的数据视为无价值数据,待电表继续收集数据,在数据库中有新的历史数据后,重新返回步骤一,避免因填充过多数
据影响整体精准度;否则,进入下一步骤;
[0011]步骤三用于数据完整性检查,一般认为缺失值多于预先设定的阈值的数据不再有统计价值;
[0012]步骤四:处理电能时间序列中因电表所在支路断电后通电记录的电能异常大值,即断电再通电时明显超过电表量程或支路最大负载的值(这种用电数据的特征是在时间序列上突然出现一个极大的异常值,而下一个值恢复到日常的用电量水平),采用正常值替换异常值;
[0013]步骤四是处理数据的异常大值,这些异常值可能是因直流电机的启动电流较大,或电表记录的瞬时电能较高而累计出较大的异常值,甚至某些电表一天的用电量超过107KWh,明显不符合常理,因此需修改错误数据;
[0014]步骤五:处理电能时间序列的偶发性缺失值(前后时间都有数据情况):因用电设备及行为往往较长周期才有较大变化,用前后一个时间段的均值填补缺失值;
[0015]步骤五是补充偶发性缺失值,如果没有此步骤,无法执行步骤六的噪声处理;
[0016]步骤六:标记电能时间序列中的噪声值,这种噪声值是由于电表突然断电,再突然启动导致出现前一个时间点电能为极小值,下一个时间点电能极大值的特征噪声数据,采用替换方式处理;
[0017]步骤七:利用线性插值处理电能时间序列的连续空值;
[0018]步骤八:将处理后的电能时间序列利用描述性统计分析检查是否还有异常数据,校验后,进行后续统计分析或建模。
[0019]优选地,步骤四中,处理电能时间序列中因电表所在支路断电后通电记录的电能异常大值的具体方法是:
[0020]判断异常大值的前一个时间段电量数据是否为空值,如为空值且异常大值大于后一个有效用电量数值的2倍,则用后一个数据替换异常值;
[0021]再处理后一个数据为空数据情况:遍历时间序列数据,如果某一个时刻的数据满足其前后一个时刻都为空值,但该时刻数据大于0.75分位数2倍的,用当前所有数据的均值替换该数据。
[0022]优选地,步骤六中,所述采用替换方式处理包括:
[0023]选取连续4个时间序列的电能数据,依次为V1、V2、V3、V4:
[0024]若满足则
[0025]若满足则令V3=4。
[0026]优选地,步骤七中,采用线性插值处理缺失值,即设函数y=f(x)在两点x0、x1上的值分别为y0、y1,则构建一次多项式插值
[0027][0028]利用一次多项式插值计算出电量数据中缺失的数值,以此填充时间序列数据中的缺失数据。
[0029]本专利技术提供针对智能电表远传并存储到数据库中时间序列的历史数据的缺失、噪声数据、重复数据等脏数据问题,进行数据前处理。通过遍历数据库记录的数据,对不同类型的“脏数据”进行相应的删除、填补、合理的修改,实现数据清洗,保证数据总体精度以及令数据具备统计意义,为后续数据分析、特征提取、用能预测、节能策略使用等提供数据基础。在能耗数据分析的流程中,本专利技术针对采集到数据库中的数据进行处理,规避了硬件层数据采集、通过各样网络及设备转发之间可能导致的数据遗失、重复等问题,使清洗后的数据可以直接分析利用,是大数据工程中不可或缺的一环。
[0030]与于2016年10月12日公开的、申请公开号为CN106022640A的专利技术专利相比,本专利技术无需额外采集其他系统内的电量信息,对采集数据进行“校正”,而是通过数据的清洗、合理替换等方法直接对数据缺失、异常、噪声进行处理。一方面减少额外采集其他系统带来的工作量增加,另一方面避免因其他系统数据不准确反而导致校验错误的问题。与于2020年10月27日公开的、申请公开号为CN111833589A的专利技术专利相比,本专利技术无需额外采集关口表计的校验数据,也无需占用已有的网络资源。本专利技术无需再远程或人工获取电表校验数据,节约了校验对比的工作量。与于2020年8月18日公开的,申请公开号为CN111552685A的专利技术专利相比,本专利技术充分地考虑了数据缺失、错误、异常的种类,同时根据电路的物理特性及可能发生的事件定义了异常值和噪声值的认定规则,并按照特定的处理顺序完成数据的清洗。提高了数据的完整度和质量,且用于填充及替换的数据本身具有一定的物理意义,从而保证了相对准确度,为后续的统计分析及建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能电表远传电能时间序列数据的处理方法,其特征在于,包括以下步骤:步骤一:将数据库中的历史电能数据去重,确保数据库中记录的时间序列型数据唯一;步骤二:根据电能数据的采集频率及采集周期,构建空的时间序列,将上一步获得的历史电能数据填入相应的时间序列中,从而标记原始电能时间序列数据的缺失值;步骤三:计算数据完整程度,用缺失值占总数据的百分比来表示数据完整程度;若空数据占总数据的百分比大于预先设定的阈值,则将上一步获得的数据视为无价值数据,待电表继续收集数据,在数据库中有新的历史数据后,重新返回步骤一;否则,进入下一步骤;步骤四:处理电能时间序列中因电表所在支路断电后通电记录的电能异常大值,即断电再通电时明显超过电表量程或支路最大负载的值,采用正常值替换异常值;步骤五:处理电能时间序列的偶发性缺失值:因用电设备及行为往往较长周期才有较大变化,用前后一个时间段的均值填补缺失值;步骤六:标记电能时间序列中的噪声值,这种噪声值是由于电表突然断电,再突然启动导致出现前一个时间点电能为极小值,下一个时间点电能极大值的特征噪声数据,采用替换方式处理;步骤七:利用线性插值处理电能时间序列的连续空值;步骤八:将处理后的电能时间...

【专利技术属性】
技术研发人员:徐得天张少迪胡桐月奚培锋周品品
申请(专利权)人:上海电器科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1