电能表检定数据上链数据规划方法技术

技术编号：39567206 阅读：11 留言：0更新日期：2023-12-03 19:18

本发明专利技术属于电能表检定数据上链数据规划技术领域，具体涉及电能表检定数据上链数据规划方法

全部详细技术资料下载

【技术实现步骤摘要】
电能表检定数据上链数据规划方法、装置和存储介质

[0001]本专利技术属于电能表检定数据上链数据规划
，具体涉及电能表检定数据上链数据规划方法
、
装置和存储介质
。

技术介绍

[0002]区块链是分布式数据存储
、
点对点传输
、
共识机制
、
加密算法等计算机技术的新型应用模式，所谓共识机制是区块链系统中实现不同节点之间建立信任
、
获取权益的数学算法；区块链是比特币等数字虚拟货币的底层技术，通过去中心化的数据记录，由全网所有的节点共同维护数据，实现安全地存储数据，具有不可伪造性
、
不可篡改性
、
可追溯性
、
匿名性等特点；区块链的去中心化技术方案是以区块为基本单位来管理和存储数据，区块由两个部分的数据结构组成，分别为区块头部和梅克尔树结构；区块的头部包括矿工可以修改的临时随机数
、
前序区块的哈希值
、
时间戳
、
挖矿难度
、
交易树的树根等数据；区块的另一部分是梅克尔树，用来存储有效交易，当包含交易数据信息的区块有序链接时，就形成了区块链；随着中国互联网基础设施加快建设和产业变革的加速，区块链技术已经被广泛深入到了金融
、
教育
、
交通
、
房产
、
娱乐
、
医疗等方方面面，以提供区块链场景应用服务为主的企业也如雨后春

【技术保护点】

【技术特征摘要】
1.
电能表检定数据上链数据规划方法，其特征在于，包括：在上链前对电能表检定数据进行数据清洗；在上链前对清洗后的电能表检定数据进行数据降维；在上链前对降维后的电能表检定数据进行数据融合
。2.
如权利要求1所述的电能表检定数据上链数据规划方法，其特征在于，在上链前对电能表检定数据进行数据清洗包括：按照一定的规则将电能表检定数据中的脏数据过滤，并确认过滤掉还是由业务单位进行修正；其中所述脏数据包括有残缺数据
、
错误数据和重复数据；残缺数据：是需要的信息缺失，要求在规定的时间内补全，补全后才写入数据仓库；错误数据：是业务系统不够健全，在接收输入后没有进行判断直接写入后台数据库造成的，需要业务系统数据库用
SQL
的方式挑出来，修正之后再抽取；重复数据：是重复记录的数据，对于重复数据，需要将重复数据记录的所有字段导出来，确认整理并去除重复数据
。3.
如权利要求2所述的电能表检定数据上链数据规划方法，其特征在于，所述按照一定的规则将电能表检定数据中的脏数据过滤包括：基于电能表检定数据内容，按照检定数据规则，筛选出不符合预期的残缺数据
、
错误数据和重复数据；通过配置检定数据采集装置的可编程功能节点，过滤不符合要求数据，将过滤的结果汇总管理，确认是否过滤掉还是由数据业务来源方修正之后再进行抽取；数据清洗包括重复记录清洗和噪声数据消除两部分；
(1)
重复记录清洗比较记录的各对应属性，计算其相似度，再根据属性的权重，进行加权平均后得到记录的相似度，如果两记录相似度超过了某一阈值，则认为两条记录是匹配的，否则，认为是指向不同实体的记录；采用基本近邻排序算法对重复数据进行检测，包括：通过抽取数据集中相关属性的值为每个实例生成一个关键字；按上步生成的关键字为数据集中的数据排序；使潜在的重复记录调整到一个邻近的区域内，对于特定的记录将进行记录匹配的对象限制在一定的范围之内；在已排序的数据集上依次移动一个固定大小的窗口，数据集中每条记录仅与窗口内的记录进行比较；如果窗口的大小是包含
m
个记录，则每条新进入窗口的记录都要与先前进入窗口的
m
条记录进行比较，来检测重复记录，然后最先进入窗口内的记录滑出窗，最后一条记录的下一条记录移入窗口；
(2)
消除噪声数据采用分箱方法消除噪声数据；分箱方法通过参考周围实例的值来平滑需要处理的数据值；将需要处理的数据分布到一些箱中，采用等深的分箱法将数据划分到相同深度的不同箱内，然后对这些值进行不同的平滑，具体方法包括按箱平均值平滑和按箱边界平滑；按箱平均值平滑：把箱中的所有值平均，然后使用箱的平均值替代箱中所有数据；按箱边界平滑：箱中的最大和最小值被视为箱边界，箱中的每一个值被最近的箱边界值替换
。4.
如权利要求1所述的电能表检定数据上链数据规划方法，其特征在于，所述在上链前
对清洗后的电能表检定数据进行数据降维包括：对电能表检定数据进行非可逆的数据特征提取，对原始数据的标签信息进行匿名化处理，降低数据中包含的隐私信息，然后对数据进行降维，具体为：对于数据特征中的线性特征，采用主成分分析降维方法，找到数据中最主要的元素和结构，去除噪声和冗余，对原有的复杂数据进行降维；对于数据特征中的非线性特征，采用基于自编码的数据降维方法；主成分分析算法
(PCA)
设
n
维向量
w
为目标子空间的一个坐标轴方向
(
称为映射向量
)
，最大化数据映射后的方差，有：其中
m
是数据实例的个数，
X
i
是数据实例
i
的向量表达，是所有数据实例的平均向量，定义
W
为包含所有映射向量为列向量的矩阵，经过线性代数变换，得到如下优化目标函数：其中
tr
表示矩阵的迹，
A
是数据协方差矩阵；最优的
W
由数据协方差矩阵前
k
个最大的特征值对应的特征向量作为列向量构成；
PCA
降维处理的具体流程如下：
①
首先计算特征平均值构建特征数据的协方差矩阵；
②
再通过
SVD
分解求解该协方差矩阵的特征值以及特征向量；
③
求出来的特征值依次从大到小的排列以便于选出主成分的特征值；
④
当选出了主成分的特征值后，这些特征值所对应的特征向量就构成了降维后的子空间；基于自编码的数据降维方法对于数据特征中的非线性特征，采用自编码降维方法，自编码器算法流程：
(a)
对于给定的无标签数据，使用无监督学习方法学习特征；对于无类标签的数据，通过编码器将输入数据进行编码，然后使用解码器得到一个输出信息，如果输出近似等于输入数据，则通过调整编码和解码阶段的参数，使得重构误差最小；
(b)
将编码器产生的特征作为输入，逐层训练下面层的网络；下面层的训练过程类似第一层
。5.
如权利要求1所述的电能表检定数据上链数据规划方法，其特征在于，所述在上链前对降维后的电能表检定数据进行数据融合包括：基于特征提取技术，针对非可逆的数据特征提取到的数据，采用自适应数据融合算法在神经元数据融合系统上融合数据，获取尽可能大的信息量，而后采用基于多元概率推理模型对数据进行学习，形成高价值的信息库支撑，具体包括：多源数据有效融合针对非可逆的数据特征提取到的数据，采用自适应数据融合算法在神经元数据融合系统上融合数据，用涵盖最大信息量的特征值进行特征提取；
设有
n
个训练数据对某一对象进行测量，考虑某被观测对象产生
k
个模式，每个模式被相互独立的
n
个训练数据同时检测后产生
N
组数据，对应的每一个训练数据
k
时刻的实际输出
X
i
(k)
，可得到数据集
{X
i
(k)
，
i≤n
，
k≤N}
，作为线性神经元的输入；
Y(k)
为期望输出，作为学习算法的输入；输入到融合系统后产生
N
个输出模式
{y(k)
，
k≤N}
；对线性测量系统而言，输入与输出之间的关系可表示成矩阵形式如下：
XW
＝
Y
利用统...

【专利技术属性】
技术研发人员：王雍，侯慧娟，郑安刚，尚怀嬴，姚琼琼，李冉，张侃，张天宜，
申请(专利权)人：国网河南省电力公司营销服务中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人