【技术实现步骤摘要】
电能表检定数据上链数据规划方法、装置和存储介质
[0001]本专利技术属于电能表检定数据上链数据规划
,具体涉及电能表检定数据上链数据规划方法
、
装置和存储介质
。
技术介绍
[0002]区块链是分布式数据存储
、
点对点传输
、
共识机制
、
加密算法等计算机技术的新型应用模式,所谓共识机制是区块链系统中实现不同节点之间建立信任
、
获取权益的数学算法;区块链是比特币等数字虚拟货币的底层技术,通过去中心化的数据记录,由全网所有的节点共同维护数据,实现安全地存储数据,具有不可伪造性
、
不可篡改性
、
可追溯性
、
匿名性等特点;区块链的去中心化技术方案是以区块为基本单位来管理和存储数据,区块由两个部分的数据结构组成,分别为区块头部和梅克尔树结构;区块的头部包括矿工可以修改的临时随机数
、
前序区块的哈希值
、
时间戳
、
挖矿难度
、
交易树的树根等数据;区块的另一部分是梅克尔树,用来存储有效交易,当包含交易数据信息的区块有序链接时,就形成了区块链;随着中国互联网基础设施加快建设和产业变革的加速,区块链技术已经被广泛深入到了金融
、
教育
、
交通
、
房产
、
娱乐
、
医疗等方方面面,以提供区块链场景应用服务为主的企业也如雨后春
【技术保护点】
【技术特征摘要】
1.
电能表检定数据上链数据规划方法,其特征在于,包括:在上链前对电能表检定数据进行数据清洗;在上链前对清洗后的电能表检定数据进行数据降维;在上链前对降维后的电能表检定数据进行数据融合
。2.
如权利要求1所述的电能表检定数据上链数据规划方法,其特征在于,在上链前对电能表检定数据进行数据清洗包括:按照一定的规则将电能表检定数据中的脏数据过滤,并确认过滤掉还是由业务单位进行修正;其中所述脏数据包括有残缺数据
、
错误数据和重复数据;残缺数据:是需要的信息缺失,要求在规定的时间内补全,补全后才写入数据仓库;错误数据:是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,需要业务系统数据库用
SQL
的方式挑出来,修正之后再抽取;重复数据:是重复记录的数据,对于重复数据,需要将重复数据记录的所有字段导出来,确认整理并去除重复数据
。3.
如权利要求2所述的电能表检定数据上链数据规划方法,其特征在于,所述按照一定的规则将电能表检定数据中的脏数据过滤包括:基于电能表检定数据内容,按照检定数据规则,筛选出不符合预期的残缺数据
、
错误数据和重复数据;通过配置检定数据采集装置的可编程功能节点,过滤不符合要求数据,将过滤的结果汇总管理,确认是否过滤掉还是由数据业务来源方修正之后再进行抽取;数据清洗包括重复记录清洗和噪声数据消除两部分;
(1)
重复记录清洗比较记录的各对应属性,计算其相似度,再根据属性的权重,进行加权平均后得到记录的相似度,如果两记录相似度超过了某一阈值,则认为两条记录是匹配的,否则,认为是指向不同实体的记录;采用基本近邻排序算法对重复数据进行检测,包括:通过抽取数据集中相关属性的值为每个实例生成一个关键字;按上步生成的关键字为数据集中的数据排序;使潜在的重复记录调整到一个邻近的区域内,对于特定的记录将进行记录匹配的对象限制在一定的范围之内;在已排序的数据集上依次移动一个固定大小的窗口,数据集中每条记录仅与窗口内的记录进行比较;如果窗口的大小是包含
m
个记录,则每条新进入窗口的记录都要与先前进入窗口的
m
条记录进行比较,来检测重复记录,然后最先进入窗口内的记录滑出窗,最后一条记录的下一条记录移入窗口;
(2)
消除噪声数据采用分箱方法消除噪声数据;分箱方法通过参考周围实例的值来平滑需要处理的数据值;将需要处理的数据分布到一些箱中,采用等深的分箱法将数据划分到相同深度的不同箱内,然后对这些值进行不同的平滑,具体方法包括按箱平均值平滑和按箱边界平滑;按箱平均值平滑:把箱中的所有值平均,然后使用箱的平均值替代箱中所有数据;按箱边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的箱边界值替换
。4.
如权利要求1所述的电能表检定数据上链数据规划方法,其特征在于,所述在上链前
对清洗后的电能表检定数据进行数据降维包括:对电能表检定数据进行非可逆的数据特征提取,对原始数据的标签信息进行匿名化处理,降低数据中包含的隐私信息,然后对数据进行降维,具体为:对于数据特征中的线性特征,采用主成分分析降维方法,找到数据中最主要的元素和结构,去除噪声和冗余,对原有的复杂数据进行降维;对于数据特征中的非线性特征,采用基于自编码的数据降维方法;主成分分析算法
(PCA)
设
n
维向量
w
为目标子空间的一个坐标轴方向
(
称为映射向量
)
,最大化数据映射后的方差,有:其中
m
是数据实例的个数,
X
i
是数据实例
i
的向量表达,是所有数据实例的平均向量,定义
W
为包含所有映射向量为列向量的矩阵,经过线性代数变换,得到如下优化目标函数:其中
tr
表示矩阵的迹,
A
是数据协方差矩阵;最优的
W
由数据协方差矩阵前
k
个最大的特征值对应的特征向量作为列向量构成;
PCA
降维处理的具体流程如下:
①
首先计算特征平均值构建特征数据的协方差矩阵;
②
再通过
SVD
分解求解该协方差矩阵的特征值以及特征向量;
③
求出来的特征值依次从大到小的排列以便于选出主成分的特征值;
④
当选出了主成分的特征值后,这些特征值所对应的特征向量就构成了降维后的子空间;基于自编码的数据降维方法对于数据特征中的非线性特征,采用自编码降维方法,自编码器算法流程:
(a)
对于给定的无标签数据,使用无监督学习方法学习特征;对于无类标签的数据,通过编码器将输入数据进行编码,然后使用解码器得到一个输出信息,如果输出近似等于输入数据,则通过调整编码和解码阶段的参数,使得重构误差最小;
(b)
将编码器产生的特征作为输入,逐层训练下面层的网络;下面层的训练过程类似第一层
。5.
如权利要求1所述的电能表检定数据上链数据规划方法,其特征在于,所述在上链前对降维后的电能表检定数据进行数据融合包括:基于特征提取技术,针对非可逆的数据特征提取到的数据,采用自适应数据融合算法在神经元数据融合系统上融合数据,获取尽可能大的信息量,而后采用基于多元概率推理模型对数据进行学习,形成高价值的信息库支撑,具体包括:多源数据有效融合针对非可逆的数据特征提取到的数据,采用自适应数据融合算法在神经元数据融合系统上融合数据,用涵盖最大信息量的特征值进行特征提取;
设有
n
个训练数据对某一对象进行测量,考虑某被观测对象产生
k
个模式,每个模式被相互独立的
n
个训练数据同时检测后产生
N
组数据,对应的每一个训练数据
k
时刻的实际输出
X
i
(k)
,可得到数据集
{X
i
(k)
,
i≤n
,
k≤N}
,作为线性神经元的输入;
Y(k)
为期望输出,作为学习算法的输入;输入到融合系统后产生
N
个输出模式
{y(k)
,
k≤N}
;对线性测量系统而言,输入与输出之间的关系可表示成矩阵形式如下:
XW
=
Y
利用统...
【专利技术属性】
技术研发人员:王雍,侯慧娟,郑安刚,尚怀嬴,姚琼琼,李冉,张侃,张天宜,
申请(专利权)人:国网河南省电力公司营销服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。