电能表检定数据上链数据规划方法技术

技术编号:39567206 阅读:11 留言:0更新日期:2023-12-03 19:18
本发明专利技术属于电能表检定数据上链数据规划技术领域,具体涉及电能表检定数据上链数据规划方法

【技术实现步骤摘要】
电能表检定数据上链数据规划方法、装置和存储介质


[0001]本专利技术属于电能表检定数据上链数据规划
,具体涉及电能表检定数据上链数据规划方法

装置和存储介质


技术介绍

[0002]区块链是分布式数据存储

点对点传输

共识机制

加密算法等计算机技术的新型应用模式,所谓共识机制是区块链系统中实现不同节点之间建立信任

获取权益的数学算法;区块链是比特币等数字虚拟货币的底层技术,通过去中心化的数据记录,由全网所有的节点共同维护数据,实现安全地存储数据,具有不可伪造性

不可篡改性

可追溯性

匿名性等特点;区块链的去中心化技术方案是以区块为基本单位来管理和存储数据,区块由两个部分的数据结构组成,分别为区块头部和梅克尔树结构;区块的头部包括矿工可以修改的临时随机数

前序区块的哈希值

时间戳

挖矿难度

交易树的树根等数据;区块的另一部分是梅克尔树,用来存储有效交易,当包含交易数据信息的区块有序链接时,就形成了区块链;随着中国互联网基础设施加快建设和产业变革的加速,区块链技术已经被广泛深入到了金融

教育

交通

房产

娱乐

医疗等方方面面,以提供区块链场景应用服务为主的企业也如雨后春笋般冒出,在计量数据管理方面,通过计量标准体系的“区块链
+”实现电表表等检定数据的可追溯性

真实性,业务的规范性和体系的合法性,提升检测的规范化

自动化

智能化水平,为公司计量设备的质量管控提供技术支撑;但区块链能够解决链上数据的真实性与安全性问题,而不能解决数据上链之前的准确性问题,因此,提供一种电能表检定数据上链数据规划方法,对电能表检定数据进行上链前的处理是很有必要的


技术实现思路

[0003]本专利技术的目的是为了克服现有技术的不足,而提供一种电能表检定数据上链数据规划方法

装置和存储介质,以对电能表检定数据进行上链前的处理,通过对电能表检定数据在上链前对数据进行清洗

降维

融合,提高数据可用性,为上链存储提供数据支撑

[0004]本专利技术的目的是这样实现的:电能表检定数据上链数据规划方法,包括:
[0005]在上链前对电能表检定数据进行数据清洗;
[0006]在上链前对清洗后的电能表检定数据进行数据降维;
[0007]在上链前对降维后的电能表检定数据进行数据融合

[0008]在上链前对电能表检定数据进行数据清洗包括:按照一定的规则将电能表检定数据中的脏数据过滤,并确认过滤掉还是由业务单位进行修正;
[0009]其中所述脏数据包括有残缺数据

错误数据和重复数据;
[0010]残缺数据:是需要的信息缺失,要求在规定的时间内补全,补全后才写入数据仓库;
[0011]错误数据:是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,需要业务系统数据库用
SQL
的方式挑出来,修正之后再抽取;
[0012]重复数据:是重复记录的数据,对于重复数据,需要将重复数据记录的所有字段导出来,确认整理并去除重复数据

[0013]所述按照一定的规则将电能表检定数据中的脏数据过滤包括:基于电能表检定数据内容,按照检定数据规则,筛选出不符合预期的残缺数据

错误数据和重复数据;
[0014]通过配置检定数据采集装置的可编程功能节点,针对检定数据特色,结合数据清洗技术,进行脏数据清洗,过滤不符合要求数据,将过滤的结果汇总管理,确认是否过滤掉还是由数据业务来源方修正之后再进行抽取;
[0015]数据清洗包括重复记录清洗和噪声数据消除两部分;
[0016](1)
重复记录清洗
[0017]为了从数据集中检测并消除重复记录,首要的问题就是如何判断两条记录是否是重复的;这就需要比较记录的各对应属性,计算其相似度,再根据属性的权重,进行加权平均后得到记录的相似度,如果两记录相似度超过了某一阈值,则认为两条记录是匹配的,否则,认为是指向不同实体的记录;
[0018]采用基本近邻排序算法对重复数据进行检测,包括:
[0019]通过抽取数据集中相关属性的值为每个实例生成一个关键字;
[0020]按上步生成的关键字为数据集中的数据排序;使潜在的重复记录调整到一个邻近的区域内,对于特定的记录将进行记录匹配的对象限制在一定的范围之内;
[0021]在已排序的数据集上依次移动一个固定大小的窗口,数据集中每条记录仅与窗口内的记录进行比较;如果窗口的大小是包含
m
个记录,则每条新进入窗口的记录都要与先前进入窗口的
m
条记录进行比较,来检测重复记录,然后最先进入窗口内的记录滑出窗,最后一条记录的下一条记录移入窗口;
[0022](2)
消除噪声数据
[0023]采用分箱方法消除噪声数据;分箱方法通过参考周围实例的值来平滑需要处理的数据值;将需要处理的数据分布到一些箱中,采用等深的分箱法将数据划分到相同深度的不同箱内,然后对这些值进行不同的平滑,具体方法包括按箱平均值平滑和按箱边界平滑:
[0024]按箱平均值平滑:把箱中的所有值平均,然后使用箱的平均值替代箱中所有数据;
[0025]按箱边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的箱边界值替换

[0026]所述在上链前对清洗后的电能表检定数据进行数据降维包括:
[0027]数据降维是一个过程,要保证在降低数据集维度的过程中,数据不丢失

不失真,降维后的数据依然要包含数据的原有信息;对电能表检定数据进行非可逆的数据特征提取,对原始数据的标签信息进行匿名化处理,降低数据中包含的隐私信息,然后对数据进行降维,具体为:对于数据特征中的线性特征,采用主成分分析降维方法,找到数据中最主要的元素和结构,去除噪声和冗余,对原有的复杂数据进行降维;对于数据特征中的非线性特征,采用基于自编码的数据降维方法;
[0028]主成分分析算法
(PCA)
[0029]对于数据特征中的线性特征,采用
PCA
降维方法,目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性;
[0030]设
n
维向量
w
为目标子空间的一个坐标轴方向
(...

【技术保护点】

【技术特征摘要】
1.
电能表检定数据上链数据规划方法,其特征在于,包括:在上链前对电能表检定数据进行数据清洗;在上链前对清洗后的电能表检定数据进行数据降维;在上链前对降维后的电能表检定数据进行数据融合
。2.
如权利要求1所述的电能表检定数据上链数据规划方法,其特征在于,在上链前对电能表检定数据进行数据清洗包括:按照一定的规则将电能表检定数据中的脏数据过滤,并确认过滤掉还是由业务单位进行修正;其中所述脏数据包括有残缺数据

错误数据和重复数据;残缺数据:是需要的信息缺失,要求在规定的时间内补全,补全后才写入数据仓库;错误数据:是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,需要业务系统数据库用
SQL
的方式挑出来,修正之后再抽取;重复数据:是重复记录的数据,对于重复数据,需要将重复数据记录的所有字段导出来,确认整理并去除重复数据
。3.
如权利要求2所述的电能表检定数据上链数据规划方法,其特征在于,所述按照一定的规则将电能表检定数据中的脏数据过滤包括:基于电能表检定数据内容,按照检定数据规则,筛选出不符合预期的残缺数据

错误数据和重复数据;通过配置检定数据采集装置的可编程功能节点,过滤不符合要求数据,将过滤的结果汇总管理,确认是否过滤掉还是由数据业务来源方修正之后再进行抽取;数据清洗包括重复记录清洗和噪声数据消除两部分;
(1)
重复记录清洗比较记录的各对应属性,计算其相似度,再根据属性的权重,进行加权平均后得到记录的相似度,如果两记录相似度超过了某一阈值,则认为两条记录是匹配的,否则,认为是指向不同实体的记录;采用基本近邻排序算法对重复数据进行检测,包括:通过抽取数据集中相关属性的值为每个实例生成一个关键字;按上步生成的关键字为数据集中的数据排序;使潜在的重复记录调整到一个邻近的区域内,对于特定的记录将进行记录匹配的对象限制在一定的范围之内;在已排序的数据集上依次移动一个固定大小的窗口,数据集中每条记录仅与窗口内的记录进行比较;如果窗口的大小是包含
m
个记录,则每条新进入窗口的记录都要与先前进入窗口的
m
条记录进行比较,来检测重复记录,然后最先进入窗口内的记录滑出窗,最后一条记录的下一条记录移入窗口;
(2)
消除噪声数据采用分箱方法消除噪声数据;分箱方法通过参考周围实例的值来平滑需要处理的数据值;将需要处理的数据分布到一些箱中,采用等深的分箱法将数据划分到相同深度的不同箱内,然后对这些值进行不同的平滑,具体方法包括按箱平均值平滑和按箱边界平滑;按箱平均值平滑:把箱中的所有值平均,然后使用箱的平均值替代箱中所有数据;按箱边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的箱边界值替换
。4.
如权利要求1所述的电能表检定数据上链数据规划方法,其特征在于,所述在上链前
对清洗后的电能表检定数据进行数据降维包括:对电能表检定数据进行非可逆的数据特征提取,对原始数据的标签信息进行匿名化处理,降低数据中包含的隐私信息,然后对数据进行降维,具体为:对于数据特征中的线性特征,采用主成分分析降维方法,找到数据中最主要的元素和结构,去除噪声和冗余,对原有的复杂数据进行降维;对于数据特征中的非线性特征,采用基于自编码的数据降维方法;主成分分析算法
(PCA)

n
维向量
w
为目标子空间的一个坐标轴方向
(
称为映射向量
)
,最大化数据映射后的方差,有:其中
m
是数据实例的个数,
X
i
是数据实例
i
的向量表达,是所有数据实例的平均向量,定义
W
为包含所有映射向量为列向量的矩阵,经过线性代数变换,得到如下优化目标函数:其中
tr
表示矩阵的迹,
A
是数据协方差矩阵;最优的
W
由数据协方差矩阵前
k
个最大的特征值对应的特征向量作为列向量构成;
PCA
降维处理的具体流程如下:

首先计算特征平均值构建特征数据的协方差矩阵;

再通过
SVD
分解求解该协方差矩阵的特征值以及特征向量;

求出来的特征值依次从大到小的排列以便于选出主成分的特征值;

当选出了主成分的特征值后,这些特征值所对应的特征向量就构成了降维后的子空间;基于自编码的数据降维方法对于数据特征中的非线性特征,采用自编码降维方法,自编码器算法流程:
(a)
对于给定的无标签数据,使用无监督学习方法学习特征;对于无类标签的数据,通过编码器将输入数据进行编码,然后使用解码器得到一个输出信息,如果输出近似等于输入数据,则通过调整编码和解码阶段的参数,使得重构误差最小;
(b)
将编码器产生的特征作为输入,逐层训练下面层的网络;下面层的训练过程类似第一层
。5.
如权利要求1所述的电能表检定数据上链数据规划方法,其特征在于,所述在上链前对降维后的电能表检定数据进行数据融合包括:基于特征提取技术,针对非可逆的数据特征提取到的数据,采用自适应数据融合算法在神经元数据融合系统上融合数据,获取尽可能大的信息量,而后采用基于多元概率推理模型对数据进行学习,形成高价值的信息库支撑,具体包括:多源数据有效融合针对非可逆的数据特征提取到的数据,采用自适应数据融合算法在神经元数据融合系统上融合数据,用涵盖最大信息量的特征值进行特征提取;
设有
n
个训练数据对某一对象进行测量,考虑某被观测对象产生
k
个模式,每个模式被相互独立的
n
个训练数据同时检测后产生
N
组数据,对应的每一个训练数据
k
时刻的实际输出
X
i
(k)
,可得到数据集
{X
i
(k)

i≤n

k≤N}
,作为线性神经元的输入;
Y(k)
为期望输出,作为学习算法的输入;输入到融合系统后产生
N
个输出模式
{y(k)

k≤N}
;对线性测量系统而言,输入与输出之间的关系可表示成矩阵形式如下:
XW

Y
利用统...

【专利技术属性】
技术研发人员:王雍侯慧娟郑安刚尚怀嬴姚琼琼李冉张侃张天宜
申请(专利权)人:国网河南省电力公司营销服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1