一种用于数据中台数据质量的监控方法及系统技术方案

技术编号:39061573 阅读:11 留言:0更新日期:2023-10-12 19:54
本发明专利技术属于数据中台、数据质量监控技术领域,提出了一种用于数据中台数据质量的监控方法及系统,具体为:配置数据中台的分布式监控网络,通过分布式监控网络持续获取电力数据画像,再利用电力数据画像获得画像紊性水平,最后根据画像紊性水平向数据中台进行预警。通过画像紊性水平实现对电力数据画像中监控数据源端数据质量进行评价的目的,提高数据中台中获得的异样数据质量的评价灵敏性,实现对低质量数据的排除,再持续获得一个节点所管理的各个单元的电力信息,分析其数据采集是否受到干扰,从而使数据中台能够直接监控数据源端数据质量,提高了数据中台所获得的数据的可信度,大大保障了基于数据中台做出的决策的准确性和有效性。和有效性。和有效性。

【技术实现步骤摘要】
一种用于数据中台数据质量的监控方法及系统


[0001]本专利技术属于数据中台、数据质量监控
,具体涉及一种用于数据中台数据质量的监控方法及系统。

技术介绍

[0002]随着社会经济和信息技术的飞速发展,人类日常的生产和生活产生了大量的数据,对大数据进行处理分析已成为人们重要的决策支持和可靠的业务优化手段。然而,大数据处理过程中,各个系统获得的海量数据往往存储在不同的数据库中,导致数据碎片化和数据孤岛现象,使得数据无法高效整合和共享。因此,数据中台应运而生,它是一种集中的数据管理和服务平台,将各个系统的数据进行集中治理,帮助人们打破数据孤岛,消除数据碎片化。
[0003]然而,数据中台中的数据是海量且冗杂的,其价值密度较低,数据质量往往良莠不齐,导致数据可信度低,从而影响基于数据中台做出的决策的准确性和有效性。目前,人们对数据质量的进行监控的关注点通常在于两端数据是否一致,即数据中台端从数据源端进行数据同步时是否发生错误,从而导致数据不完整或不准确。而事实上,数据质量低不仅仅是因为两端数据不一致,还可能是数据源端获取的数据受到了干扰。在这种情况下,数据从一开始就是错误或不准确的,即使后期做到两端数据完全一致,也只是数据中台同步了这些错误或不准确的数据,其数据质量自然无法提高。因此,需要一种用于数据中台数据质量的监控方法及系统,使数据中台能够判断数据源端获取的数据是否受到了干扰,期望达到直接监控数据源端数据质量的目的。

技术实现思路

[0004]本专利技术的目的在于提出一种用于数据中台数据质量的监控方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0005]为了实现上述目的,根据本专利技术的一方面,提供一种用于数据中台数据质量的监控方法,所述方法包括以下步骤:S100,配置数据中台的分布式监控网络;S200,通过分布式监控网络持续获取电力数据画像;S300,利用电力数据画像计算画像紊性水平;S400,根据画像紊性水平向数据中台进行预警。
[0006]进一步地,在步骤S100中,配置数据中台的分布式监控网络的方法是:数据中台的建立采用分布式系统,以分布式系统中的各个服务器分别作为节点,各个节点分别与数据中台连接并进行数据交换或者数据传输;以一个数据采集点作为一个单元,其中数据采集点为用于采集数据中台所需数据的位置或者地点;各个单元均布置有电力分析仪,通过电力分析仪采集监测信息,一个单元采集的监测信息包括电压、电流、功率、电能、频率和功率因数中的两种或两种以上,将单元
采集的监测信息的数量记作NSen;把连接于同一个节点的单元数量记作NUni;通过各个节点和单元构建成的信息网络作为分布式监控网络。
[0007]进一步地,在步骤S200中,通过分布式监控网络持续获取电力数据画像的方法是:设定一个时间区间作为测量间隔t1,t1∈[1,60]秒;各个单元每隔t1获取一次电力信息,其中电力信息包括所有监测信息对应的实时测量值;以同一个监测信息下不同单元的实时测量值为一列,以同一个单元下不同监测信息的实时测量值为一行,构建一个矩阵FMX;以FMX中任意一列的极大值与极小值之差作为该列对应监测信息的实测水平,获取各个监测信息对应的实测水平;设定一个时间区间作为测量间隔t2,t2∈[60,120]分钟;设定一个关于时刻数量的变量tk,其取值范围为tk∈[1,20]个,以一个时刻与其前tk个时刻的实测水平的算术平均值作为该时刻的预测水平;以监测信息在t2时段内各个时刻的实测水平与预测水平分别构建一个序列,分别记作监测序列与预测序列;通过监测序列与预测序列计算获得均方根误差作为该监测信息的测模距离;各个监测数据种的测模距离构建一个序列作为测模序列;以测模序列作为当前时刻的电力数据画像。
[0008]进一步地,在步骤S300中,利用电力数据画像计算画像紊性水平的方法是:获取当前时刻的电力数据画像中各个元素的平均值EFL,如果电力数据画像中一个元素的数值大于EFL,则将该元素对应监测信息定义为一阶监测信息;将任意一个一阶监测信息中的各个时刻的预测水平与实测水平进行比较,如果一个时刻下预测水平小于实测水平,则定义该时刻的预测水平为第一紊扰值,以一阶监测信息在t2时间内获得的各个第一紊扰值的均方根值作为该一阶监测信息的偏模距离;计算获得画像紊性偏向比DO_Pr,其计算方法为:;其中v1和v2均为累加变量,MMD
v2
为第v2个一阶监测信息的测模距离,DMD
v1
为第v1个一阶监测信息的偏模距离,以nq代表一阶监测信息的数量;将一阶监测信息的各个第一紊扰值中的中位数与最小值的差值记作下标域值;将一阶监测信息的各个第一紊扰值中的最大值与中位数的差值记作上标域值;计算获得画像紊性水平DOL,计算方法为:;其中v3为累加变量,avg_LFD
v3
为第v3个监测信息的各个第一紊扰值的均值,LLV
v3
和HLV
v3
分别为第v3个一阶监测数据的下标域值和上标域值。
[0009]由于画像紊性水平是根据采集的数据结合数学模型处理后计算获得,有效将电力数据画像中的数据质量进行量化,然而在测量间隔t2的取值较大的情况下,利用上述方法所算出的画像紊性水平经常会出现量化程度不足的现象,这是因为这个方法着重强调个体测模距离,对各个时刻下的数据都具有等同的敏感性,无法较为有效地实时放大并且划分各个测模距离之间的差异,导致处理所得的紊性水平出现欠拟合问题,而目前尚未存在可
行的技术来弥补这个方法带来的量化不足现象,为消除测模距离之间的差异划分不足对紊性水平出现欠拟合的现象,本专利技术提出了一个更优选的方案:优选地,在步骤S300中,利用电力数据画像计算画像紊性水平的方法是:在t2时间段内,获取同一个监测信息各个时刻的测模距离构建成序列作为检测序列;对任一个监测信息对应的检测序列,从当前时刻往前搜索首次出现极大值的时刻对应的序号,将序号的数值记作该监测信息的端值区间;获取各个监测信息的端值区间后把其中的最大值记作MVZ;在各个检测序列中每隔MVZ个元素分割出一个序列作为拟应序列RTM;以j作为拟应序列的序号,则第j个拟应序列记作RTM
j
,其中j>1;当检测序列中剩余元素的数量无法满足构成拟应序列,则不再构建拟应序列;将检测序列中首个拟应序列作为第一拟应序列RTM
Fs
,其余拟应序列作为第二拟应序列RTM
j
;以i1作为拟应序列的元素的序号;如果RTM
j
(i1)≤RTM
Fs
(i1),则将RTM
j
(i1)标记为对应监测信息的低标指量,否则标记为对应监测信息的高标指量,其中RTM
j
(i1)和RTM
Fs
(i1)分别代表第一拟应序列和第二拟应序列的第i1个元素;对各个第二拟应序列均进行对比后,将标记的各个指量和高标指量分别构成低标指量序列LSL和高标指量序列HSL;计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于数据中台数据质量的监控方法,其特征在于,所述方法包括以下步骤:S100,配置数据中台的分布式监控网络;S200,通过分布式监控网络持续获取电力数据画像;S300,利用电力数据画像计算画像紊性水平;S400,根据画像紊性水平向数据中台进行预警;其中,在步骤S200中,通过分布式监控网络持续获取电力数据画像的方法是:通过电力分析仪采集不同监测信息的实时测量值,根据历史数据中各个时刻的实时测量值形成监测序列以及预测序列,并通过监测序列以及预测序列计算获得各个监测信息的测模距离,结合同一时刻下各个监测信息的测模距离形成电力数据画像;在步骤S300中,利用电力数据画像计算画像紊性水平的方法是:根据电力数据画像将部分获得的监测信息定义为一阶监测信息,将各个时刻的预测水平与实测水平进行比较形成第一紊扰值,结合一个时段内的第一紊扰值计算画像紊性偏向比,最后利用紊性水平计算获得紊性水平;或者,在步骤S300中,利用电力数据画像计算画像紊性水平的方法是:通过各个时刻的电力数据画像中存储的测模距离形成拟应序列,拟应序列进一步划分为第一拟应序列和第二拟应序列,将第一拟应序列和各个第二拟应序列比对,形成监测信息的低标指量和高标指量,再进一步获得低标指量序列和高标指量序列,最后根据低标指量序列和高标指量序列计算得到监测信息的子紊性值,并通过子紊性值进一步计算得到画像紊性水平。2.根据权利要求1所述的一种用于数据中台数据质量的监控方法,其特征在于,在步骤S100中,配置数据中台的分布式监控网络的方法是:数据中台的建立采用分布式系统,以分布式系统中的各个服务器分别作为节点,各个节点分别与数据中台连接并进行数据交换或者数据传输;以一个数据采集点作为一个单元,其中数据采集点为用于采集数据中台所需数据的位置或者地点;各个单元均布置有电力分析仪,通过电力分析仪采集监测信息,一个单元采集的监测信息包括电压、电流、功率、电能、频率和功率因数中的两种或两种以上,将单元采集的监测信息的数量记作NSen;把连接于同一个节点的单元数量记作NUni;通过各个节点和单元构建成的信息网络作为分布式监控网络。3.根据权利要求1所述的一种用于数据中台数据质量的监控方法,其特征在于,在步骤S200中,通过分布式监控网络持续获取电力数据画像的方法是:设定一个时间区间作为测量间隔t1,t1∈[1,60]秒;各个单元每隔t1获取一次电力信息,其中电力信息包括所有监测信息对应的实时测量值;以同一个监测信息下不同单元的实时测量值为一列,以同一个单元下不同监测信息的实时测量值为一行,构建一个矩阵FMX;以FMX中任意一列的极大值与极小值之差作为该列对应监测信息的实测水平,获取各个监测信息对应的实测水平;设定一个时间区间作为测量间隔t2,t2∈[60,120]分钟;设定一个关于时刻数量的变量tk,其取值范围为tk∈[1,20]个,以一个时刻与其前tk个时刻的实测水平的算术平均值作为该时刻的预测水平;以监测信息在t2时段内各个时刻的实测水平与预测水平分别构建一个序列,分别记作监测序列与预测序列;通过监测序列与预测序列计算获得均方根误差作为该监测信息的测模距离;各个监测数据种的测模距离构建一个序列作为测模序列;以测模序列作为当前时刻的电力数据画像。
4.根据权利要求1所述的一种用于数据中台数据质量的监控方法,其特征在于,在步骤S300中,利用电力数据画像计算画像紊性水平的方法是:获取当前时刻的电力数据画像中各个元素的平均值EFL,如果电力数据画像中一个元素的数值大于EFL,则将该元素对应监测信息定义为一阶监测信息;将任意一个一阶监测信息中的各个时刻的预测水平与实测水平进行比较,如果一个时刻下预测水平小于实测水平,则定义该时刻的预测水平为第一紊扰值,设定一个时间区间作为测量间隔t2,t2∈[60,120]分钟,以...

【专利技术属性】
技术研发人员:叶名震王益斌庞新安
申请(专利权)人:湖南中青能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1