一种低业务依赖的能源数据智能稽核方法技术

技术编号:31011797 阅读:64 留言:0更新日期:2021-11-30 00:39
本发明专利技术提出了一种低业务依赖的能源数据智能稽核方法,包括:确定相互对应的文本字段、日期时间字段以及数值字段;将文本字段、日期时间字段调整为标准模板规定的格式;对日期时间字段和数值字段进行数据拟合,判断数值字段中的数据,若为时序数据,基于与拟合曲线的偏离程度标记数值字段的第一异常数据,若为非时序数据,基于孤立森林算法标记数值字段的第二异常数据;根据拟合曲线的趋势生成第一异常数据的修正建议值;根据数值字段中其他数据在二叉树中的异常分值确定修正权重,根据加权求和的结果生成第二异常数据的修正建议值。由业务规则驱动的稽核方式转变为由数据本身特征驱动,提高了能源数据的稽核效率与异常数据修正的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种低业务依赖的能源数据智能稽核方法


[0001]本专利技术属于数据处理
,尤其涉及一种低业务依赖的能源数据智能稽核方法。

技术介绍

[0002]数据质量稽核是数据质量管控的重要环节,其目的在于将海量数据处理为符合既定规则的数据,以满足用户在后续业务中对数据的使用需求。目前,各类能源企业通过多年的信息化建设与运行,已经累积了海量数据,覆盖能源生产、传输、消费的全产业链,数据价值潜力巨大。因此,数据质量稽核在能源企业的信息化建设中十分关键。
[0003]现有的数据质量稽核方法主要根据能源企业的具体业务内容制定相应的稽核规则,由于所要稽核处理的能源数据因地区和行业的自然界限,导致数据分散在不同的能源企业和不同的地区,来自电力、石油、天然气、煤炭、水等多个能源行业由于数据标准和业务内容的不同,其能源数据的特点存在较大的差异,现有的数据质量稽核方法往往是仅针对单一类型的数据制定的,在检测出异常数据后仍需要熟悉相关业务的人员针对不同数据特点对异常数据进行人工修正,或者预先针对不同业务建立一定标准数据,通过与标准数据进行比对无法实现异常数据的修正,上述方法要求对业务情况十分熟悉才能实现正确的人工修正或建立准确的标准数据,导致能源数据的稽核效率较低,并且对异常数据的修正容易受到主观因素影响,进而对于能源数据的汇聚、整合、分析和价值变现存在着很大的束缚和制约。

技术实现思路

[0004]为了解决现有技术中存在的缺点和不足,本专利技术提出了一种低业务依赖的能源数据智能稽核方法,包括:S100:能源数据中心获取企业中各个能源设备产生的运行数据,剔除运行数据中与能源无关的无效数据后生成数据采集日志,通过特征提取确定数据采集日志中相互对应的文本字段、日期时间字段以及数值字段;S200:获取预先设置的标准模板,通过正则匹配分别将文本字段、日期时间字段调整为标准模板规定的格式;S300:对调整后相同文本字段对应的日期时间字段和数值字段进行数据拟合,得到与数值字段对应的拟合曲线,根据拟合曲线的趋势判断数值字段中的数据是否为时序数据;S400:若为时序数据,基于与拟合曲线的偏离程度标记数值字段的第一异常数据,若为非时序数据,基于孤立森林算法构建数值字段的二叉树,根据数值字段中的数据在二叉树中的异常分值标记数值字段的第二异常数据;S500:计算第一异常数据在数值字段中的第一占比,若第一占比未超过预设限值,根据拟合曲线的趋势生成第一异常数据的修正建议值,若第一占比超过第一预设限值,向
能源设备发送稽核未通过的信息;S600:计算第二异常数据在数值字段中的第二占比,若第二占比未超过预设限值,根据数值字段中其他数据在二叉树中的异常分值确定修正权重,所述其他数据为数值字段中除第二异常数据以外的数据,根据对其他数据以修正权重进行加权求和的结果生成第二异常数据的修正建议值,若第二占比超过第一预设限值,向能源设备发送稽核未通过的信息。
[0005]可选的,所述S100包括:获取采集记录中用于解释数据类型的元数据,对元数据进行特征提取,根据元数据的特征将数据采集日志解析为文本字段、日期时间字段和数值字段;其中,文本字段下的数据包括企业的名称、地址、邮编、电话号码以及能源设备的类型、型号;日期时间字段下的数据为运行数据的生成时间;数值字段下的数据包括能源设备的实时能源消耗量、实时能源产量、实时碳排放量以及实时产热量、企业消耗的各类能源的单价、能源设备的运维成本以及传输能源的成本。
[0006]可选的,所述S200包括:为标准格式模版建立对应的正则表达式;将文本字段进行分词处理得到子文本字段,将子文本字段与正则表达式进行匹配,将匹配成功的子文本字段调整为与标准格式模板一致的格式,若存在未匹配成功的子文本字段,将未匹配成功的子文本字段设置为新的标准格式模版;将所有子文本字段按照在文本字段中的原始顺序拼接,得到调整为标准模板规定格式的文本字段。
[0007]可选的,所述S300包括:确定对应相同文本字段的日期时间字段和数值字段;以所述日期时间字段中的日期时间为横坐标,以数值字段中的数据为纵坐标,基于最小二乘法进行数据拟合,得到拟合曲线;若拟合曲线的趋势呈线性或周期性,将拟合曲线对应的数值字段中的数据判定为时序数据,否则判定为非时序数据。
[0008]可选的,所述基于与拟合曲线的偏离程度标记数值字段的第一异常数据,包括:依次计算相同日期时间字段下时序数据与拟合曲线上拟合值的偏离误差,若所述偏离误差超过第二预设限值,则将所述时序数据标记为第一异常数据。
[0009]可选的,所述基于孤立森林算法构建数值字段的二叉树,根据数值字段中的数据在二叉树中的异常分值标记数值字段的第二异常数据,包括:S410:在数值字段中随机抽取样本数据,为一棵二叉树随机选择样本数据的一个预设特征;S420:获取样本数据在选取的预设特征下的最大值和最小值,在最大值和最小值之间随机选择一个值作为二叉树的根节点,将样本数据中小于所述值的样本数据划到左分支,大于等于所述值的样本数据划到右分支;S430:在左右两个分支的样本数据中重复S420,直至样本数据不可再分,二叉树达
到最大深度;S440:重新选择另外一个预设特征,重复S410~S430构建另一棵二叉树,直至所有预设特征对应的二叉树都生成完毕;S450:确定各个非时序数据在各个二叉树中的所属节点,根据所属节点的二叉树路径与所属节点中样本数据的情况,估算非时序数据在所有二叉树中的异常分值,将异常分值大于第三预设限值的非时序数据标记为第二异常数据。
[0010]可选的,所述S450包括:获取非时序数据x与二叉树对应的特征值,确定所述特征值在二叉树中的所属叶节点,获取所属叶节点中的样本数以及非时序数据从二叉树的根节点到达所属叶节点过程中经过的边数;结合欧拉常数对样本数进行修正,计算边数与修正后的样本数的和为非时序数据在二叉树上的路径长度;计算非时序数据x在所有二叉树上路径长度的平均值,将所述平均值与修正后的样本数的比值取反后作为指数进行幂运算,所述幂运算的底为2;将幂运算的结果作为非时序数据的异常分值。
[0011]可选的,所述样本数的修正计算公式为:C(T.size)=2[ln(T.size

1)+c]‑
[2(T.size

1)/T.size];其中,C(T.size)表示修正后的样本数,T.size为样本数,c为欧拉常数。
[0012]可选的,所述S500包括:若拟合曲线呈周期性,确定拟合曲线的周期,计算与第一异常数据的时间间隔为周期整数倍的时序数据的平均值,得到第一异常数据的修正建议值;若拟合曲线呈非周期性,将拟合曲线中与第一异常数据对应同一日期时间字段的拟合值作为第一异常数据的修正建议值。
[0013]可选的,所述S600包括:获取数值字段中其他数据在二叉树中的异常分值,取所述异常分值的倒数进行归一化处理,将归一化处理后的结果作为修正权重;基于修正权重对其他数据进行加权求和,将加权求和的结果作为第二异常数据的修正建议值,将第二异常本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低业务依赖的能源数据智能稽核方法,其特征在于,包括:S100:能源数据中心获取企业中各个能源设备产生的运行数据,剔除运行数据中与能源无关的无效数据后生成数据采集日志,通过特征提取确定数据采集日志中相互对应的文本字段、日期时间字段以及数值字段;S200:获取预先设置的标准模板,通过正则匹配分别将文本字段、日期时间字段调整为标准模板规定的格式;S300:对调整后相同文本字段对应的日期时间字段和数值字段进行数据拟合,得到与数值字段对应的拟合曲线,根据拟合曲线的趋势判断数值字段中的数据是否为时序数据;S400:若为时序数据,基于与拟合曲线的偏离程度标记数值字段的第一异常数据,若为非时序数据,基于孤立森林算法构建数值字段的二叉树,根据数值字段中的数据在二叉树中的异常分值标记数值字段的第二异常数据;S500:计算第一异常数据在数值字段中的第一占比,若第一占比未超过预设限值,根据拟合曲线的趋势生成第一异常数据的修正建议值,若第一占比超过第一预设限值,向能源设备发送稽核未通过的信息;S600:计算第二异常数据在数值字段中的第二占比,若第二占比未超过预设限值,根据数值字段中其他数据在二叉树中的异常分值确定修正权重,所述其他数据为数值字段中除第二异常数据以外的数据,根据对其他数据以修正权重进行加权求和的结果生成第二异常数据的修正建议值,若第二占比超过第一预设限值,向能源设备发送稽核未通过的信息。2.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法,其特征在于,所述S100包括:获取数据采集日志中用于解释数据类型的元数据,对元数据进行特征提取,根据元数据的特征将数据采集日志解析为文本字段、日期时间字段和数值字段;其中,文本字段下的数据包括企业的名称、地址、邮编、电话号码以及能源设备的类型、型号;日期时间字段下的数据为运行数据的生成时间;数值字段下的数据包括能源设备的实时能源消耗量、实时能源产量、实时碳排放量以及实时产热量、企业消耗的各类能源的单价、能源设备的运维成本以及传输能源的成本。3.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法,其特征在于,所述S200包括:为文本字段的标准格式模版建立对应的正则表达式;将文本字段进行分词处理得到子文本字段,将子文本字段与正则表达式进行匹配,将匹配成功的子文本字段调整为与标准格式模板一致的格式,若存在未匹配成功的子文本字段,将未匹配成功的子文本字段设置为新的标准格式模版;将所有子文本字段按照在文本字段中的原始顺序拼接,得到调整为标准模板规定格式的文本字段;确定预设的时间标准格式,将所有日期时间字段调整至与时间标准格式一致。4.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法,其特征在于,所述S300包括:确定对应相同文本字段的日期时间字段和数值字段;
以所述日期时间字段中的日期时间为横坐标,以数值字段中的数据为纵坐标,基于最小二乘法进行数据拟合,得到拟合曲线;若拟合曲线的趋势呈线性或周期性,将拟合曲线对应的数值字段中的数据判定为时序数据,否则判定为非时序数据。5.根据权利要求1所述的一种低业务依赖的能源数据智...

【专利技术属性】
技术研发人员:何东应张驰黄海潮谢裕清陈珊张烨华冯珺毛冬赵帅
申请(专利权)人:国网浙江省电力有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1