一种低业务依赖的能源数据智能稽核方法技术

技术编号：31011797 阅读：64 留言：0更新日期：2021-11-30 00:39

本发明专利技术提出了一种低业务依赖的能源数据智能稽核方法，包括：确定相互对应的文本字段、日期时间字段以及数值字段；将文本字段、日期时间字段调整为标准模板规定的格式；对日期时间字段和数值字段进行数据拟合，判断数值字段中的数据，若为时序数据，基于与拟合曲线的偏离程度标记数值字段的第一异常数据，若为非时序数据，基于孤立森林算法标记数值字段的第二异常数据；根据拟合曲线的趋势生成第一异常数据的修正建议值；根据数值字段中其他数据在二叉树中的异常分值确定修正权重，根据加权求和的结果生成第二异常数据的修正建议值。由业务规则驱动的稽核方式转变为由数据本身特征驱动，提高了能源数据的稽核效率与异常数据修正的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种低业务依赖的能源数据智能稽核方法

[0001]本专利技术属于数据处理
，尤其涉及一种低业务依赖的能源数据智能稽核方法。

技术介绍

[0002]数据质量稽核是数据质量管控的重要环节，其目的在于将海量数据处理为符合既定规则的数据，以满足用户在后续业务中对数据的使用需求。目前，各类能源企业通过多年的信息化建设与运行，已经累积了海量数据，覆盖能源生产、传输、消费的全产业链，数据价值潜力巨大。因此，数据质量稽核在能源企业的信息化建设中十分关键。
[0003]现有的数据质量稽核方法主要根据能源企业的具体业务内容制定相应的稽核规则，由于所要稽核处理的能源数据因地区和行业的自然界限，导致数据分散在不同的能源企业和不同的地区，来自电力、石油、天然气、煤炭、水等多个能源行业由于数据标准和业务内容的不同，其能源数据的特点存在较大的差异，现有的数据质量稽核方法往往是仅针对单一类型的数据制定的，在检测出异常数据后仍需要熟悉相关业务的人员针对不同数据特点对异常数据进行人工修正，或者预先针对不同业务建立一定标准数据，通过与标准数据进行比对无法实现异常数据的修正，上述方法要求对业务情况十分熟悉才能实现正确的人工修正或建立准确的标准数据，导致能源数据的稽核效率较低，并且对异常数据的修正容易受到主观因素影响，进而对于能源数据的汇聚、整合、分析和价值变现存在着很大的束缚和制约。

技术实现思路

[0004]为了解决现有技术中存在的缺点和不足，本专利技术提出了一种低业务依赖的能源数据智能稽核方法，包括：S100：能源数据中心...

【技术保护点】

【技术特征摘要】
1.一种低业务依赖的能源数据智能稽核方法，其特征在于，包括：S100：能源数据中心获取企业中各个能源设备产生的运行数据，剔除运行数据中与能源无关的无效数据后生成数据采集日志，通过特征提取确定数据采集日志中相互对应的文本字段、日期时间字段以及数值字段；S200：获取预先设置的标准模板，通过正则匹配分别将文本字段、日期时间字段调整为标准模板规定的格式；S300：对调整后相同文本字段对应的日期时间字段和数值字段进行数据拟合，得到与数值字段对应的拟合曲线，根据拟合曲线的趋势判断数值字段中的数据是否为时序数据；S400：若为时序数据，基于与拟合曲线的偏离程度标记数值字段的第一异常数据，若为非时序数据，基于孤立森林算法构建数值字段的二叉树，根据数值字段中的数据在二叉树中的异常分值标记数值字段的第二异常数据；S500：计算第一异常数据在数值字段中的第一占比，若第一占比未超过预设限值，根据拟合曲线的趋势生成第一异常数据的修正建议值，若第一占比超过第一预设限值，向能源设备发送稽核未通过的信息；S600：计算第二异常数据在数值字段中的第二占比，若第二占比未超过预设限值，根据数值字段中其他数据在二叉树中的异常分值确定修正权重，所述其他数据为数值字段中除第二异常数据以外的数据，根据对其他数据以修正权重进行加权求和的结果生成第二异常数据的修正建议值，若第二占比超过第一预设限值，向能源设备发送稽核未通过的信息。2.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述S100包括：获取数据采集日志中用于解释数据类型的元数据，对元数据进行特征提取，根据元数据的特征将数据采集日志解析为文本字段、日期时间字段和数值字段；其中，文本字段下的数据包括企业的名称、地址、邮编、电话号码以及能源设备的类型、型号；日期时间字段下的数据为运行数据的生成时间；数值字段下的数据包括能源设备的实时能源消耗量、实时能源产量、实时碳排放量以及实时产热量、企业消耗的各类能源的单价、能源设备的运维成本以及传输能源的成本。3.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述S200包括：为文本字段的标准格式模版建立对应的正则表达式；将文本字段进行分词处理得到子文本字段，将子文本字段与正则表达式进行匹配，将匹配成功的子文本字段调整为与标准格式模板一致的格式，若存在未匹配成功的子文本字段，将未匹配成功的子文本字段设置为新的标准格式模版；将所有子文本字段按照在文本字段中的原始顺序拼接，得到调整为标准模板规定格式的文本字段；确定预设的时间标准格式，将所有日期时间字段调整至与时间标准格式一致。4.根据权利要求1所述的一种低业务依赖的能源数据智能稽核方法，其特征在于，所述S300包括：确定对应相同文本字段的日期时间字段和数值字段；
以所述日期时间字段中的日期时间为横坐标，以数值字段中的数据为纵坐标，基于最小二乘法进行数据拟合，得到拟合曲线；若拟合曲线的趋势呈线性或周期性，将拟合曲线对应的数值字段中的数据判定为时序数据，否则判定为非时序数据。5.根据权利要求1所述的一种低业务依赖的能源数据智...

【专利技术属性】
技术研发人员：何东，应张驰，黄海潮，谢裕清，陈珊，张烨华，冯珺，毛冬，赵帅，
申请(专利权)人：国网浙江省电力有限公司信息通信分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人