一种基于电力物联网平台的数据质量检测方法技术

技术编号:23512662 阅读:25 留言:0更新日期:2020-03-18 00:01
本发明专利技术提出一种基于电力物联网平台的数据质量检测方法,包括数据采集、分析及异常检测,异常检测包括在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器;提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造停止条件及深度预设最大值;构建多颗隔离树;构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,对量测实时流数据计算平均分割深度,依深度值确定是否是异常数据;按时间分界点初始化历史数据,修改实时数据的消费偏移量,保证批处理和实时处理数据无缝衔接。上述方法能提升泛在电力物联网平台数据质量。

A data quality detection method based on the power Internet of things platform

【技术实现步骤摘要】
一种基于电力物联网平台的数据质量检测方法
本专利技术涉及数据质量检测方法
,尤其涉及一种基于电力物联网平台的数据质量检测方法。
技术介绍
当前国家电网公司信息内网建成了覆盖公司总部及27家省(市)公司的两级全业务统一数据中心分析域,初步具备了数据接入、数据存储计算、数据分析应用相关能力,实现公司核心业务系统数据的接入及整合汇聚,支撑了各专业数据分析类应用的构建,全业务统一数据中心已成为国家电网公司泛在电力物联网平台的重要组成部分。全业务统一数据中心分析域在数据分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题,具体如下:技术组件多样,应用难度大。分析域主要包括数据接入、数据存储、数据计算等方面的多个技术组件,涉及厂商多,组件之间技术集成复杂,对专业能力要求高,应用难度大。找数据困难,数据应用门槛高。一是当前分析域未形成完整的数据资源目录,数据资源检索困难;二是分析域目前尚未构建数据服务,数据应用复用性差,增加数据应用难度。数据模型管控机制待完善。当前全域数据模型尚不成熟,需要在应用过程中快速持续迭代;另外,数据模型管控基于人工线下流程处理,效率低,响应慢。因此,一套成熟完整的电力物联网平台的数据质量检测方法的设计与实现,具有现实意义。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提出了一种基于电力物联网平台的数据质量检测方法,以便通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。为了实现上述目的,本专利技术提出了一种基于电力物联网平台的数据质量检测方法,包括以下步骤:步骤1、数据采集,其包括以下步骤:步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;步骤2、数据分析,其包括以下步骤:步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求;步骤3、数据异常检测,其包括以下步骤:步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器;步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值;步骤303、引入集成学习方法,构建多颗隔离树;步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据,当深度值的大小超过预设的最大值,则为异常,反之,数据是正常;步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。优选的是,在所述步骤102中,通过消息队列、数据复制或ETL形式,将采集到的数据按照预定频度传送至数据存储层。本专利技术的该方案的有益效果在于上述基于电力物联网平台的数据质量检测方法能够通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。具体实施方式下面对本专利技术的具体实施方式作进一步的说明。本专利技术所涉及的基于电力物联网平台的数据质量检测方法包括以下步骤:步骤1、数据采集,其包括以下步骤:步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据。采集的数据类型包括结构化数据、非结构化数据、采集量测类数据以及E格式文件和特定规约的消息数据,例如一些特殊部门或者某项业务需要收集某一个电力系统指标数据的时候,我们就需要对此类需求进行特定规约收集。步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测。其中可以通过消息队列、数据复制、ETL等形式,将采集到的数据按照一定频度传送至数据存储层。其中根据相关需求对数据进行加工计算,例如是根据相关业务部门或者电力检测对于某一项业务数据的需要进行筛选判定,此时,对数据进行一些阈值筛选和数据源转换计算,以方便后续数据质量检测。步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库。步骤2、数据分析,其包括以下步骤:步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模。随着操作时间的增加,量测数据异常的概率增加。假设已知n个量测数据异常类型,并且有第i个量测异常类型的数据集Xi,还有一个正常数据的量测数据集Xnormal。然后可以获得一个训练量测数据集X={X1,X2,…,Xn,Xnormal},normal=n+1。对于任何量测数据集,它可能包含新的未知数据异常X'new,X'={X'1,…,X'n,X'normal,X'new},new=n+2。上述方法针对量测数据,分类识别出新出现的量测数据异常X'new。步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算。步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求。步骤3、数据异常检测,其包括以下步骤:步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器。步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值。步骤303、引入集成学习方法,构建多颗隔离树。由于随机特性,仅仅构建一颗隔离树并不能良好的进行异常判断,故引入集成学习方法,构建多颗隔离树。...

【技术保护点】
1.一种基于电力物联网平台的数据质量检测方法,其特征在于:包括以下步骤:/n步骤1、数据采集,其包括以下步骤:/n步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;/n步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;/n步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;/n步骤2、数据分析,其包括以下步骤:/n步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;/n步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;/n步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求;/n步骤3、数据异常检测,其包括以下步骤:/n步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器;/n步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值;/n步骤303、引入集成学习方法,构建多颗隔离树;/n步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据,当深度值的大小超过预设的最大值,则为异常,反之,数据是正常;/n步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。/n...

【技术特征摘要】
1.一种基于电力物联网平台的数据质量检测方法,其特征在于:包括以下步骤:
步骤1、数据采集,其包括以下步骤:
步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;
步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;
步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;
步骤2、数据分析,其包括以下步骤:
步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;
步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;
步骤203、将离线数据借助Hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数...

【专利技术属性】
技术研发人员:常英贤孙锡洲范春磊徐康卢媛冷小洁栾卫平杨尉穆芮顾建伟王伟荣俊兴李维娜张睿杨冉昕赵慧群周子程张志浩黄征冯逊周学军张赟王文亮高丰施举鹏李静
申请(专利权)人:国网山东省电力公司威海供电公司南京航空航天大学国家电网有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1