一种面向电力大数据的数据质量分析评价模型制造技术

技术编号:16970372 阅读:48 留言:0更新日期:2018-01-07 07:00
本发明专利技术公开了一种面向电力大数据的数据质量分析评价模型,其核心功能是通过对基础模型中采集计划及约束规则处理,经由数据质量控制模型调用实现检查分析的后台存储,并在实体库中执行检查、形成查询结果,由分析程序进行分析、计算、分类、汇总,生成反映计划完成情况与数据质量量化指标结果,将结果存储到分析结果表中,由前台调用该分析结果表,可生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告。本发明专利技术提高了数据质量分析与评价的自动化水平,实现数据质量的智能管控,满足大批量数据质量控制需要,实现了对数据完整性、及时性、准确性、一致性等关键指标的量化分析及评价。

【技术实现步骤摘要】
一种面向电力大数据的数据质量分析评价模型
本专利技术涉及智能配用电
,尤其是一种面向电力大数据的数据质量分析评价模型。
技术介绍
随着电力系统的迅速发展,信息化进程不断深入,信息系统内业务数据的数量和种类的逐步增多,数据共享需求迫切。数据作为一种资源,具有横跨专业多、数据采集密度大、频度高、数据处理流程复杂等特点,是支撑信息化建设和应用的主体。目前电力部分已经累积了大量的电力统计数据,其中不可避免的会有异常、冗余或不完整的数据,由此产生的电力统计数据的异常、冗余与遗漏等质量问题日益突出,无法满足数据挖掘算法要求,从中精准挖掘有效信息也存在巨大挑战,海量实际数据中无意义的成分很多,严重影响数据挖掘算法的执行效率,随着应用的深入,暴露出数据重复录入、存储,数据质量有待提高等问题,数据质量的提高已经成为数据挖掘系统实现过程中的关键问题。针对电力数据数量多、来源广、种类庞杂、缺乏统一规范标准、数据质量管控滞后等特点引起的数据质量不高问题,传统的数据稽查手段匮乏已经难以适应当前电网业务快速发展需求,建立新的数据质量标准、研发新的数据质量稽查手段已成为必然。为适应电力市场发展,提高数据利用率,亟需建立一套完善的数据定义、控制、评估流程,依托科学严谨的数据监督和质量控制体系持续地改进数据质量,形成一个完整性的数据质量管控体系和全面有效的数据质量评价体系,制约数据价值的深度挖掘实现对供电企业数据的全过程质量管理,夯实数据基础,提升数据质量,保障数据的准确、及时、有效和可信,为数据的集成和挖掘应用提供有力保障。
技术实现思路
本专利技术要解决的技术问题是提供一种面向电力大数据的数据质量分析评价模型,其为数据的集成和挖掘应用提供了有力保障。为了解决上述技术问题,本专利技术的一种面向电力大数据的数据质量分析评价模型包括基础模型、数据质量定义模型、数据质量控制模型、数据质量评价模型以及数据质量辅助管理模型;基础模型,其是整个模型框架的支撑,是其他质量模型的定义和标准,主要包括映射、定义数据采集标准,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范,其中,数据标准囊括了直接映射应用中的标准及新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准、值域定义标准的建立规范,约束规则定义规范主要描述质量定义模型中的语法构成,控制规则定义规范针对后台执行过程的控制方式使用说明;数据质量定义模型,其是数据质量分析评价的依据和基础,实现对数据质量统一规范的定义,可使用质量特性描述,其特性可归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性,此外还包括数据的时效性、有用性、合法性,其中,数据的一致性是指不同系统之间数据差异和相互矛盾的一致性,包括源系统之间同一数据是否一致,源数据与抽取的数据是否一致,数据中心内部各处理环节数据是否一致,主要用来检查数据直接勾稽关系是否正确,数据的准确性主要是指数据的来源是否正确,是对数据的描述语言应该满足准确和简介的标准,包括数据源是否准确、数据值域是否符合业务规则和客观事实、编码映射关系是否准确、处理逻辑是否准确,要求必须具备准确性和可靠性,有效反映实际情况,数据的及时性是指数据提取、传送、处理、装载、展现的及时和快速性,包括数据处理的及时性、数据异常检测的及时性、数据处理更新的及时性,数据的完整性是指确保相关数据的完整无缺失,包括数据源是否完整、数据取值是否完整、实体类型、属性特征、记录、字段值是否完整,数据合法性主要指格式、类型、值域和业务规则的有效性,时效性是判断数据是否满足用户需求的重要标准,描述数据的时间特性对应用的满足程度,有用性主要指数据本身的利用价值以及它的使用带来的利益程度,此外,还应包括安全问题,即数据的使用权应该受到一定的限制,以确保数据的保密性;数据质量控制模型,其以数据质量定义模型为基础,按照定义的检查范围和时间以自动或手工方式完成对数据质量的检查工作,可通过数据质量的关键特性和指标反映出来,包括对数据检查对象、数据检查频度、数据检查时间、数据检查方式的控制,其中,数据检查对象指根据采集计划设定需要检查的用户、专业数据表、数据库实体,数据检查频度指根据数据表的采集计划和实际发生的频度,设定存储过程的检查执行频率,数据检查时间指根据每日生产应用的密集时间以及数据发生到采集入库的密集时间,综合设定一个检查开始执行的时刻,数据检查方式指执行检查过程的方式可由后台过程自动控制的定时自检或由人工干预的手动检查;数据质量评价模型,其以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表对数据质量进行评价,实现对数据质量的量化诊断和评价;数据质量辅助管理模型,其包括报告模版管理、权限管理、数据库资源占用情况。本专利技术的有益效果是:本专利技术针对现有配用电信息领域电力大数据的数据质量评价问题,通过分析数据质量问题产生的原因,以数据的一致性、数据的准确性、数据的完整性、数据的及时性等关键指标为基础,构建数据质量评价指标体系,提出了适合于电力大数据数据质量控制与评估体系模型,提高了数据质量分析与评价的自动化水平,实现数据质量的智能管控,满足大批量数据质量控制需要,实现了对数据完整性、及时性、准确性、一致性等关键指标的量化分析及评价,确保电网数据质量,提升数据应用价值。附图说明图1为电力大数据质量评价模型图;图2为数据质量稽查考核指标图;图3是数据质量分析评价模型功能架构图;图4是程序实现流程图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明:1、传统的数据质量只包括数据的精确性,其衡量标准是数据采集中的误差,现代数据质量概念内涵日益丰富,广义上的数据质量是一个相对的属性概念,具有一定综合性,主要是指数据对特定客户的满意程度,其标准会根据用户需求与时间的不同表现出不同数据质量,高质量的数据是数据分析结论有效性和准确性的基础,也是竞争力与决策力最重要的前提和保障。2、数据质量评价方法是指针对目前电网大数据,从数据的重要性、区域性、差异性、完整度、实时性等多维度建立数据质量评价指标体系,利用数据挖掘技术对电网数据质量进行全方位的系统评价,进而构建数据质量评价模型,以提升数据质量,保障数据的准确性、及时性、可信度的一种有效手段,可为数据的集成和挖掘应用提供有力保障。3、面向电力大数据的数据质量评价方法是指目前国网针对指标型数据形成的质量评价标准和评价方法,包括质量评价指标、质量评价模型两部分。具体研究内容如下:(1)开展大数据下的数据质量评价指标设计研究,分析电力大数据环境下数据质量的主要影响因素,从数据的一致性、及时性、完整性、准确性等维度设计关键指标,构建大数据环境下的数据质量评价指标,用于指导并考核大数据下系统数据质量。(2)构建全面的数据质量检查规则,针对指标型、明细型、外部数据的不同特点,构建不同的电力大数据质量评价模型,包括数据质量指标定义模型、数据质量评估算法或规则及数据质量诊断与评价等。图1为电力大数据质量评价模型研究方案,所描述的数据模型是指若干校验规则的集合,即评价项的集合,参照数据评价指标,构建规则库,每条评价指标对应着一条动态规则,基本规则包括数据一致性规则、数据完整性本文档来自技高网...
一种面向电力大数据的数据质量分析评价模型

【技术保护点】
一种面向电力大数据的数据质量分析评价模型,其特征在于:包括基础模型、数据质量定义模型、数据质量控制模型、数据质量评价模型以及数据质量辅助管理模型;基础模型,其是整个模型框架的支撑,是其他质量模型的定义和标准,主要包括映射、定义数据采集标准,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范,其中,数据标准囊括了直接映射应用中的标准及新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准、值域定义标准的建立规范,约束规则定义规范主要描述质量定义模型中的语法构成,控制规则定义规范针对后台执行过程的控制方式使用说明;数据质量定义模型,其是数据质量分析评价的依据和基础,实现对数据质量统一规范的定义,可使用质量特性描述,其特性可归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性,此外还包括数据的时效性、有用性、合法性,其中,数据的一致性是指不同系统之间数据差异和相互矛盾的一致性,包括源系统之间同一数据是否一致,源数据与抽取的数据是否一致,数据中心内部各处理环节数据是否一致,主要用来检查数据直接勾稽关系是否正确,数据的准确性主要是指数据的来源是否正确,是对数据的描述语言应该满足准确和简介的标准,包括数据源是否准确、数据值域是否符合业务规则和客观事实、编码映射关系是否准确、处理逻辑是否准确,要求必须具备准确性和可靠性,有效反映实际情况,数据的及时性是指数据提取、传送、处理、装载、展现的及时和快速性,包括数据处理的及时性、数据异常检测的及时性、数据处理更新的及时性,数据的完整性是指确保相关数据的完整无缺失,包括数据源是否完整、数据取值是否完整、实体类型、属性特征、记录、字段值是否完整,数据合法性主要指格式、类型、值域和业务规则的有效性,时效性是判断数据是否满足用户需求的重要标准,描述数据的时间特性对应用的满足程度,有用性主要指数据本身的利用价值以及它的使用带来的利益程度,此外,还应包括安全问题,即数据的使用权应该受到一定的限制,以确保数据的保密性;数据质量控制模型,其以数据质量定义模型为基础,按照定义的检查范围和时间以自动或手工方式完成对数据质量的检查工作,可通过数据质量的关键特性和指标反映出来,包括对数据检查对象、数据检查频度、数据检查时间、数据检查方式的控制,其中,数据检查对象指根据采集计划设定需要检查的用户、专业数据表、数据库实体,数据检查频度指根据数据表的采集计划和实际发生的频度,设定存储过程的检查执行频率,数据检查时间指根据每日生产应用的密集时间以及数据发生到采集入库的密集时间,综合设定一个检查开始执行的时刻,数据检查方式指执行检查过程的方式可由后台过程自动控制的定时自检或由人工干预的手动检查;数据质量评价模型,其以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表对数据质量进行评价,实现对数据质量的量化诊断和评价;数据质量辅助管理模型,其包括报告模版管理、权限管理、数据库资源占用情况。...

【技术特征摘要】
1.一种面向电力大数据的数据质量分析评价模型,其特征在于:包括基础模型、数据质量定义模型、数据质量控制模型、数据质量评价模型以及数据质量辅助管理模型;基础模型,其是整个模型框架的支撑,是其他质量模型的定义和标准,主要包括映射、定义数据采集标准,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范,其中,数据标准囊括了直接映射应用中的标准及新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准、值域定义标准的建立规范,约束规则定义规范主要描述质量定义模型中的语法构成,控制规则定义规范针对后台执行过程的控制方式使用说明;数据质量定义模型,其是数据质量分析评价的依据和基础,实现对数据质量统一规范的定义,可使用质量特性描述,其特性可归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性,此外还包括数据的时效性、有用性、合法性,其中,数据的一致性是指不同系统之间数据差异和相互矛盾的一致性,包括源系统之间同一数据是否一致,源数据与抽取的数据是否一致,数据中心内部各处理环节数据是否一致,主要用来检查数据直接勾稽关系是否正确,数据的准确性主要是指数据的来源是否正确,是对数据的描述语言应该满足准确和简介的标准,包括数据源是否准确、数据值域是否符合业务规则和客观事实、编码映射关系是否准确、处理逻辑是否准确,要求必须具备准确性和可靠性,有效反映实际情况,数据的及时性是指数据提取、传送、处理、装载、展现的及时和快速性,...

【专利技术属性】
技术研发人员:王冬张剑杨庆双刘建宇张志刚田娜刘金华曹筱欧杨宇全秦永保王超陆涛
申请(专利权)人:国网天津市电力公司国家电网公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1