一种基于实时历史数据库的数据清洗方法技术

技术编号：7614047 阅读：383 留言：0更新日期：2012-07-26 23:09

一种基于实时历史数据库的数据清洗方法，适用于一切使用实时历史数据库存储数据的领域，本申请以电厂信息化为应用背景，以过程数据为基础，以优良时间段为目标，设计并实现了一种实用性较强的数据清洗方法。该方法涉及到实时历史数据库测点的创建、过程数据的采集、实时库数据的查询、数据特性分析，最后提出了一种以阈值和倍率为参数的横向清洗算法，将不同采集周期过程数据进行了描述，最终得到了过程控制数据采集的坏时间段和优良时间段，清洗算法清晰，理论依据严谨，软件执行效率较高。该清洗方法已经在数据挖掘等系统中得到了应用。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据库，信息
，具体涉及一种数据清洗方法，可直接应用于采用实时历史数据库存储数据的行业，如电力、石油化工、冶金等领域。
技术介绍
随着信息技术在电力企业的普及，数据仓库在这个领域得到了进一步的应用。我们知道，数据仓库是面向主题的，那么，我们能不能通过面向被广泛应用于电厂的大量的实时历史数据，建立应用决策分析的数据仓库呢？显然是可以的。然而，实时历史数据库中数据质量的好坏是数据仓库应用成功与否的关键因素，许多数据仓库项目的失败就是因为对导入数据仓库的各种数据质量缺乏足够的重视。因此建立数据仓库的过程中，需要有效的技术手段和工具来提高导入数据仓库的数据质量。数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。目前，数据挖掘技术已经趋于成熟，并在银行、电信、保险、交通、零售(如超级市场)等商业领域有了很多成功的应用，我们可以通过应用数据挖掘技术，建立指导电厂实时运行的数据仓库，随着时间的推移，数据仓库的数据不断丰富和准确，为决策分析提供了强有力的事实依据。数据清洗处在数据挖掘过程的第一个环节，是对“脏数据”过滤的主要步骤之一，显然清洗算法准确性和彻底性则显得尤为重要。通常情况下，数据清洗大致都由三个阶段组成⑴数据分析、定义错误类型；⑵ 搜索、识别错误记录；(3)修正错误。第一阶段，尽管已有一些数据分析工具，但仍以人工分析为主。第二阶段，有两种基本的思路用于识别错误一种是发掘数据中存在的模式，然后利用这些模式清理数据；另一种是基于数据的，根据预定义的清理规则，查找不匹配的记录。后者用得更多。第三阶段，某些...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：黄孝彬，张晓刚，景超，
申请(专利权)人：北京华电天仁电力控制技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人