一种水环境大数据清洗方法技术

技术编号:28978352 阅读:26 留言:0更新日期:2021-06-23 09:24
本发明专利技术提供的水环境大数据清洗方法,涉及计算机数据处理技术领域,应用至多源异构水环境的数据清洗;本发明专利技术通过建立水环境数据清洗模型、提出清洗流程及清洗规则,介绍了水环境数据清洗的方案,解决了多源异构水环境数据收集应用时容易发生错误及冲突的问题,实现了水环境数据共享,有助于完整获取水环境数据、提高水环境的监管效率。

【技术实现步骤摘要】
一种水环境大数据清洗方法
本专利技术涉及计算机数据处理
,具体涉及一种水环境大数据清洗方法。
技术介绍
水环境相关的信息系统涉及到断面水质监测、水质自动站监测、重点污染源自动监控、蓝藻水华监测预警、污染源普查、排污权交易、气象监测等多个系统,种类繁杂。这些系统从技术路线、网络结构、部署方式、数据格式、编码体系等各个方面均有很大的差别,数据分散在不同的业务部门,在物理上和逻辑上都是相对独立的,数据结构差异很大,难以直接交换,形成了“信息孤岛”或“应用孤岛”。水环境数据的清洗技术是建立数据交换平台实现数据传输与交换的一项重要技术手段。对数据进行数据清洗,一方面可以减少数据收集、存储中存在的错误数据和空缺数据,提高数据质量:另一方面通过对数据多维度清洗方法进行研究,全面的对数据进行清洗,便于后面对数据进行决策性分析、进行数据挖掘等。在数据清洗中,数据挖掘算法一般无法直接处理不完整的数据集,因此处理此问题通常的最简单方法是删除,即直接删除有缺失值的数据。但是,这种方法仅适用于非常小的丢失率,如5%。丢失率非常大的时候,比如20%,仅仅使用本文档来自技高网...

【技术保护点】
1.一种水环境大数据清洗方法,其特征在于,包括如下步骤:/n1)获取数据集,对数据集进行数据分析,检测并归纳数据集中存在的脏数据分类及特点;/n2)根据数据分析获得的脏数据分类及特点初步制定脏数据的清洗转换规则;/n3)根据数据集、数据分析结果和清洗转换规则建立数据清洗模型;/n4)选取数据集中的脏数据样本按照对应的清洗转换规则执行数据清洗,验证数据清洗质量;/n5)若数据清洗质量不满足预设数据质量要求,调整数据清洗模型参数,并改进对应的清洗转换规则,获得满足预设数据质量要求的清洗转换规则和数据清洗模型参数;/n6)对数据集中的所有脏数据在数据清洗模型中按照获得的数据清洗模型参数和清洗转换规则...

【技术特征摘要】
1.一种水环境大数据清洗方法,其特征在于,包括如下步骤:
1)获取数据集,对数据集进行数据分析,检测并归纳数据集中存在的脏数据分类及特点;
2)根据数据分析获得的脏数据分类及特点初步制定脏数据的清洗转换规则;
3)根据数据集、数据分析结果和清洗转换规则建立数据清洗模型;
4)选取数据集中的脏数据样本按照对应的清洗转换规则执行数据清洗,验证数据清洗质量;
5)若数据清洗质量不满足预设数据质量要求,调整数据清洗模型参数,并改进对应的清洗转换规则,获得满足预设数据质量要求的清洗转换规则和数据清洗模型参数;
6)对数据集中的所有脏数据在数据清洗模型中按照获得的数据清洗模型参数和清洗转换规则执行数据清洗;
7)数据清洗完成后,将清洗干净的数据替换掉数据集中的脏数据。


2.根据权利要求1所述的水环境大数据清洗方法,其特征在于,所述脏数据分类包括缺失值数据、格式错误数据、逻辑错误数据、空值数据和非需求数据。


3.根据权利要求2所述的水环境大数据清洗方法,其特征在于,所述缺失值数据清洗转换规则为:
对缺失值数据的每个字段计算其缺失值比例,以及根据业务逻辑和分析需求计量字段的重要性;其中,字段缺失值比例小于2%记为字段缺失率低,字段含有水环境大数据任一关注因素记为字段重要性高;
当字段缺失率高、重要性高,缺失值数据清洗策略为:通过查找真实数据补全缺失值、重新检测补全缺失值,以及通过字段间逻辑关机计算获得缺失值内容补全缺失值;
当字段缺失率低、重要性高,缺失值数据清洗策略为:通过同一指标的计算结果填充缺失值,以及通过行业经验值或估计值填充缺失值;所述同一指标的计算结果包括均值、中位数、众数;
当字段缺失率高、重要性低,缺失值数据清洗策略为:去除该字段;
当字段缺失率低、重要性低,缺失值数据清洗策略为:直接保留或简单填充缺失值;...

【专利技术属性】
技术研发人员:徐益强吴昌子郇洪江周瑞生伍耀东
申请(专利权)人:江苏省生态环境监控中心江苏省环境信息中心
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1