一种基于时空数据清洗技术的水环境治理预测系统及其方法技术方案

技术编号:36969655 阅读:14 留言:0更新日期:2023-03-22 19:30
本发明专利技术公开了一种基于时空数据清洗技术的水环境治理预测系统及其方法,包括数据采集模块和监测中心,所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏,实时数据和历史数据均存储在检测中心的数据库中,通过求取有序集合的交计算相似度,时间复杂度为0(m+n),在召回率相同的情况下,提高了算法的时间效率,有效避免了由于对排序键依赖性强而可能使重复记录排序后位置相距较远的问题,通过采用低复杂度的匹配方法分步聚类,进一步达到提高算法的时间效率的目的,可以快速准确地找到且清洗掉数据中的重复记录,确保用于水环境治理预测模块的数据的质量,从而提高水环境治理预测的准确度。度。度。

【技术实现步骤摘要】
一种基于时空数据清洗技术的水环境治理预测系统及其方法


[0001]本专利技术涉及水环境治理
,特别是一种基于时空数据清洗技术的水环境治理预测系统及其方法。

技术介绍

[0002]水环境的治理具有重要的意义,通过各种各样的水质检测装置从河水中进行取样,对河水进行分析,从而获得河水的含氧量、氮磷浓度、污染物浓度等数据,通过大数据对数据进行整理、分析,从而可以对河水未来的含氧量、氮磷浓度等发展趋势进行预测,常见的预测方法有数字模型法、物理模型法、类比分析法。
[0003]水环境治理预测对数据的依赖性很强,但是从多个数据源导入数据库的数据会存在各种质量问题,比如缺失数据、冗余数据(重复数据)、范围异常数据、异常数据。通过时空数据清洗技术发现、清理数据中的错误来提高数据的质量。处理后的数据质量、准确性提高,促进应用于数据仓库前端的决策支持系统产生的分析结果的准确度提高,预测的结果更加贴合实际情况,水环境治理预测的准确度提高。常见的数据中的错误为重复记录,水环境检测时在同一时间、同一地点、同一采集项目的数据在数据库或者数据仓库中应该只有一条与之对应的记录,但是多个数据源进行集成时会产生大量的重复记录。
[0004]但是现有的邻近排序法在运行过程中,尽管将数据比较的范围限制在窗口大小为Q的范围内,但是在实际数据中,针对数据表而言,出现重复记录的记录还是很少的,大部分数据是没有重复的,这样窗口内的重复记录应该还是有限的,如果仍然将窗口的每条记录都和其他记录进行类似性比较,会导致求取记录相似性的复杂度大于0(m*n),对重复数据查找、去除的效率低,数据记录的匹配和合并的完整性和准确性有待提高;现有技术汇中可以通过编辑距离函数对于由输入错误而导致的字符串匹配有一定的效果,但是编辑距离函数对于长单词的插入和删除,其效果很差,而且该函数无法同时解决单词的位置交换问题、算法复杂度高,从而导致数据库中汇合的数据质量、真实性有待提高,导致水环境治理预测的结果偏离实际,准确度较低。

技术实现思路

[0005]鉴于上述现有的水环境治理预测系统中存在的问题,提出了本专利技术。
[0006]因此,本专利技术的一个目的是利用TI

similarity字符匹配方法和Canopy聚类技术改进的排序邻居法,并改善数据记录的匹配和合并问题,从而降低匹配方法的复杂度,提高算法的时间效率。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:一种基于时空数据清洗技术的水环境治理预测系统,包括数据采集模块和监测中心,所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏;
[0008]所述数据采集模块中采集的数据被转化为可传输的字段传输至数据库中进行保存;
[0009]所述数据库用于进行数据的存储和管理;
[0010]所述时空数据清洗模块用于对数据库中的数据进行处理,特别是字段的匹配,过滤掉错误、重复字段;
[0011]作为本专利技术的一种优选方案,所述数据采集模块由若干耐压传感器组成,安装在水质采集装置外壁上,所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心,该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。
[0012]作为本专利技术的一种优选方案,所述中央处理器采用Window系统,算法由Java语言编写,所述数据库使用AQLServer2014。
[0013]一种基于时空数据清洗技术的水环境治理预测方法,通过传感器组实时采集所检测河段的水质数据,将采集的数据通过北斗模块发送到监测中心的中央处理器,实时数据和历史数据均存储在监测中心的数据库中,通过时空数据清洗模块对数据库中的记录进行处理,将处理后的高质量的数据提供给水环境治理预测模块,水环境治理预测模块运行对数据进行分析、得到水质预测的结果,通过触摸显示屏展示出来。
[0014]作为本专利技术的一种优选方案,所述时空数据清洗模块中清洗重复记录的具体流程如下:
[0015]步骤一:预处理;第一,选择属性,选择用于记录匹配的属性,第二,给属性分配权值,根据属性再决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;
[0016]步骤二:重复记录检测;第一,使用快排序算法将每条记录的字段的字符集合排序,使之成为有序集合,两个大小为m和n的集合分别排序;第二,对有序集合求交,计算字段的相似度;对任意的三条记录A、B和C,应用TI

Similarity定义的相似度函数公式得到:
[0017]A和B的相似度值为
[0018]B和C的相似度值为
[0019]通过A、B和B、C的相似度值带入TI

similarity不等式关系距离函数d(A,B)来计算A、C的最大相似度和最小相似度,当A和C的最小相似度大于相似性判定的阈值时则认为A和C是重复记录;当A和C的最大相似度值小于相似性判定的阈值时则认为A和C是非重复的,即代表不同现实实体;当计算的相似度值不满足以上任何一种关系时,再采用精确的记录匹配方法计算A和C的相似性A和C是否重复记录;该字段匹配方法不需要A、C进行字符串的比较算法,可以减少记录之间比较的次数,从而提高进行清洗的时间效率;
[0020]步骤三:数据库级的重复记录聚类;第一阶段,使用近似地计算距离的函数approxDist粗略地创建一些重叠的子集,称为Canopy;
[0021]第二阶段,在每个Canopy内运用系统聚类方法精确地计算Canopy内的数据点,对Canopy内的重复记录进行聚类,如果距离最近的两类的距离大于阈值k,或者聚类数已经为1,则结束聚类操作。假设Canopy
i
内共有n(n>=2)个点,d
i
和d
j
(1=<i,j<=n)为Canopy
i
内任意两点,具体的聚类步骤如下:
[0022](1)计算n个数据点两两间的距离{d
ij
},记作D={d
ij
};
[0023](2)构造n个类,每个类只包含一个数据点;
[0024](3)比较得到距离最近的两个类,如果距离小于值k,把两类合并,转到步骤(4),否则转到步骤(5);
[0025](4)用最大距离法计算新类与当前类的距离,若类的个数等于1,转到步骤(5),否则回到步骤(3);
[0026](5)输出记录数大于等于2的聚类;
[0027]重复记录聚类中正确的那条记录被保存在数据库中,可以避免对整个数据表进行排列,通过系统聚类技术对数据库的近似重复记录进行聚类,得到重复记录后,做合并/删除重复记录的操作;
[0028]步骤四:冲突处理;采用基于密度聚类的技术,同一类中的数据记录可以看作近似重复记录,只保留一个离聚类中心点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空数据清洗技术的水环境治理预测系统,其特征在于:包括数据采集模块和监测中心,所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏;所述数据采集模块中采集的数据被转化为可传输的字段传输至数据库中进行保存;所述数据库用于进行数据的存储和管理;所述时空数据清洗模块用于对数据库中的数据进行处理,特别是字段的匹配,过滤掉错误、重复字段。2.如权利要求1所述的一种基于时空数据清洗技术的水环境治理预测系统,其特征在于:所述数据采集模块由若干耐压传感器组成,安装在水质采集装置外壁上,所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心,该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。3.如权利要求1所述的一种基于时空数据清洗技术的水环境治理预测系统,其特征在于:所述中央处理器采用Window系统,算法由Java语言编写,所述数据库使用AQLServer2014。4.如权利要求1

3任意一项所述的一种基于时空数据清洗技术的水环境治理预测方法,其特征在于:通过传感器组实时采集所检测河段的水质数据,将采集的数据通过北斗模块发送到监测中心的中央处理器,实时数据和历史数据均存储在监测中心的数据库中,通过时空数据清洗模块对数据库中的记录进行处理,将处理后的高质量的数据提供给水环境治理预测模块,水环境治理预测模块运行对数据进行分析、得到水质预测的结果,通过触摸显示屏展示出来。5.如权利要求4所述的一种基于时空数据清洗技术的水环境治理预测方法,其特征在于:所述时空数据清洗模块中清洗重复记录的具体流程如下:步骤一:预处理;第一,选择属性,选择用于记录匹配的属性,第二,给属性分配权值,根据属性再决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;步骤二:重复记录检测;第一,使用快排序算法将每条记录的字段的字符集合排序,使之成为有序集合,两个大小为m和n的集合分别排序;第二,对有序集合求交,计算字段的相似度;对任意的三条记录A、B和C,应用TI

Similarity定义的相似度函数公式得到:A和B的相似度值为B和C的相似度值为通过A、B和B、C的相似度值带入TI

similarity不等式关系距离函数d(A,B)来计算A、C的最大相似度和最小相似度,当A和C的最小相似度大于相似性判定的阈值时则认为A和C是重复记录;当A和C的最大相似度值小于相似性判定的阈值时则认为A和C是非重复的,即代表不同现实实体;当计算的相似度值不满足以上任何一种关系时,再采用精确的记录匹配方法计算A和C的相似性A和C是否重复记录;该字段匹配方法不需要A、C进行字符串的比较算法,可以减少记录之间比较的次数,从而提高进行清洗的时间效率;
步骤三:数据库级的重复记录聚类;第一阶段,使用近似地计算距离的函数approxDist粗略地创建一些重叠的子集,称为Canopy;第二阶段,在每个Canopy内运用系统聚类方法精确地计算Canopy内的数据点,对Canopy内的重复记录进行聚类,如果距离最近的两类的距离大于阈值k,或者聚类数已经为1,则结束聚类操作。假设Canopy
i
内共有n(n>=2)个点,d
i
和d
j
(1=<i,j&...

【专利技术属性】
技术研发人员:李琪庄子槺谢冠武方嘉炜宋巍巍魏祖帅潘翠红梁旻轩
申请(专利权)人:生态环境部华南环境科学研究所生态环境部生态环境应急研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1