一种空气质量数据缺失值插补方法及装置制造方法及图纸

技术编号:30347511 阅读:18 留言:0更新日期:2021-10-12 23:37
本发明专利技术公开一种空气质量数据缺失值插补方法及装置,其特征在于,包括:获取多个空气质量数据集;找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;对于每个第一时间点:从该第一时间点对应的空气质量数据集中得到第一空气质量数据序列,从所有其他空气质量数据集中得到多个第二空气质量数据序列;分别计算相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;计算多个第一协方差;计算对应的统计偏性;根据多个第一协方差和多个统计偏性计算权重;根据多个第三空气质量数据序列和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。点对应的空气质量数据。点对应的空气质量数据。

【技术实现步骤摘要】
一种空气质量数据缺失值插补方法及装置


[0001]本专利技术涉及数据处理领域,尤其涉及一种空气质量数据缺失值插补方法及装置。

技术介绍

[0002]为了实时监测空气质量,近年来一些空气质量监测站相继成立 ,然而特别是在早期,这些数据集中有许多缺失的记录,现有的空气质量数据缺失值的插补方法通常使用基于回归的方法、地统计方法和机器学习方法。基于回归的方法可能会导致过拟合问题,地统计方法的计算中没有对最小估计误差进行约束,而机器学习方法需要大量的空气质量数据来训练且缺乏明确定义统计参数的机制含义,现有的三种方法对于插补空气质量数据的缺失值的准确度都不够,所以本领域急需一种能够准确插补空气质量数据缺失值的方法。

技术实现思路

[0003]本专利技术提供一种空气质量数据缺失值插补方法及装置,以至少解决现有技术中存在的以上技术问题。
[0004]本专利技术一方面提供一种空气质量数据缺失值插补方法,包括:获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段的中包含该第一时间点;分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的偏性;根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
[0005]其中,所述从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,包括:将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
将第二时间点到第三时间点确定为第二预设时段;从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
[0006]其中,所述计算多个第三空气质量数据序列中两两序列之间的多个第一协方差之后,还包括:分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
[0007]其中,所述根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的偏性,包括:计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的偏性。
[0008]其中,所述根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重,包括:将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
[0009]本专利技术另一方面提供一种空气质量数据缺失值插补装置,包括:采集模块,用于获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;查找模块,用于遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;处理模块,用于对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;计算模块,用于分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;所述计算模块,还用于计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;所述计算模块,还用于根据多个第三空气质量数据序列与第一空气质量数据序列
计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;所述计算模块,还用于根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;所述计算模块,还用于根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
[0010]其中,所述处理模块,还用于将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;所述处理模块,还用于将第二时间点到第三时间点确定为第二预设时段;所述处理模块,还用于从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
[0011]其中,所述计算模块,还用于分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
[0012]其中,所述计算模块,还用于计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;所述计算模块,还用于分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的偏性。
[0013]其中,所述计算模块,还用于将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;所述计算模块,还用于将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;所述计算模块,还用于将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;所述计算模块,还用于根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
[0014]在本专利技术上述方法中,通过找出与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个第三空气质量序列,再根据多个第三空气质量序列计算与缺本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空气质量数据缺失值插补方法,其特征在于,包括:获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。2.根据权利要求1所述的空气质量数据缺失值插补方法,其特征在于,所述从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,包括:将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;将第二时间点到第三时间点确定为第二预设时段;从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。3.根据权利要求1所述的空气质量数据缺失值插补方法,其特征在于,所述计算多个第三空气质量数据序列中两两序列之间的多个第一协方差之后,还包括:分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。4.根据权利要求1所述的空气质量数据缺失值插补方法,其特征在于,所述根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性,包括:计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。5.根据权利要求3所述的空气质量数据缺失值插补方法,其特征在于,所述根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重,包括:
将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;根据第一...

【专利技术属性】
技术研发人员:徐成东胡茂桂殷倩王伟王丽
申请(专利权)人:中国科学院地理科学与资源研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1