当前位置: 首页 > 专利查询>浙江大学专利>正文

一种空气质量检测数据缺失的补全方法及补全装置制造方法及图纸

技术编号:25396412 阅读:15 留言:0更新日期:2020-08-25 23:01
本发明专利技术公开了一种空气质量检测数据缺失的补全方法及补全装置,该方法包括:获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气质量检测数据集;根据所获取的原始数据,分别构建基于变分自编码器的生成器模型和构建特征判别器模型;将构建好的基于变分自编码器的生成器模型和特征判别器模型进行结合,利用原始数据对结合后的模型进行优化训练,并通过生成器模型中变分自编码器的重构矩阵对输入原始数据进行数据补全,得到完整数据。本发明专利技术针对在数据缺失中存在的数据缺失情况多样化的问题,提出了一种高效且鲁棒的数据补全方法,拥有补全效果好、效率高、鲁棒性强等优点,能够有效的补全各种缺失情况下的缺失数据。

【技术实现步骤摘要】
一种空气质量检测数据缺失的补全方法及补全装置
本专利技术涉及数据库补全技术,特别是指一种空气质量检测数据缺失的补全方法及补全装置。
技术介绍
数据缺失是空气质量检测数据经常面临的问题,出现缺失的主要原因可以包括:(a)检测传感器工作状态不稳定:现场环境因素或人为原因导致空气质量检测传感器在某些时间段内没有正常工作,从而造成数据缺失;(b)异常监测数据:检测过程中,由于传感器精准度、生产异常波动等原因,常常存在异常监测数据,此类“坏数据”与实际生产状况不符,需要剔除,而剔除的过程相当于引入了数据缺失。空气质量检测数据的缺失会造成数据信息不完全,直接影响到后期的数据分析。因此,需要对空气质量检测数据中的缺失数据进行补全以提高数据的完整性,从而提高后期空气质量检测数据分析的质量。众所周知,针对存在数据缺失问题的空气质量检测数据进行数据补全是提高数据完整性的有效途径。但数据缺失的缺失程度的不同和缺失模式的不同,使得数据缺失情况呈现多样化,使得传统补全方法无法有效的补全缺失数据。目前针对缺失数据补全问题,国内外学者已经做出了一些工作,但这些工作还存在局限性:(1)数据补全方法补全效果有限;(2)数据补全方法无法有效补全缺失情况多样化下的缺失数据。
技术实现思路
本专利技术的目的是提供一种空气质量检测数据缺失的补全方法及补全装置,以解决传统补全方法难以处理数据缺失情况呈现多样化的问题,针对存在数据缺失问题的空气质量检测数据进行有效的补全,尽可能地提高数据完整性。为了达到上述目的,本专利技术采用如下技术方案:第一方面,本专利技术实施例提供一种空气质量检测数据缺失的补全方法,包括:获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气质量检测数据集;根据所获取的原始数据,分别构建基于变分自编码器的生成器模型和构建特征判别器模型;将构建好的基于变分自编码器的生成器模型和特征判别器模型进行结合,利用原始数据对结合后的模型进行优化训练,并通过生成器模型中变分自编码器的重构矩阵对输入原始数据进行数据补全,得到完整数据。进一步地,所述获取原始数据集包括:获取由空气质量检测传感器检测到的空气质量数据集,其中,空气质量数据出现数据缺失是由于传感器检测出现故障使得检测数据存在遗漏的现象。进一步地,模型构建完成后,利用批量训练方法重复训练基于变分自编码器的生成器模型和特征判别器模型,直到达到模型的最大迭代次数。进一步地,所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。进一步地,将原始数据对应的缺失矩阵作为提示矩阵,利用提示矩阵为特征判别器模型提供部分缺失状态信息,驱使特征判别器模型更加关注于部分缺失数据的补全效果。进一步地,依据生成器模型中的变分自编码器损失函数以及判别器模型对生成器模型生成数据的判别结果反馈,训练生成器模型,生成器模型的训练过程如下:1)首先,基于原始数据矩阵大小生成随机高斯噪声矩阵,并利用随机高斯噪声矩阵初始化原始数据矩阵,得到噪声补全矩阵;2)其次,将噪声补全矩阵输入到基于变分自编码器的生成器模型中;3)最终,生成器模型通过最小化生成器损失函数进行模型训练,得到当前生成器模型的最优模型参数,并通过变分自编码器的重构矩阵对输入原始数据进行数据补全。进一步地,所述生成器模型的损失函数包括:判别器模型的判别结果反馈函数、变分自编码器损失函数中的重构损失函数以及变分自编码器中对编码器模块的噪声正则项。进一步地,所述特征判别器模型依据补全矩阵和提示矩阵作为输入,预测对应的缺失矩阵。判别器模型通过最小化预测缺失矩阵误差的损失函数进行模型训练,得到当前最优特征判别器模型。第二方面,本专利技术实施例提供一种空气质量检测数据缺失的补全装置,包括:获取模块,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气质量检测数据集;构建模块,用于根据所获取的原始数据,分别构建基于变分自编码器的生成器模型和构建特征判别器模型;生成模块,用于将构建好的基于变分自编码器的生成器模型和特征判别器模型进行结合,利用原始数据对结合后的模型进行优化训练,并通过生成器模型中变分自编码器的重构矩阵对输入原始数据进行数据补全,得到完整数据。第三方面,本专利技术实施例提供一种设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的方法。根据以上技术方案,本专利技术实施例是一个空气质量检测数据缺失的补全框架。在基于变分自编码器的生成器模型中,本专利技术将变分自编码器作为变分生成对抗网络中的生成器模型,利用变分自编码器优质的生成效果以及对噪声数据的鲁棒性,进一步增强生成器模型面对不同程度数据缺失情况下的缺失数据的补全效果和补全鲁棒性;在特征判别器模型中,本专利技术将生成器补全缺失数据后的完整数据作为输入,并输出预测补全数据中所有样本的每个特征属于真实特征的概率;在训练过程中,本专利技术采用批量训练方法对变分生成对抗网络进行网络训练,使得变分生成对抗网络可以有效的补全缺失数据。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的一种空气质量检测数据缺失的补全方法的流程图;图2是本专利技术的模型系统框图;图3是基于变分自编码器的生成器模型的模型框架图;图4是本专利技术实施例的一种空气质量检测数据缺失的补全装置的框图。具体实施方式现结合附图和具体实施对本专利技术的技术方案作进一步说明。实施例一图1是本专利技术实施例的一种空气质量检测数据缺失的补全方法的流程图,图2是本专利技术的模型系统框图,该方法包括如下步骤:步骤S100:获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气质量检测数据集;具体包括一下步骤:步骤S101:获取存在数据缺失问题的原始数据X,其中,所述原始数据集为存在数据缺失的空气质量检测数据集;空气质量数据出现数据缺失是由于传感器检测出现故障使得检测数据存在遗漏的现象。步骤S102:根据获取的原始数据X,计算得到对应数据X中数据缺失状态的缺失矩阵M,其中若数据矩阵X的特征存在则其在缺失矩阵M中对应位置的缺失状态为1,若数据矩阵X的特征缺失则其在缺失矩阵M中对应位置的缺失状态为0;步骤S103:根据获取的缺失矩阵M,随机选取缺失矩阵M中p%的缺失状态,并将被选取的缺失状态值设置为0.5,最终将隐含p%缺失状态信息的缺失矩阵M作为提示矩阵H输入特征判别器模型D本文档来自技高网...

【技术保护点】
1.一种空气质量检测数据缺失的补全方法,其特征在于,包括:/n获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气质量检测数据集;/n根据所获取的原始数据,分别构建基于变分自编码器的生成器模型和构建特征判别器模型;/n将构建好的基于变分自编码器的生成器模型和特征判别器模型进行结合,利用原始数据对结合后的模型进行优化训练,并通过生成器模型中变分自编码器的重构矩阵对输入原始数据进行数据补全,得到完整数据。/n

【技术特征摘要】
1.一种空气质量检测数据缺失的补全方法,其特征在于,包括:
获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气质量检测数据集;
根据所获取的原始数据,分别构建基于变分自编码器的生成器模型和构建特征判别器模型;
将构建好的基于变分自编码器的生成器模型和特征判别器模型进行结合,利用原始数据对结合后的模型进行优化训练,并通过生成器模型中变分自编码器的重构矩阵对输入原始数据进行数据补全,得到完整数据。


2.根据权利要求1所述的一种空气质量检测数据缺失的络补全方法,其特征在于,所述获取原始数据集包括:
获取由空气质量检测传感器检测到的空气质量数据集,其中,空气质量数据出现数据缺失是由于传感器检测出现故障使得检测数据存在遗漏的现象。


3.根据权利要求1所述的一种空气质量检测数据缺失的补全方法,其特征在于:模型构建完成后,利用批量训练方法重复训练基于变分自编码器的生成器模型和特征判别器模型,直到达到模型的最大迭代次数。


4.根据权利要求1所述的一种空气质量检测数据缺失的补全方法,其特征在于:所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络结构。


5.根据权利要求1所述的一种空气质量检测数据缺失的补全方法,其特征在于:将原始数据对应的缺失矩阵作为提示矩阵,利用提示矩阵为特征判别器模型提供部分缺失状态信息,驱使特征判别器模型更加关注于部分缺失数据的补全效果。


6.根据权利要求5所述的一种空气质量检测数据缺失的补全方法,其特征在于:依据生成器模型中的变分自编码器损失函数以及判别器模型对生成器模型生成数据的判别结果反馈,训练生成器模型,生成器模型的训练过程如下:
1)首先,基于原...

【专利技术属性】
技术研发人员:苗晓晔吴洋洋朋环环尹建伟
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1