本申请公开了一种挥发性有机物观测数据中缺省值的修复方法及装置。该方法包括:利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;判断单一时次挥发性有机物观测数据的缺省值所属的类型;若缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对缺省值进行修复;若缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。本申请的方法,选取均值修复法、训练好的自编码神经网络和训练好的循环门控神经网络,根据缺省值的不同类型,对挥发性有机物观测数据进行修复,修复效果好,可以极大提高挥发性有机物观测数据的质量。
【技术实现步骤摘要】
挥发性有机物观测数据中缺省值的修复方法及装置
本申请涉及环境监测
,具体涉及一种挥发性有机物观测数据中缺省值的修复方法及装置。
技术介绍
挥发性有机物(VolatileOrganicCompounds,VOCs)是指饱和蒸气压高、在常温常压下易挥发的有机化合物。高浓度的VOCs会给人类活动和生态环境带来不利影响,暴露在浓度超过一定阈值的VOCs环境中,会引起头痛、恶心、呕吐等不良症状,长期接触会抽搐、昏迷和记忆力衰退,甚至会给人的肝脏、肾脏和中枢神经系统产生不利影响;同时,作为二次有机气溶胶和臭氧的重要前体物,高浓度VOCs是导致城市臭氧、颗粒物污染过程的主要因子之一。大气中VOCs包含成千上百种物质,VOCs来源复杂,产业结构、下垫面、气候等不同导致不同地区的VOCs的典型组分及其整体化学活性存在显著差异。VOCs的复杂性直接增加了臭氧、颗粒物污染的防控难度,基于高质量的VOCs观测数据,弄清特定地区的VOCs时空变化特征,成为科学制定臭氧等污染防控措施的核心问题。当下VOCs观测仪器已有长足发展,但相对常规六参数观测仪器,仍存在较多不足,其监测结果存在大量缺省值,大大降低数据的利用价值,VOCs观测数据出现缺省值主要是由于VOCs观测仪器运行不稳定导致的观测数据未记录或者VOCs组分未检出。如何有效地修复VOCs观测数据中的缺省值成为提升VOCs观测数据质量的关键。现有技术对VOCs观测数据的修复研究尚属空白。
技术实现思路
本申请的目的是提供一种挥发性有机物观测数据中缺省值的修复方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。根据本申请实施例的一个方面,提供一种挥发性有机物观测数据中缺省值的修复方法,包括:利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;判断单一时次挥发性有机物观测数据的缺省值所属的类型;若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。进一步地,所述依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复,包括:利用均值修复法获得所述缺省值的初始填补值;利用训练好的自编码神经网络对所述初始填补值进行优化处理得到优化填补值;利用所述优化填补值填补所述缺省值。进一步地,所述利用均值修复法获得所述缺省值的初始填补值,包括:从所述单一时次挥发性有机物观测数据中查找出所述缺省值所属日期之前若干天中与所述缺省值时次相同的观测数据;计算所有所述与所述缺省值时次相同的观测数据的平均值,利用所述平均值作为所述缺省值的初始填补值。进一步地,所述利用训练好的循环门控神经网络对所述缺省值进行修复,包括:判断所述缺省值是否位于连续时次缺省值序列中;若否,则将所述缺省值前若干个时次的观测数据输入到训练好的循环门控神经网络中进行处理,得到所述缺省值的修复值;若是,则利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复。进一步地,所述利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复,包括:针对所述连续时次缺省值序列中时次顺序上的第一个缺省值,将所述第一个缺省值前若干个时次的观测数据输入到所述训练好的循环门控神经网络中,输出所述第一个缺省值的修复值;利用所述第一个缺省值的修复值填补所述第一个缺省值;采用修复所述第一个缺省值的方法,按照时次顺序对所述连续时次缺省值序列中剩余的缺省值进行修复,直至所述剩余的缺省值均修复完成为止。进一步地,所述判断单一时次挥发性有机物观测数据的缺省值所属的类型,包括:若所述单一时次挥发性有机物观测数据中,存在缺省值的组分种类数量小于等于组分种类总数量的预设占比阈值,则确定所述缺省值属于零星缺省类型;否则,确定所述缺省值属于系统性缺省类型。进一步地,所述利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练,包括:获取一段时间的挥发性有机物历史观测数据;通过百分位阈值法,确定挥发性有机物历史观测数据中各组分浓度数据的异常阈值和正常数据;其中,异常阈值包括异常高值阈值和异常低值阈值;利用所述正常数据构建训练数据集,通过所述训练数据集分别对自编码神经网络和循环门控神经网络进行训练。根据本申请实施例的另一个方面,提供一种挥发性有机物观测数据中缺省值的修复装置,包括:训练模块,用于利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;判断模块,用于判断单一时次挥发性有机物观测数据的缺省值所属的类型;第一修复模块,用于若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;第二修复模块,用于若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的挥发性有机物观测数据中缺省值的修复方法。根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的挥发性有机物观测数据中缺省值的修复方法。本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:本申请实施例提供的挥发性有机物观测数据中缺省值的修复方法,选取均值修复法、训练好的自编码神经网络和训练好的循环门控神经网络,根据缺省值的不同类型,对挥发性有机物观测数据进行修复,修复值准确度高,修复效果好,可以极大提高挥发性有机物观测数据的质量,从而为大气污染科学防控提供更为有力的技术支撑。本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请的一个实施例的挥发性有机物观测数据中缺省值的修复方法的步骤示意图;图2示出了图1所对本文档来自技高网...
【技术保护点】
1.一种挥发性有机物观测数据中缺省值的修复方法,其特征在于,包括:/n利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;/n判断单一时次挥发性有机物观测数据的缺省值所属的类型;/n若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;/n若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。/n
【技术特征摘要】
1.一种挥发性有机物观测数据中缺省值的修复方法,其特征在于,包括:
利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;
判断单一时次挥发性有机物观测数据的缺省值所属的类型;
若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;
若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。
2.根据权利要求1所述的修复方法,其特征在于,所述依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复,包括:
利用均值修复法获得所述缺省值的初始填补值;
利用训练好的自编码神经网络对所述初始填补值进行优化处理得到优化填补值;
利用所述优化填补值填补所述缺省值。
3.根据权利要求2所述的修复方法,其特征在于,所述利用均值修复法获得所述缺省值的初始填补值,包括:
从所述单一时次挥发性有机物观测数据中查找出所述缺省值所属日期之前若干天中与所述缺省值时次相同的观测数据;
计算所有所述与所述缺省值时次相同的观测数据的平均值,利用所述平均值作为所述缺省值的初始填补值。
4.根据权利要求1所述的修复方法,其特征在于,所述利用训练好的循环门控神经网络对所述缺省值进行修复,包括:
判断所述缺省值是否位于连续时次缺省值序列中;
若否,则将所述缺省值前若干个时次的观测数据输入到训练好的循环门控神经网络中进行处理,得到所述缺省值的修复值;
若是,则利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复。
5.根据权利要求4所述的修复方法,其特征在于,所述利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复,包括:
针对所述连续时次缺省值序列中时次顺序上的第一个缺省值,将所述第一个缺省值前若干个时次的观测数据输入到所述训练好的循环门控神经网络中,输出所述第一个缺省值的修复值;
利用所述第一个缺省值的修复值...
【专利技术属性】
技术研发人员:樊旭,吴剑斌,陈焕盛,晏平仲,秦东明,王文丁,梁倩,杨佩霖,肖林鸿,
申请(专利权)人:中科三清科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。