基于时序特征迁移的移动源排放预测方法、系统及设备技术方案

技术编号:31838087 阅读:15 留言:0更新日期:2022-01-12 13:16
本发明专利技术的一种基于时序特征迁移的移动源排放预测方法、系统及设备,包括通过事先设置的时序预测模型对采集到的数据进行处理预测,时序预测模型的训练步骤如下:采集机动车尾气车载诊断系统数据,并对所采集数据进行预处理;将预处理后的数据进行归一化处理并将其分为训练集和测试集;将训练数据集划分为k段分布最不相似的序列;以预处理后的所有数据预训练一个GRU的时序预测模型;在时序预测模型中加入最大均值差异距离,与均方误差一起作为损失函数,训练迭代达到预设的精度或最大epoch停止;将测试集投入训练好的时序模型上进行预测。本发明专利技术在移动源污染预测方面构建精度高和稳定性好的时序模型,为移动源污染防治提供了一定的科学基础。一定的科学基础。一定的科学基础。

【技术实现步骤摘要】
基于时序特征迁移的移动源排放预测方法、系统及设备


[0001]本专利技术涉及环境监测领域中移动源排放预测
,具体涉及一种基于时序特征迁移的移动源排放预测方法、系统及设备。

技术介绍

[0002]移动源尾气浓度监测数值往往受到该该移动源尾气浓度前、后时刻尾气浓度影响,具有较强的时间依赖性。然而,已有的方法往往是基于大量尾气数据训练预估模型,未考虑尾气污染浓度的时序性质,对尾气数据强行拟合;或者在考虑时序影响下,假设尾气污染浓度的时序序列的统计特征具有不变性,基于这一假设进行尾气污染建模预测,很难实现精准预测。
[0003]考虑到移动源尾气数据分布的数据分布动态变化,依据训练数据构建的模型无法对测试的未知数据进行有效预测,因此无法直接利用机动车尾气时序数据构建精准的尾气预测模型。

技术实现思路

[0004]本专利技术提出的一种基于时序特征迁移的移动源排放预测方法、系统及设备,可克服机动车尾气的数据分布随着时间动态变化下造成的模型构建困难、预测精度差的技术问题。
[0005]为实现上述目的,本专利技术采用了以下技术方案:
[0006]一种基于时序特征迁移的移动源排放预测方法,通过计算机设备执行以下步骤,
[0007]对采集到的机动车尾气车载诊断系统数据,通过事先训练好的时序预测模型进行处理预测,并输出预测结果;
[0008]其中,时序预测模型的训练步骤如下:
[0009]S1:采集机动车尾气车载诊断系统数据,并对所采集数据进行预处理;
[0010]S2:将预处理后的数据进行归一化处理并将其分为训练集和测试集;
[0011]S3:将训练数据集划分为k段分布最不相似的序列;
[0012]S4:以预处理后的所有数据预训练一个GRU的时序预测模型;
[0013]S5:在时序预测模型中加入最大均值差异距离,与均方误差一起作为损失函数,训练迭代达到预设的精度或最大epoch停止;
[0014]S6:将测试集投入训练好的时序模型上进行预测。
[0015]进一步的,上述步骤S1具体包括如下细分步骤S11至S12:
[0016]S11:从柴油车OBD数据上采集,数据量大小1460条,采样间隔为5s,其中采样属性包括发动机转速、实际输出扭矩百分比、发动机水温、发动机机油温度、后处理下游NOx值、后处理下游氧气值、大气压力、环境温度、后处理废气质量流量、尿素箱液位百分比、尿素箱温度、车速、油门踏板开度;
[0017]S12:对采集的OBD数据进行缺失值填充、无关属性删除这些预处理操作,其中缺失
值数据使用相邻值进行填充。
[0018]进一步的,所述上述步骤S2具体包括如下细分步骤S21至S22:
[0019]S21:将预处理数据按8:2的比例划分为训练集和测试集,其中训练集用于训练具有迁移性质的尾气预测模型,测试集用于对上述模型进行测试;
[0020]S22:对训练集和测试集数据进行归一化处理,归一化公式如下:
[0021][0022]其中为归一化后的值,x为数据原始值,x
min
和x
max
分别代表相应指标的最大值和最小值。
[0023]进一步的,所述上述步骤S3具体包括如下细分步骤S31至S33:
[0024]S31:将采集的OBD时序训练数据集划分为10等份,且每一等份为最小不可分割单元;
[0025]S32:确定K值,K∈{2,3,5,7,10},以K=2为例,以str和end表示整个时间序列的起点和终点,从9个候选点中选择分割点point_2,使得下式最大
[0026]dis(str

point_w,point_2

end)
[0027]其中dis表示两个时间序列之间的分布差异,选用KL散度、MMD距离、余弦距离这些方式进行度量,选择使用MMD距离时,MMD公式表示为
[0028][0029]其中k(
·
)是映射,用于把原始数据映射到再生核希尔伯特空间中,X,Y表示两种分布的样本,为映射函数集;
[0030]S33:基于k=2,依照S32的步骤选择分割点,找到k=3时的分割点,并依此方法操作下去,找到其他不同时间序列划分下的分割点,具体的k值确定需要依据数据最终预测效果确定。
[0031]进一步的,上述步骤S4具体包括如下细分步骤S41至S42:
[0032]S41:网络结构特征层采用2层GRU,损失函数采用MSE,根据k值的确定,损失函数具体公式如下:
[0033][0034]其中|D
j
|代表第j段序列所包含样本个数,第j个序列中i样本的真实值,为第j个序列中i样本的预测值;
[0035]S42:模型搭建好后,将训练集输入网络开始训练,预训练epoch最大值设置为40,当验证集loss的值不再下降且epoch大于40时停止迭代,整个网络使用Adam优化整个模型,训练完成后,保存网络结构的参数。
[0036]进一步的,上述步骤S5具体包括如下细分步骤S51至S53:
[0037]S51:根据S3得到的K,以预训练模型参数为基础,在损失函数中加入MMD距离来缩小k段序列的分布差距,具体损失函数如下:
[0038][0039]其中L
pred
(θ)为MSE函数,具体公式如步骤S4所示,L
tdm
(D
i
,D
j
;θ,α)为各时序序列间的MMD距离,具体公式如下
[0040][0041]其中为序列i在t时刻的隐藏状态,d(
·
)为两个影藏状态直接的分布差异,本专利技术中为MMD,为序列i和序列j在第t个隐藏状态的超参数;
[0042]S52:针对每一隐藏状态的重要性,取值不同,本专利技术使用Boosting的方法来对参数进行学习,训练前预设所有v为隐藏状态个数,训练中按以下公式更新α
[0043][0044]其中其中为第n次epoch下,第t个时间步长下的i,j两个时序段间的分布差异。
[0045]S53:根据S51,S52,以预训练模型为基础,微调整个模型,待模型收敛后停止迭代,保留最优模型,作为预测模型。
[0046]另一方面,本专利技术还公开一种基于时序特征迁移的移动源排放预测系统,包括以下单元,
[0047]数据采集单元,采集机动车尾气车载诊断系统数据,并对所采集数据进行预处理;
[0048]数据处理单元,用于将预处理后的数据进行归一化处理并将其分为训练集和测试集;
[0049]数据划分单元,用于将训练数据集划分为k段分布最不相似的序列;
[0050]模型训练单元,用于以预处理后的所有数据预训练一个GRU的时序预测模型;
[0051]精度调整模块,用于在时序预测模型中加入最大均值差异距离,与均方误差一起作为损失函数,训练迭代达到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序特征迁移的移动源排放预测方法,其特征在于,通过计算机设备执行以下步骤,对采集到的机动车尾气车载诊断系统数据,通过事先训练好的时序预测模型进行处理预测,并输出预测结果;其中,时序预测模型的训练步骤如下:S1:采集机动车尾气车载诊断系统数据,并对所采集数据进行预处理;S2:将预处理后的数据进行归一化处理并将其分为训练集和测试集;S3:将训练数据集划分为k段分布最不相似的序列;S4:以预处理后的所有数据预训练一个GRU的时序预测模型;S5:在时序预测模型中加入最大均值差异距离,与均方误差一起作为损失函数,训练迭代达到预设的精度或最大epoch停止;S6:将测试集投入训练好的时序模型上进行预测。2.根据权利要求1所述的基于时序特征迁移的移动源排放预测方法,其特征在于:上述步骤S1具体包括如下细分步骤S11至S12:S11:从柴油车OBD数据上采集,数据量大小1460条,采样间隔为5s,其中采样属性包括发动机转速、实际输出扭矩百分比、发动机水温、发动机机油温度、后处理下游NOx值、后处理下游氧气值、大气压力、环境温度、后处理废气质量流量、尿素箱液位百分比、尿素箱温度、车速、油门踏板开度;S12:对采集的OBD数据进行缺失值填充、无关属性删除这些预处理操作,其中缺失值数据使用相邻值进行填充。3.根据权利要求2所述的基于时序特征迁移的移动源排放预测方法,其特征在于:所述上述步骤S2具体包括如下细分步骤S21至S22:S21:将预处理数据按8:2的比例划分为训练集和测试集,其中训练集用于训练具有迁移性质的尾气预测模型,测试集用于对上述模型进行测试;S22:对训练集和测试集数据进行归一化处理,归一化公式如下:其中为归一化后的值,x为数据原始值,x
min
和x
max
分别代表相应指标的最大值和最小值。4.根据权利要求3所述的基于时序特征迁移的移动源排放预测方法,其特征在于:所述上述步骤S3具体包括如下细分步骤S31至S33:S31:将采集的OBD时序训练数据集划分为10等份,且每一等份为最小不可分割单元;S32:确定K值,K∈{2,3,5,7,10},以K=2为例,以str和end表示整个时间序列的起点和终点,从9个候选点中选择分割点point_2,使得下式最大dis(str

point_w,point_2

end)其中dis表示两个时间序列之间的分布差异,选用KL散度、MMD距离、余弦距离这些方式进行度量,选择使用MMD距离时,MMD公式表示为
其中k(
·
)是映射,用于把原始数据映射到再生核希尔伯特空间中,X,Y表示两种分布的样本,为映射函数集;S33:基于k=2,依照S32的步骤选择分割点,找到k=3时的分割点,并依此方法操作下去,找到其他不同时间序列划...

【专利技术属性】
技术研发人员:许镇义王瑞宾康宇曹洋王仁军
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1