一种基于环境不平衡数据的水质预测方法技术

技术编号：31164736 阅读：16 留言：0更新日期：2021-12-04 10:38

本发明专利技术公开了一种基于环境不平衡数据的水质预测方法，该方法包括：特征预处理步骤：对环境原始不平衡数据集进行去除标签信息缺失的样本数据，对环境原始不平衡数据的特征进行标准化得到多组原始训练集；特征扩增步骤：对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集；模型筛选步骤：利用贪心算法筛选监督集成学习训练模型；待测预处理步骤：根据最佳特征组合进行采集数据得到待测原始数据；对待测原始数据进行特征扩增和标准化得到待测输入数据；水质预测步骤：利用水质预测模型进行判断水质是否合格。该方法通过特征扩增和特征选择来提升监督集成模型对环境不平衡数据的预测能力，对环境质量预测具有参考价值。量预测具有参考价值。量预测具有参考价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于环境不平衡数据的水质预测方法

[0001]本专利技术涉及环境质量监测和预测
，尤其涉及一种基于环境不平衡数据的水质预测方法。

技术介绍

[0002]虽然人工智能技术在环境监测和预报领域中的应用是目前环境领域研究热点之一，但是环境质量预测具有一个共同的特点即就是环境数据集是典型的不平衡数据集，如根据环保部2020年的数据，我国2020年不合格的地表水质和空气质量仅占总情况的17.6％和13％，所以不合格的地表水质和空气质量属于小概率事件，是少数类样本。
[0003]而目前对小数类的样本预测是人工智能研究领域的难点。集成监督模型能很好的学习特征和标签之间的关系，使用集成监督模型能够在一定程度上预测这些不平衡的环境数据。尽管使用重采样和欠采样能够在一定程度上缓解数据集的不平衡性，但是同样也会产生更多的噪音数据或者造成特征丢失的后果。
[0004]迄今为止还未有利用不同非监督模型来增强监督集成模型预测环境质量的案例，更未有综合利用非监督模型、监督集成模型和贪心算法来预测环境不平衡数据的先例。

技术实现思路

[0005]为了克服现有技术存在的缺陷与不足，本专利技术提供了一种基于环境不平衡数据的水质预测方法，该方法综合利用了非监督模型来深度提取新的特征信息，进而强化监督模型，接着使用贪心算法来探索最佳预测能力和特征组合，该方法能够进一步提升监督集成模型预测环境不平衡数据能力，具有推广到多种环境质量预测领域的潜力。
[0006]为了达到上述目的，本专利技术采用以下技术方案：r/>[0007]一种基于环境不平衡数据的水质预测方法，包括以下步骤：
[0008]特征预处理步骤：对环境原始不平衡数据集进行去除标签信息缺失的样本数据，对环境原始不平衡数据的特征进行标准化，得到多组原始训练集；
[0009]特征扩增步骤：对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集；
[0010]模型筛选步骤：利用贪心算法筛选监督集成学习训练模型，通过贪心算法比较不同特征组合预测结果，选择预测准确度最高的监督集成学习训练模型作为水质预测模型；
[0011]待测预处理步骤：根据最佳特征组合进行采集输入特征所需的水质数据、大气数据，从而得到待测原始数据，所述最佳特征组合为水质预测模型所对应的特征组合；
[0012]对待测原始数据进行特征扩增和标准化得到待测输入数据；
[0013]水质预测步骤：将待测输入数据输入至水质预测模型进行判断水质是否合格。
[0014]作为优选的技术方案，还包括评价步骤，所述评价步骤具体为执行完水质预测步骤后，利用F1
‑
score对水质预测模型的预测性能进行评价。
[0015]作为优选的技术方案，所述特征扩增步骤具体步骤为基于特征扩增模型对每组原
始训练集中的原始特征进行深度特征提取和标准化，所述特征扩增模型为非监督模型，所述特征扩增模型具体选择主成分分析模型、局部异常因子检测模型、最小协方差行列式检测模型、基于直方图的离群值检测模型中的一种或任意多种组合的模型。
[0016]作为优选的技术方案，所述模型筛选步骤，具体步骤包括：
[0017]基于原始数据的特征划分多组特征组合，依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集；
[0018]根据每个特征组合训练集建立多个监督集成学习训练模型，对每个监督集成学习训练模型，以特征组合中的特征元素作为输入数据，以水质合格信息作为标签信息，所述水质合格信息用于判断水质是否合格；
[0019]多个监督集成学习训练模型训练完后，选择预测准确度最高的监督集成学习训练模型作为水质预测模型，选择该水质预测模型所对应的特征组合作为输入特征。
[0020]作为优选的技术方案，所述多个监督集成学习训练模型采用随机森林、完全收敛随机森林、深度级联森林中的一种或任意多种组合形式。
[0021]作为优选的技术方案，所述通过贪心算法比较不同特征组合预测结果，具体包括：
[0022]初始化步骤：
[0023]输入样本矩阵X，设置循环轮次数值t为0，初始化第0轮的已选择特征集设置第0轮的未选择特征集S0＝{X1，X2，...，X
p
}，其中特征采样矩阵X＝X1，X2，
…
，X
p
，第i个特征X
i
＝(x
i1
，x
i2
，
…
，x
n
)
Y
，i＝1，2，
…
，p，其中，p为初始特征维度，n为样本个数；
[0024]循环步骤：
[0025]设置模型最佳预测能力比较参数Δ＝0，Δ用于表示模型最佳预测能力之差；
[0026]计算第t
‑
1轮时最佳特征其中Q(*)为模型预测能力值，*用于表示输入参数；
[0027]设置第t轮时最佳特征集合A
t
＝A
t
‑1∪{X
best
}；
[0028]设置第t轮时除去最佳特征集合以外的剩余特征S
t
＝S
t
‑1/{X
best
}；
[0029]计算第t轮与第t
‑
1轮的模型最佳预测能力比较参数Δ＝Q(A
t
)
‑
Q(A
t
‑1)，
[0030]Q(A
t
)为第t轮模型预测能力值，Q(A
t
‑1)为第t
‑
1轮模型预测能力值；
[0031]当Δ≤0时，退出循环步骤，输出Q值最高的已选择特征集作为特征组合。
[0032]本专利技术与现有技术相比，具有如下优点和有益效果：
[0033](1)本专利技术提出的基于环境不平衡数据的水质预测方法通过综合利用非监督模型来深度提取新的特征信息来强化监督模型，并利用贪心算法来探索最佳预测能力和特征组合，该方法通过特征扩增和特征选择来提升监督集成模型对环境不平衡数据的预测能力，进而进一步提高监督集成模型的预测能力，具有推广到多种环境质量预测领域的潜力。
[0034](2)与传统学习模型LR、SVM、SVM等相比，本专利技术提出的基于环境不平衡数据的水质预测方法通过贪心算法能够显著提升寻找最佳预测能力和最佳特征组合的效率，能够显著提升对环境污染等突发事件的准确性，该方法的这一优势对环境质量预测极为重要，特别对于环境突发事件中的应用具有较高的参考价值；在本专利技术中，非监督模型能在最佳特征的基础上进一步挖掘少数类和多数类样本特征信息，具有进一步提高集成监督模型预测环境不平衡数据能力。
[0035](3)本专利技术提出的基于环境不平衡数据的水质预测方法通过深度挖掘新的特征，
能够节省在新的环境质量因子和参数的检测费用，本领域技术人员基于该方法可以建立一个高度灵敏本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于环境不平衡数据的水质预测方法，其特征在于，包括以下步骤：特征预处理步骤：对环境原始不平衡数据集进行去除标签信息缺失的样本数据，对环境原始不平衡数据的特征进行标准化，得到多组原始训练集；特征扩增步骤：对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集；模型筛选步骤：利用贪心算法筛选监督集成学习训练模型，通过贪心算法比较不同特征组合预测结果，选择预测准确度最高的监督集成学习训练模型作为水质预测模型；待测预处理步骤：根据最佳特征组合进行采集输入特征所需的水质数据、大气数据，从而得到待测原始数据，所述最佳特征组合为水质预测模型所对应的特征组合；对待测原始数据进行特征扩增和标准化得到待测输入数据；水质预测步骤：将待测输入数据输入至水质预测模型进行判断水质是否合格。2.根据权利要求1所述的基于环境不平衡数据的水质预测方法，其特征在于，还包括评价步骤，所述评价步骤具体为执行完水质预测步骤后，利用F1
‑
score对水质预测模型的预测性能进行评价。3.根据权利要求1或2所述的基于环境不平衡数据的水质预测方法，其特征在于，所述特征扩增步骤具体步骤为基于特征扩增模型对每组原始训练集中的原始特征进行深度特征提取和标准化，所述特征扩增模型为非监督模型，所述特征扩增模型具体选择主成分分析模型、局部异常因子检测模型、最小协方差行列式检测模型、基于直方图的离群值检测模型中的一种或任意多种组合的模型。4.根据权利要求1所述的基于环境不平衡数据的水质预测方法，其特征在于，所述模型筛选步骤，具体步骤包括：基于原始数据的特征划分多组特征组合，依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集；根据每个特征组合训练集建立多个监督集成学习训练模型，对每个监督集成学习训练模型，以特征组合中的特征元素作为输入数据，以水质合格信息作为标签信息，所述水质合格信息用于判断水质是否合格；多个监督集成学习训练模型训练完后，选择预测准确度最高的监督集成学习训练模型作为水质预测模型，选择该水质预测模型所对应的特征组合作为输入特征。5.根据权利要求4所述的基于环境不平衡数...

【专利技术属性】
技术研发人员：陈达，邓永锋，陈兴国，
申请(专利权)人：暨南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人