当前位置: 首页 > 专利查询>浙江大学专利>正文

基于k近邻回归算法和用电数据的排污量预测方法技术

技术编号:32642118 阅读:11 留言:0更新日期:2022-03-12 18:18
本发明专利技术提出了一种基于k近邻回归算法和用电数据的排污量预测方法,包括:采集排污单位的历史用电数据和历史排污数据并进行数据预处理,划分成训练集和测试集;生成k近邻回归算法的参数组合,通过分析不同参数组合下k近邻回归算法对训练集的拟合程度,确定参数组合中的最优参数,根据最优参数和k近邻回归算法构建预测模型;根据测试集检验预测模型的准确度,根据检验结果对预测模型进行优化,将排污单位的实时用电数据输入优化后的预测模型中,得到排污量的实时预测结果。本发明专利技术利用了用电情况与排污情况的影响关系,基于k近邻回归算法实现排污量的预测,解决了一些企业污染物排放管控困难、管控成本较高的问题。管控成本较高的问题。管控成本较高的问题。

【技术实现步骤摘要】
基于k近邻回归算法和用电数据的排污量预测方法


[0001]本专利技术属于排污监控领域,尤其涉及一种基于k近邻回归算法和用电数据的排污量预测方法。

技术介绍

[0002]随着人们对于环境污染问题的重视,排污单位污染源排放监管与治理成为了生态环境保护的重要一环,污染源排放数据也逐步受到了重视。因此,大数据技术和物联网技术具有了更多的应用场景,可采集企业的污染物排放数据,进行排污浓度超标的监控与预警,给排污单位推送浓度超标预警消息,通知企业加大治污处理工作,也可以用来判断该企业排污许可是否超标,为生态环境主管部门对排污许可证的事后监管和对排污单位的监督检查提供技术支撑,为企业环保税征收和复查提供一定计算参考依据。
[0003]目前的排污监控方法通常是在排污单位安装传感器、计量仪表等自动监测设备,采集污染物的排放数据并实时传输给相关主管部门进行分析和预警。但对于部分企业受限于设备成本等问题,其污染物的排放数据是自行上传的,存在数据偏差、篡改、伪造的可能,进而影响了排污监控的准确性和及时性。

技术实现思路

[0004]为了解决现有技术中存在的缺点和不足,本专利技术提出了基于k近邻回归算法和用电数据的排污量预测方法,包括:
[0005]采集排污单位的历史用电数据和历史排污数据并进行数据预处理,将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集;
[0006]生成k近邻回归算法的参数组合,通过分析不同参数组合下k近邻回归算法对训练集的拟合程度,确定参数组合中的最优参数,根据最优参数和k近邻回归算法构建预测模型;
[0007]根据测试集检验预测模型的准确度,根据检验结果对预测模型进行优化;
[0008]将排污单位的实时用电数据输入优化后的预测模型中,结合历史用电数据和历史排污数据得到排污量的实时预测结果。
[0009]可选的,所述采集排污单位的历史用电数据和历史排污数据并进行数据预处理,将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集,包括:
[0010]基于预设频率采集排污单位中各个生产设备的历史用电数据和历史排污数据;
[0011]剔除历史用电数据与历史排污数据中的异常数据,判断历史用电数据与历史排污数据是否存在字段缺失,若存在,则计算缺失的字段前后相邻的两个数据的平均值进行填充;
[0012]将历史用电数据和历史排污数据基于采样时间的关系整合为一个数据组,将各数据组的顺序打乱后,基于预设比例随机将数据组划分为训练集和测试集。
[0013]可选的,所述k近邻回归算法的参数包括近邻数k以及权重超参数。
[0014]可选的,所述权重超参数为表示近邻点对预测点的权重影响类型的参数,所述权重影响类型包括近邻点对预测点权重影响相同、近邻点对预测点基于距离产生影响以及近邻点对预测点基于距离的倒数产生影响。
[0015]可选的,所述生成k近邻回归算法的参数组合,通过分析不同参数组合下k近邻回归算法对训练集的拟合程度,确定参数组合中的最优参数,根据最优参数和k近邻回归算法构建预测模型,包括:
[0016]确定近邻数k和权重超参数,根据权重超参数设置k个权重w,生成由不同的近邻数k和权重w构成的参数组合;
[0017]在训练集中随机选取一个历史排污数据作为预测点,将训练集中除预测点之外的历史用电数据输入k近邻回归算法;
[0018]将不同的参数组合导入k近邻回归算法中计算回归值,确定与预测点最接近的回归值对应的参数组合作为最优参数,基于最优参数构建预测模型。
[0019]可选的,所述将不同的参数组合导入k近邻回归算法中计算回归值,确定与预测点最接近的回归值对应的参数组合作为最优参数,基于最优参数构建预测模型,包括:
[0020]分别计算除预测点之外其他历史用电数据与预测点的欧式距离,选取欧式距离最小的k个历史用电数据作为近邻点,结合权重超参数,计算第一回归值;
[0021]分别计算除预测点之外其他用电数据与预测点的曼哈顿距离,选取曼哈顿距离最小的k个历史用电数据作为近邻点,结合权重超参数,计算第二回归值;
[0022]计算第一回归值与预测点中历史排污数据的第一差值,计算第二回归值与预测点中历史排污数据的第二差值,将第一差值和第二差值相加最小时的参数组合作为最优参数;
[0023]根据最优参数下的k近邻回归算法,构建预测模型。
[0024]可选的,所述第一回归值和第二回归值的计算公式均为:
[0025][0026]其中,表示第一回归值或第二回归值,A
i
为根据权重超参数确定的第i个近邻点对预测点的相对权重,x
in
表示选取的第i个近邻点的第n个特征值,i、n均为正整数,i={1,2,...,k},n={1,2,...,n}。
[0027]可选的,所述根据权重超参数确定的第i个近邻点对预测点的相对权重,包括:
[0028]当权重超参数为近邻点对预测点权重影响相同时,A
i
为人为设置的定值;
[0029]当权重超参数为近邻点对预测点基于距离产生影响时,A
i
=d
i
/(d1+d2+...+d
i
+...+d
k
),d
i
为第i个近邻点与预测点的欧式距离或曼哈顿距离;
[0030]当权重超参数为近邻点对预测点基于距离的倒数产生影响时,当权重超参数为近邻点对预测点基于距离的倒数产生影响时,
[0031]可选的,所述根据测试集检验预测模型的准确度,根据检验结果对预测模型进行优化,包括:
[0032]步骤一:将测试集中的历史用电数据输入预测模型;
[0033]步骤二:判断基于最优参数的计算结果与测试集中的历史排污数据的误差是否符合预设条件;
[0034]步骤三:若不符合则调整最优参数,重复步骤一至步骤二,直至符合预设条件时完成优化。
[0035]可选的,所述预设条件为相似度计算函数,所述相似度计算函数的表达式为:
[0036][0037]其中,score表示相似度,表示步骤一中得到的计算结果,X为测试集中的历史排污数据;
[0038]score的取值范围为(

∞,1],score达到预设限值时,判定误差符合预设条件。
[0039]本专利技术提供的技术方案带来的有益效果是:
[0040]本专利技术通过对排污单位的用电数据进行实时采集,利用了排污单位的用电情况与排污情况的影响关系,基于k近邻回归算法实现对排污量的预测,相比传统的污染物排放监控方法,将难以实时管控、获取成本较高的污染物的排放数据转换为可以实时提供、便于获取的用电数据进行辅助管控,在一定程度上解决了一些企业污染物排放管控困难、管控成本较高的问题。
附图说明
[0041]为了更清楚地说明本专利技术的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于k近邻回归算法和用电数据的排污量预测方法,其特征在于,所述排污量预测方法包括:采集排污单位的历史用电数据和历史排污数据并进行数据预处理,将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集;生成k近邻回归算法的参数组合,通过分析不同参数组合下k近邻回归算法对训练集的拟合程度,确定参数组合中的最优参数,根据最优参数和k近邻回归算法构建预测模型;根据测试集检验预测模型的准确度,根据检验结果对预测模型进行优化;将排污单位的实时用电数据输入优化后的预测模型中,结合历史用电数据和历史排污数据得到排污量的实时预测结果。2.根据权利要求1所述的基于k近邻回归算法和用电数据的排污量预测方法,其特征在于,所述采集排污单位的历史用电数据和历史排污数据并进行数据预处理,将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集,包括:基于预设频率采集排污单位中各个生产设备的历史用电数据和历史排污数据;剔除历史用电数据与历史排污数据中的异常数据,判断历史用电数据与历史排污数据是否存在字段缺失,若存在,则计算缺失的字段前后相邻的两个数据的平均值进行填充;将历史用电数据和历史排污数据基于采样时间的关系整合为一个数据组,将各数据组的顺序打乱后,基于预设比例随机将数据组划分为训练集和测试集。3.根据权利要求1所述的基于k近邻回归算法和用电数据的排污量预测方法,其特征在于,所述k近邻回归算法的参数包括近邻数k以及权重超参数。4.根据权利要求3所述的基于k近邻回归算法和用电数据的排污量预测方法,其特征在于,所述权重超参数为表示近邻点对预测点的权重影响类型的参数,所述权重影响类型包括近邻点对预测点权重影响相同、近邻点对预测点基于距离产生影响以及近邻点对预测点基于距离的倒数产生影响。5.根据权利要求3所述的基于k近邻回归算法和用电数据的排污量预测方法,其特征在于,所述生成k近邻回归算法的参数组合,通过分析不同参数组合下k近邻回归算法对训练集的拟合程度,确定参数组合中的最优参数,根据最优参数和k近邻回归算法构建预测模型,包括:确定近邻数k和权重超参数,生成由不同的近邻数k和权重超参数构成的参数组合;在训练集中随机选取一个历史排污数据作为预测点,将训练集中除预测点之外的历史用电数据输入k近邻回归算法;将不同的参数组合导入k近邻回归算法中计算回归值,确定与预测点最接近的回归值对应的参数组合作为最优参数,基于最优参数构建预测模型。6.根据权利要求5所述的基于k近邻回归算法和用电数据的排污量预测方法,其特征在于,所述将不同的参数组合导入k近邻回归算法中计算回归值,确定与预测点最接近的回归值对应的参数组合作为最优参数,基于最优参数构建预测模型,包括...

【专利技术属性】
技术研发人员:陆海波张兰夏霖姜奕晖陈奇王妍艳
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1