基于主成分分析和随机森林的高危污染源的分类预测方法技术

技术编号:16819777 阅读:67 留言:0更新日期:2017-12-16 13:27
本发明专利技术公开了一种基于主成分分析和随机森林的高危污染源的分类预测方法,包括:采集企业的污染源环境行为数据并整合形成初选指标,筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系;对污染源环境行为数据进行数据清洗和数据归一化处理;找出高危污染源指标体系与污染源是否违法之间的函数关系,建立随机森林模型;进行模型训练,并在训练结束后评估随机森林模型的精度;对污染源行为指标的重要性程度进行排序;进行主成分分析获得主成分,利用主成分进行加权,计算出综合得分;根据综合得分判断各个企业发生违法行为的风险得分系数,将风险得分系数自动排名,生成TOP企业名单。本发明专利技术能降低操作复杂度、提高预测精度和结果质量。

Classification prediction method based on principal component analysis and high risk pollution sources of random forest

The invention discloses a classification prediction method, principal component analysis and risk sources based on random forests include: environmental pollution source data collection and integration of enterprise form the primary index, screening out the pollution source pollution sources. The illegal behavior index as the risk index system of pollution source; pollution source environmental behavior data cleaning and data normalization; find the function relationship between whether high-risk pollution sources and pollution source index system of law, establish a random forest model; model of training and evaluation of random forest model after training accuracy; importance of pollution source behavior index sorting; principal component analysis for principal component weighted using principal components, calculate the comprehensive score of each enterprise; to determine the risk of the occurrence of violations according to the comprehensive score The score coefficient, the risk score coefficient automatically ranking, generated TOP list of enterprises. The invention can reduce the operation complexity, improve the prediction precision and the quality of the result.

【技术实现步骤摘要】
基于主成分分析和随机森林的高危污染源的分类预测方法
本专利技术涉及高危污染源预测领域,特别涉及一种基于主成分分析和随机森林的高危污染源的分类预测方法。
技术介绍
经过近年来环境信息化的发展,各级环保部门建立了大量的环境业务应用系统,但是环境信息化建设却存在严重的部门化、局部化问题、环境大数据分布散乱等现状,迫切需要一套高效、科学、清晰的管理机制。污染源数据是环境管理的核心基础,提前预测可能引起环境污染风险和产生违法行为的高危污染源,对更加有针对性地进行污染治理具有重要意义。高危污染源预测本质上是一个预测分类问题,应用于预测分类问题的模型方法非常多,包括逻辑回归模型,判别分析模型等传统统计学方法,也包括如神经网络、支持向量机、遗传算法等数据挖掘的新方法,并获得了较理想的结果。但分类问题从理论上讲是一个复杂的函数延拓问题,因此不存在一种分类模型方法适用于所有不同的情况,尽管至今仍有许多分类方法陆续出现,但主要存在的问题如下:目前在数据分析领域,可用的分类预测方法虽多,但是很少有将其应用到企业高危污染源预测领域的。随着人工智能大量分类算法的问世,其高度的非线性映射能力克服了许多传统统计分类算法存在的缺点,但是在实际应用中,很多忽视了输入变量之间存在相关性,且在实际建模时,输入变量过多,也会导致建模效率下降。通常情况下,建模者对同一分类问题在不同假设条件下,采用不同的单项分类方法建立多种分类模型,然后按照分类精度大小从多个分类方法中选择结果最好的一个,而排除其他单项分类方法,但这并不能有效提高分类精度。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能降低操作复杂度、提高预测精度和结果质量的基于主成分分析和随机森林的高危污染源的分类预测方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于主成分分析和随机森林的高危污染源的分类预测方法,包括如下步骤:A)从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据,对所述污染源环境行为数据进行整合形成初选指标,从所述初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系,所述高危污染源指标体系构成指标数据集;B)对所述高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理;C)找出所述高危污染源指标体系与污染源是否违法之间的函数关系,建立随机森林模型;D)对所述随机森林模型进行训练,并在训练结束后通过所述随机森林模型在所述指标数据集上的分类准确率,对所述随机森林模型的精度进行评估;E)使用所述随机森林模型预测未来会发生违法行为的企业名单,并对所述污染源行为指标的重要性程度进行排序;F)对所述污染源行为指标进行主成分分析获得主成分,利用所述主成分进行加权,计算出综合得分;G)根据所述综合得分判断未来各个企业会发生违法行为的风险得分系数,并将每个所述风险得分系数按照危险系数从高到低的顺序进行自动排名,生成TOP企业名单。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述污染源行为指标包括排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述数据清洗为检查所述高危污染源指标体系的字段是否规范,以及是否存在脏数据、不完整数据或重复数据。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述数据归一化处理使用min-max标准化的方法,转换公式为:其中,xi为所述高危污染源指标体系中待归一化的数据,xmin和xmax分别为所述高危污染源指标体系中待归一化的数据的最小值和最大值,xi'为归一化后的结果。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述步骤C)进一步包括:C1)将所述指标数据集中的指定比例部分作为训练集,将剩余的部分作为测试集;C2)使用SMOTE(SyntheticMinorityOver-samplingTechnique)算法对所述训练集中的数据进行抽样平衡化处理,对多数类样本进行欠抽样,对少数类样本进行过抽样;C3)将所述排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额组成特征空间,将污染源是否违法数据组成结果空间,通过所述抽样平衡化处理后的训练集训练所述结果空间与所述特征空间之间的模型关系,得到所述随机森林模型。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述指定比例部分为75%。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述随机森林模型包含抽取变量时的抽样数目和森林中决策树的数目。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述抽取变量时的抽样数目为2、4、6或8。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述步骤D)进一步包括:D1)将所述训练集中的训练数据代入所述随机森林模型中,评估所述随机森林模型在所述训练集上的表现精度;D2)将所述测试集中的测试数据代入所述随机森林模型中,评估所述随机森林模型在所述测试集上的表现精度。在本专利技术所述的基于主成分分析和随机森林的高危污染源的分类预测方法中,所述步骤F)进一步包括:F1)从所述排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额中选择使得累积贡献额达到80%以上的污染源行为指标作为主成分;F2)计算每个所述主成分与其权重的乘积,并将每个乘积相加得到所述综合得分。实施本专利技术的基于主成分分析和随机森林的高危污染源的分类预测方法,具有以下有益效果:由于对高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理,减少输入指标因子数,同时使输入因子彼此不相关,却能保留数据的主要信息,降低模型的复杂度,提高模型的训练速度,得到较高的精度,本专利技术能得到高危污染源的预测名单及其综合排名,从而可以有重点的实现污染源管理工作,解决环境管理中难以预防的难题,因此能降低操作复杂度、提高预测精度和结果质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于主成分分析和随机森林的高危污染源的分类预测方法一个实施例中的流程图;图2为所述实施例中找出高危污染源指标体系与污染源是否违法之间的函数关系,建立随机森林模型的具体流程图;图3为所述实施例中对随机森林模型进行训练,并在训练结束后通过随机森林模型在数据集上的分类准确率,对随机森林模型的精度进行评估的具体流程图;图4为所述实施例中对污染源行为指标进行主成分分析获得主成分,利用主成分进行加权,计算出综合得分的具体流程图;图5为所述实施例中初选指标一部分的示意图;图6为所述实施例中初选指标另一部分的示意图;图7为所述实施例中污染源基本数据的示意图;图8为所述实施例中排污申报数据的示意图;图9为所述实施本文档来自技高网...
基于主成分分析和随机森林的高危污染源的分类预测方法

【技术保护点】
一种基于主成分分析和随机森林的高危污染源的分类预测方法,其特征在于,包括如下步骤:A)从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据,对所述污染源环境行为数据进行整合形成初选指标,从所述初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系,所述高危污染源指标体系构成指标数据集;B)对所述高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理;C)找出所述高危污染源指标体系与污染源是否违法之间的函数关系,建立随机森林模型;D)对所述随机森林模型进行训练,并在训练结束后通过所述随机森林模型在所述指标数据集上的分类准确率,对所述随机森林模型的精度进行评估;E)使用所述随机森林模型预测未来会发生违法行为的企业名单,并对所述污染源行为指标的重要性程度进行排序;F)对所述污染源行为指标进行主成分分析获得主成分,利用所述主成分进行加权,计算出综合得分;G)根据所述综合得分判断未来各个企业会发生违法行为的风险得分系数,并将每个所述风险得分系数按照危险系数从高到低的顺序进行自动排名,生成TOP企业名单。

【技术特征摘要】
1.一种基于主成分分析和随机森林的高危污染源的分类预测方法,其特征在于,包括如下步骤:A)从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据,对所述污染源环境行为数据进行整合形成初选指标,从所述初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系,所述高危污染源指标体系构成指标数据集;B)对所述高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理;C)找出所述高危污染源指标体系与污染源是否违法之间的函数关系,建立随机森林模型;D)对所述随机森林模型进行训练,并在训练结束后通过所述随机森林模型在所述指标数据集上的分类准确率,对所述随机森林模型的精度进行评估;E)使用所述随机森林模型预测未来会发生违法行为的企业名单,并对所述污染源行为指标的重要性程度进行排序;F)对所述污染源行为指标进行主成分分析获得主成分,利用所述主成分进行加权,计算出综合得分;G)根据所述综合得分判断未来各个企业会发生违法行为的风险得分系数,并将每个所述风险得分系数按照危险系数从高到低的顺序进行自动排名,生成TOP企业名单。2.根据权利要求1所述的基于主成分分析和随机森林的高危污染源的分类预测方法,其特征在于,所述污染源行为指标包括排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额。3.根据权利要求2所述的基于主成分分析和随机森林的高危污染源的分类预测方法,其特征在于,所述数据清洗为检查所述高危污染源指标体系的字段是否规范,以及是否存在脏数据、不完整数据或重复数据。4.根据权利要求3所述的基于主成分分析和随机森林的高危污染源的分类预测方法,其特征在于,所述数据归一化处理使用min-max标准化的方法,转换公式为:其中,xi为所述高危污染源指标体系中待归一化的数据,xmin和xmax分别为所述高危污染源指标体系中待归一化...

【专利技术属性】
技术研发人员:康庆罗艳唐文超庞东博王登优
申请(专利权)人:深圳市博安达信息技术股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1