System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于环境综合大数据的监管系统技术方案_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于环境综合大数据的监管系统技术方案

技术编号:40053437 阅读:9 留言:0更新日期:2024-01-16 21:34
本发明专利技术公开了一种基于环境综合大数据的监管系统,该系统首先通过数据整合和预处理模块,收集并清理企业基础信息和企业排污信息,并将清理好的信息输入预处理模型的训练与选择模块中训练随机森林模型和梯度提升机模型,通过比较两种模型的预测性能确定最优预测模型;接着在概率计算和设定阈值下的分类模块中利用最优预测模型预测企业环境违规概率,并根据设定的不同阈值,确定预警企业名单;最后在展示结果模块中将预警结果和企业名单可视化,根据数据整合和预处理模块获取预警企业名单在当月执法反馈信息,对执法结果进行统计分析和展示。该监管系统实现企业高违规概率名单以及效果分析的动态更新,以协助环境监管者更好地进行目标检查。

【技术实现步骤摘要】

本专利技术属于环境综合大数据监管,具体地,涉及一种基于环境综合大数据的监管系统


技术介绍

1、企业是污染物排放的主要来源之一,其环境表现关系到可持续增长、生态环境和居民健康等一系列问题。目前,我国的环境法规与制度建设不断加强和完善,环境执法水平和力度有了较大提升,从而在很大程度上改善了环境质量。然而,尽管政府在环境监管方面投资巨大,但目前环境执法仍存在一些困境,即执法资源和数据资源的利用效率没有最大化,违法行为普遍存在但发现违规的概率较低。因此,监管者需要根据经验法则和新型技术进一步缩小污染者的范围,将有限的执法资源尽可能分配给环境风险高的企业,以实现监管方案的优化。

2、在国内的监管实践中,现有的提高监管精准性的方式主要有依据执法手工数据和执法经验选择可能违规的企业,基于在线监测数据平台或环保用电监控平台远程判断工业企业生产和排放的异常情况、在环境数据库中随机抽取企业进行“双随机”检查,根据卫星遥感数据反演的空气污染数据缩小污染工厂的地理范围,利用公众投诉信息发现更多违规者。

3、然而,目前的环保大数据平台仅采用单一的实时在线监测数据,未能整合多方面、多类型的环境数据,也没用对现有的海量数据进行充分的挖掘,无法充分利用大数据技术带来的优势。换句话说,目前利用环境数据进行精准执法的应用仍然处于初级阶段,还存在巨大的发展空间。


技术实现思路

1、针对现有技术中存在的问题,本专利技术提供了一种基于环境综合大数据的监管系统,基于多源环境数据库,通过实地调研和文献分析以及特征重要性对影响企业环境违法的重要特征向量进行甄别,结合机器学习算法,捕捉企业违规概率与企业基本特征、排污许可证特征、执法特征、投诉特征以及在线监测的关系,开发企业环境违法概率预测模型,将预测模型和数据接口部署在生态环境智慧管理平台上,通过实时接入和更新的企业数据实现企业高违规概率名单以及效果分析的动态更新实现,以协助环境监管者更好地进行目标检查。

2、为实现上述技术目的,本专利技术采用如下技术方案:一种基于环境综合大数据的监管系统,包括:数据整合和预处理模块、预处理模型的训练与选择模块、概率计算和设定阈值下的分类模块及展示结果模块,所述数据整合和预处理模块分别与预测模型的训练与选择模块、展示结果模块连接,所述预测处理模型的训练与选择模块与概率计算和设定阈值下的分类模块连接,所述概率计算和设定阈值下的分类模块与展示结果模块连接;

3、所述数据整合和预处理模块收集企业信息和企业排污信息,输入预处理模型的训练与选择模块中训练随机森林模型和梯度提升机模型,确定最优预测模型,并在概率计算和设定阈值下的分类模块中通过最优预测模型预测企业违规概率,并根据不同企业违规概率阈值确定预警企业名单,在展示结果模块中进行展示,展示结果模块还根据数据整合和预处理模块获取预警企业名单在当月执法反馈信息,计算执法结果统计指标进行展示。

4、进一步地,所述数据整合和预处理模块基于python从多源环境数据库接口收集历史企业基础信息和历史企业排污信息以及最近一个月的企业基础信息和最近一个月的企业排污信息,将历史企业基础信息和历史企业排污信息按照日历年-月份存储于数据库1中,将最近一个月的企业基础信息和最近一个月的企业排污信息存储于数据库2中。

5、进一步地,所述多源环境数据库由环境检查数据库、环境处罚数据库、排污许可证数据库、生态环境厅的一企一档数据库、国家重点排污单位名录、在线监测数据库、投诉数据库构成。

6、进一步地,所述企业信息包括:企业的经纬度、企业名称、统一社会信用代码以及法人代码;所述企业排污信息包括:从环境检查数据库提取的检查特征向量iit、从环境处罚数据库提取的处罚特征向量pit、从工商企业数据库提取的企业特征向量fi、从国家重点排污单位名录中提取出重点排污特征kit、从在线监测数据库构建企业是否受到实时的非现场监管的变量mit、从投诉数据库提取投诉特征向量cit。

7、进一步地,所述检查特征向量iit包括:检查结果并记录是否违规、距离上次检查的天数、执法记录中第几次检查;所述处罚特征向量pit包括:距离上次处罚的天数和记录的第几次处罚;所述企业特征向量fi包括:行业类别、企业排污许可证个数、主要污染物类别个数、年生产时间、废气排放设施数量、主要废气排放口数量、一般废气排放口数量、废水排放设施数量、主要废水排放口数量、一般废水排放口数量、是否持有重点管理类排污许可证;所述投诉特征向量cit包括:距离上次被投诉的天数和投诉记录中第几次被投诉;所述重点排污特征向量kit包括:本年度该企业是否为国家重点排污单位,是否受到实时的非现场监管的变量mit包括:该企业上一个月是否存在废气的在线监测数据,该企业上一个月是否存在废水的在线监测数据。

8、进一步地,所述预处理模型的训练与选择模块将存储于数据库1中的历史企业信息和对应的历史企业排污信息划分成80%的训练集和20%的预测集,基于python环境下scikit-learn库的randomforestclassifier函数和gradientboostingclassifier函数分别利用80%的训练集构建随机森林模型和梯度提升模型,捕捉环境违规概率vit与iit、pit、fi、kit、mit、cit的非线性关系,通过gridsearchcv函数进行网格寻参,并使用十折交叉验证来评估每个参数组合的性能,输出最优随机森林模型参数和最优梯度提升模型参数,存储在best_estimator_中;使用20%的预测集评价最优随机森林模型参数下的随机森林模型和最优梯度提升模型参数下的梯度提升模型,将roc曲线下与坐标轴围成的面积auc最高的模型作为最优预测模型。

9、进一步地,所述概率计算和设定阈值下的分类模块以存储于数据库2中的最近一个月的企业基础信息和最近一个月的企业排污信息作为最优预测模型的输入,预测企业违规概率,环保局的执法人员通过设置不同的企业违规概率阈值确定预警的企业名单,将预警的企业名单导出为csv文件,在展示结果模块中进行展示。

10、进一步地,所述展示结果模块利用概率计算和设定阈值下的分类模块预警的企业名单与数据整合和预处理模块的执法反馈信息进行匹配,将执法结果统计指标进行展示。

11、进一步地,所述执法结果指标包括:执法企业数、执法次数、违规次数、预警名单企业数、预警名单执法企业数、预警名单执法次数、预警名单违规次数、预警名单执法比例、实际执法中预警名单企业比例、查询月检查总违规比例、预警名单企业违规比例。

12、与现有技术相比,本专利技术具有如下有益效果:

13、(1)本专利技术基于环境综合大数据的监管系统的数据整合和预处理模块中设置多源环境数据库接口,可以从多个数据源获取企业相关的信息,包括排污许可证信息、一企一档企业基础信息、在线监测数据、执法记录、处罚记录、投诉举报信息、行业分类信息等,这些数据涵盖了企业的排污情况、监管情况、社会反馈情况等多个方面,可以全面和准确本文档来自技高网...

【技术保护点】

1.一种基于环境综合大数据的监管系统,其特征在于,包括:数据整合和预处理模块、预处理模型的训练与选择模块、概率计算和设定阈值下的分类模块及展示结果模块,所述数据整合和预处理模块分别与预测模型的训练与选择模块、展示结果模块连接,所述预测处理模型的训练与选择模块与概率计算和设定阈值下的分类模块连接,所述概率计算和设定阈值下的分类模块与展示结果模块连接;

2.根据权利要求1所述的一种基于环境综合大数据的监管系统,其特征在于,所述数据整合和预处理模块基于Python从多源环境数据库接口收集历史企业基础信息和历史企业排污信息以及最近一个月的企业基础信息和最近一个月的企业排污信息,将历史企业基础信息和历史企业排污信息按照日历年-月份存储于数据库1中,将最近一个月的企业基础信息和最近一个月的企业排污信息存储于数据库2中。

3.根据权利要求2所述的一种基于环境综合大数据的监管系统,其特征在于,所述多源环境数据库由环境检查数据库、环境处罚数据库、排污许可证数据库、生态环境厅的一企一档数据库、国家重点排污单位名录、在线监测数据库、投诉数据库构成。

4.根据权利要求3所述的一种基于环境综合大数据的监管系统,其特征在于,所述企业信息包括:企业的经纬度、企业名称、统一社会信用代码以及法人代码;所述企业排污信息包括:从环境检查数据库提取的检查特征向量Iit、从环境处罚数据库提取的处罚特征向量Pit、从工商企业数据库提取的企业特征向量Fi、从国家重点排污单位名录中提取出重点排污特征Kit、从在线监测数据库构建企业是否受到实时的非现场监管的变量Mit、从投诉数据库提取投诉特征向量Cit。

5.根据权利要求4所述的一种基于环境综合大数据的监管系统,其特征在于,所述检查特征向量Iit包括:检查结果并记录是否违规、距离上次检查的天数、执法记录中第几次检查;所述处罚特征向量Pit包括:距离上次处罚的天数和记录的第几次处罚;所述企业特征向量Fi包括:行业类别、企业排污许可证个数、主要污染物类别个数、年生产时间、废气排放设施数量、主要废气排放口数量、一般废气排放口数量、废水排放设施数量、主要废水排放口数量、一般废水排放口数量、是否持有重点管理类排污许可证;所述投诉特征向量Cit包括:距离上次被投诉的天数和投诉记录中第几次被投诉;所述重点排污特征向量Kit包括:本年度该企业是否为国家重点排污单位,是否受到实时的非现场监管的变量Mit包括:该企业上一个月是否存在废气的在线监测数据,该企业上一个月是否存在废水的在线监测数据。

6.根据权利要求4所述的一种基于环境综合大数据的监管系统,其特征在于,所述预处理模型的训练与选择模块将存储于数据库1中的历史企业信息和对应的历史企业排污信息划分成80%的训练集和20%的预测集,基于Python环境下scikit-learn库的RandomForestClassifier函数和GradientBoostingClassifier函数分别利用80%的训练集构建随机森林模型和梯度提升模型,捕捉环境违规概率Vit与Iit、Pit、Fi、Kit、Mit、Cit的非线性关系,通过GridSearchCV函数进行网格寻参,并使用十折交叉验证来评估每个参数组合的性能,输出最优随机森林模型参数和最优梯度提升模型参数,存储在best_estimator_中;使用20%的预测集评价最优随机森林模型参数下的随机森林模型和最优梯度提升模型参数下的梯度提升模型,将ROC曲线下与坐标轴围成的面积AUC最高的模型作为最优预测模型。

7.根据权利要求6所述的一种基于环境综合大数据的监管系统,其特征在于,所述概率计算和设定阈值下的分类模块以存储于数据库2中的最近一个月的企业基础信息和最近一个月的企业排污信息作为最优预测模型的输入,预测企业违规概率,环保局的执法人员通过设置不同的企业违规概率阈值确定预警的企业名单,将预警的企业名单导出为csv文件,在展示结果模块中进行展示。

8.根据权利要求7所述的一种基于环境综合大数据的监管系统,其特征在于,所述展示结果模块利用概率计算和设定阈值下的分类模块预警的企业名单与数据整合和预处理模块的执法反馈信息进行匹配,将执法结果统计指标进行展示。

9.根据权利要求8所述的一种基于环境综合大数据的监管系统,其特征在于,所述执法结果指标包括:执法企业数、执法次数、违规次数、预警名单企业数、预警名单执法企业数、预警名单执法次数、预警名单违规次数、预警名单执法比例、实际执法中预警名单企业比例、查询月检查总违规比例、预警名单企业违规比例。

...

【技术特征摘要】

1.一种基于环境综合大数据的监管系统,其特征在于,包括:数据整合和预处理模块、预处理模型的训练与选择模块、概率计算和设定阈值下的分类模块及展示结果模块,所述数据整合和预处理模块分别与预测模型的训练与选择模块、展示结果模块连接,所述预测处理模型的训练与选择模块与概率计算和设定阈值下的分类模块连接,所述概率计算和设定阈值下的分类模块与展示结果模块连接;

2.根据权利要求1所述的一种基于环境综合大数据的监管系统,其特征在于,所述数据整合和预处理模块基于python从多源环境数据库接口收集历史企业基础信息和历史企业排污信息以及最近一个月的企业基础信息和最近一个月的企业排污信息,将历史企业基础信息和历史企业排污信息按照日历年-月份存储于数据库1中,将最近一个月的企业基础信息和最近一个月的企业排污信息存储于数据库2中。

3.根据权利要求2所述的一种基于环境综合大数据的监管系统,其特征在于,所述多源环境数据库由环境检查数据库、环境处罚数据库、排污许可证数据库、生态环境厅的一企一档数据库、国家重点排污单位名录、在线监测数据库、投诉数据库构成。

4.根据权利要求3所述的一种基于环境综合大数据的监管系统,其特征在于,所述企业信息包括:企业的经纬度、企业名称、统一社会信用代码以及法人代码;所述企业排污信息包括:从环境检查数据库提取的检查特征向量iit、从环境处罚数据库提取的处罚特征向量pit、从工商企业数据库提取的企业特征向量fi、从国家重点排污单位名录中提取出重点排污特征kit、从在线监测数据库构建企业是否受到实时的非现场监管的变量mit、从投诉数据库提取投诉特征向量cit。

5.根据权利要求4所述的一种基于环境综合大数据的监管系统,其特征在于,所述检查特征向量iit包括:检查结果并记录是否违规、距离上次检查的天数、执法记录中第几次检查;所述处罚特征向量pit包括:距离上次处罚的天数和记录的第几次处罚;所述企业特征向量fi包括:行业类别、企业排污许可证个数、主要污染物类别个数、年生产时间、废气排放设施数量、主要废气排放口数量、一般废气排放口数量、废水排放设施数量、主要废水排放口数量、一般废水排放口数量、是否持有重点管理类排污许可证;所述投诉特征向量cit包括:距离上次被投诉的天数...

【专利技术属性】
技术研发人员:张炳张嘉琦王琪刘梦迪刘苗苗
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1