一种场地大数据风险筛查方法与装置制造方法及图纸

技术编号:34795856 阅读:15 留言:0更新日期:2022-09-03 20:01
本发明专利技术公开了一种场地大数据风险筛查方法与装置。其中,该方法包括:对获取的原始场地大数据进行预处理,得到预处理后的场地大数据;通过特征提取算法对所述预处理后的场地大数据进行特征提取,以得到场地关键特征集;基于所述场地关键特征集,采用机器学习算法构建场地的风险筛查模型,根据所述风险筛查模型确定场地风险筛查得分;根据所述场地风险筛查得分确定场地风险等级,并输出高风险场地动态名录。本发明专利技术通过利用大数据挖掘技术对场地进行风险评估,并通过场地风险筛查模型的构建实现场地风险自动赋分,实现快速进行风险筛查分值计算、风险分级,形成适用于场地环境管理的高风险场地动态名录。风险场地动态名录。风险场地动态名录。

【技术实现步骤摘要】
一种场地大数据风险筛查方法与装置


[0001]本专利技术实施例涉及环境大数据
,尤其涉及一种场地大数据风险筛查方法和装置。

技术介绍

[0002]然而,现有的场地风险筛查技术无法识别全国所有地块,且现有的场地风险筛查技术 的筛查结果是静态的,后续无动态结果。此外,现有场地风险筛查技术主要依赖人工主观 赋分,场地风险评估效率较低。
[0003]
技术实现思路

[0004]为了解决现有技术中的问题,本专利技术提供一种场地大数据风险筛查方法和装置,以实现利用大数据挖掘技术对场地进行风险评估,并通过场地风险筛查模型的构建实现场地风险自动赋分,最终输出高风险场地动态名录。
[0005]第一方面,本专利技术实施例提供了一种场地大数据风险筛查方法,包括:
[0006]S110、对获取的原始场地大数据进行预处理,得到预处理后的场地大数据;
[0007]S120、通过特征提取算法对所述预处理后的场地大数据进行特征提取,以得到场地关键特征集;
[0008]S130、基于所述场地关键特征集,采用机器学习算法构建场地的风险筛查模型,根据所述风险筛查模型确定场地风险筛查得分;
[0009]S140、根据所述场地风险筛查得分确定场地风险等级,并输出高风险场地动态名录。
[0010]可选的,所述S110中的预处理包括:
[0011]哑变量、二值化、特征抽取、稀疏表示、字典学习或者高维映射。
[0012]可选的,所述特征提取算法包括:方差分析法、随机森林算法、XGBoost或者LightGBM。
[0013]可选的,所述机器学习算法包括:随机森林算法、XGBoost、LightGBM或者Stacking。
[0014]可选的,步骤S140包括:
[0015]根据所述场地风险筛查得分,以及设定的风险得分与风险等级之间的对应关系,确定所述场地风险筛查得分对应的场地风险等级。
[0016]第二方面,本专利技术实施例还提供了一种场地大数据风险筛查装置,包括:
[0017]预处理模块,用于对获取的原始场地大数据进行预处理,得到预处理后的场地大数据;
[0018]特征提取模块,用于通过特征提取算法对所述预处理后的场地大数据进行特征提取,以得到场地关键特征集;
[0019]风险筛查模型构建模块,用于基于所述场地关键特征集,采用模型构建算法构建场地的风险筛查模型,根据所述风险筛查模型确定场地风险筛查得分;
[0020]风险等级确定模块,用于根据所述场地风险筛查得分确定场地风险等级,并输出高风险场地动态名录。
[0021]本专利技术的有益效果:
[0022]本专利技术通过在场地大数据基础上构建基于关键指标的风险筛查模型,采用多种特征提取、特征选择方法提取能够反映场地数据的关联特征信息,识别关键因子,简化了场地数据的获取。基于场地关键特征集,通过机器学习方法训练得到一种场地大数据风险筛查模型,能够快速的进行风险筛查分值计算、风险分级,形成适用于场地环境管理的高风险场地动态名录。
附图说明
[0023]图1为本专利技术实施例提供的一种场地大数据风险筛查方法的流程图。
具体实施方式
[0024]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0025]实施例
[0026]图1为本专利技术实施例提供的一种场地大数据风险筛查方法的流程图,本实施例可适用于对场地数据进行筛查和分级的情况,具体包括如下步骤:
[0027]S110、对获取的原始场地大数据进行预处理,得到预处理后的场地大数据。
[0028]其中,原始场地大数据包括与场地相关的所有数据信息,如污染源种类、污染源途径等信息。由于原始的场地数据为文本信息,所以需要对其进行数值化的相关预处理操作,本实施了中的预处理操作可以包括哑变量、二值化、特征抽取、稀疏表示、字典学习,以及高维映射等。
[0029]S120、通过特征提取算法对所述预处理后的场地大数据进行特征提取,以得到场地关键特征集。
[0030]对预处理后的场地大数据采用多种特征提取、特征选择方法,提取能够反映场地数据的关联特征信息,识别关键因子,得到场地关键特征集。
[0031]上述特征提取及特征选择是指对场地指标运用方差分析、随机森林(Random Forest, RF)、XGBoost及LightGBM等方法,从而提取出关键特征信息。
[0032]S130、基于所述场地关键特征集,采用机器学习算法构建场地的风险筛查模型,根据所述风险筛查模型确定场地风险筛查得分。
[0033]本实施例中的机器深度学习算法包括RF、XGBoost、LightGBM或者Stacking等。通过上述机器学习算法对上述场地关键特征集继续模型训练,以得到风险筛查模型,该风险筛查模型可以输出被筛查场地的风险得分数据。
[0034]其中,RF是通过集成学习的思想将多棵树集成的一种算法。基本单元是决策树。随机森林中每颗决策树都是一个分类器,对于一个输入样本,N棵树会有N个分类结果。随机森
林集成了所有的分类投票结果,将投票次数最多的类别指定为最终输出。
[0035]XGBoost是基于决策树的集成机器学习算法,以梯度提升为框架。XGBoost对缺失值进行了处理。让缺失值分别被切分到左节点以及右节点,通过计算得分值比较两种切分方法哪一个更优,则会对每个特征的缺失值都会学习到一个最优的默认切分方向。XGBoost 除了增加了正则项来防止过拟合,还支持列采样的方式来防止过拟合。
[0036]LightGBM是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。为了解决one

hot编码处理类别特征的不足,LightGBM优化了对类别特征的支持,可以直接输入类别特征,不需要额外的0/1展开。LightGBM采用many

vs

many的切分方式将类别特征分为两个子集,实现类别特征的最优切分。
[0037]Stacking方法是一种分层模型集成框架。以两层为例,首先将数据集分成训练集和测试集,利用训练集训练得到多个初级学习器,然后用初级学习器对测试集进行预测,并将输出值作为下一阶段训练的输入值,最终的标签作为输出值,用于训练次级学习器(通常最后一级使用Logistic回归)。由于两次所使用的训练数据不同,因此可以在一定程度上防止过拟合。
[0038]示例性的,本实施例对初始模型的88个特征指标进行特征选择,风险筛查分值模型准确度示例如下:
[0039]表1风险筛查分值模型精度示例
[0040][0041]由上表可得,基于LightGBM进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场地大数据风险筛查方法,其特征在于,包括:S110、对获取的原始场地大数据进行预处理,得到预处理后的场地大数据;S120、通过特征提取算法对所述预处理后的场地大数据进行特征提取,以得到场地关键特征集;S130、基于所述场地关键特征集,采用机器学习算法构建场地的风险筛查模型,根据所述风险筛查模型确定场地风险筛查得分;S140、根据所述场地风险筛查得分确定场地风险等级,并输出高风险场地动态名录。2.根据权利要求1所述的方法,其特征在于,所述S110中的预处理包括:哑变量、二值化、特征抽取、稀疏表示、字典学习或者高维映射。3.根据权利要求1所述的方法,其特征在于,所述特征提取算法包括:方差分析法、随机森林算法、XGBoost或者LightGBM。4.根据权利要求1所述的方法,其特征在于,所述机器学习...

【专利技术属性】
技术研发人员:何炜琪陈蓉谢慧颖刘毅
申请(专利权)人:清华苏州环境创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1