一种基于机器学习模型的地下水砷风险预测方法技术

技术编号:30020396 阅读:29 留言:0更新日期:2021-09-11 06:39
本发明专利技术提供了一种基于机器学习模型的地下水砷风险预测方法,包括:S1,数据收集;S2,根据研究目标的研究区空间尺度和地下水砷超标程度定义模型任务;S3,以机器学习算法在全参数数据集和空间参数数据集上的性能作为评估标准,来评估机器学习算法对数据的配适度;S4,基于经过步骤S3评估筛选后的算法,对步骤S2中的模型任务进行超参敏感性测试,确定需要调试的超参及范围,优化后继所有模型的超参调试流程,并完成所有模型任务的全参数或空间参数模型的构建;S5,利用构建好的概率估计模型对地下水砷风险进行预测。本发明专利技术基于机器学习算法进行算法选择,优化统计建模建立流程,构建高精度地下水砷统计模型。精度地下水砷统计模型。精度地下水砷统计模型。

【技术实现步骤摘要】
一种基于机器学习模型的地下水砷风险预测方法


[0001]本专利技术涉及地下水安全监测
,特别是涉及一种基于机器学习模型的地下水砷风险预测方法。

技术介绍

[0002]地下水资源在许多国家和地区下被作为主要的居民饮用水源,潜在的砷暴露风险严重危害到人类健康。地下水中的砷无色无味,难以被察觉。目前地下水砷污染修复技术和设备尚未普及,集中式供水改水工程的盲区仍然存在。特别是在非集中供水的农村地区,地下水砷暴露已经成为农村饮用水安全最为棘手的问题之一。地下水中的砷在进入人体后,会通过使蛋白质和酶变性、损伤细胞和紊乱基因调控的方式伤害人体,并引起急、慢性毒性症状。长期饮用高砷地下水可引起多器官多系统的损害,包括皮肤病变、心脑血管及神经系统疾病,进而造成多器官他器官的癌症,并且可潜伏十数年至数十年不等。
[0003]由于地下水砷空间分布的非均质性,需要大量的监测采样及分析测量来落实政府及相关机构对保障供水安全的政策,这将消耗大量的人力物力和不可计的时间成本。因此,在无法全面实现高密度地下水质调查以保障用水安全前提下,在地下水砷污染分布普遍且广泛的国家和地区以统计建模方法开展高砷地下水分布和预测研究,对未采样区域的地下水砷超标情况进行预判,为采样调查和用水决策提供可靠的科学依据,具有重要的社会意义。同时,基于大数据的统计建模研究能够系统地分析地下水砷在多尺度上的空间非均质性,刻画并反演不同尺度地下水砷的形成过程和关键控制因素,具有重要的科学意义。
[0004]目前,大部分基于统计模型的地下水砷污染分析研究,其方法流程相对固定,主要步骤包括:1.使用一或两种统计方法针对数据建模模型;2.计算不同统计指标下的模型性能;3.基于模型计算概率预测分布;4.模型及结果解读。此类,基于统计模型的分析在算法的选取过程中缺乏预选评估及必要论证,可能会导致选取的算法不适用于研究区地下水砷数据,从而使得建立的模型仅具备较低的性能,从而带来风险预测不可靠和模型结果解读不可信的弊端。

技术实现思路

[0005]本专利技术的目的是提供一种基于机器学习模型的地下水砷风险预测方法,基于机器学习算法进行算法选择,优化统计建模建立流程,构建高精度地下水砷统计模型,能够更全面地捕捉数据特性,从而提供更加可靠的预测及结果分析。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种基于机器学习模型的地下水砷风险预测方法,包括如下步骤:
[0008]S1,数据收集:择选与地下水砷超标潜在相关的预测变量,包括:水化学参数、地质参数、地理参数和水文参数四个大类,并收集相关预测变量的数据,整理分类为全参数数据集和空间参数数据集;
[0009]S2,定制模型任务:根据研究目标的研究区空间尺度和地下水砷超标程度定义模
型任务;
[0010]S3,建立并评估算法选择机制:以机器学习算法在全参数数据集和空间参数数据集上的性能作为评估标准,来评估机器学习算法对数据的配适度,具体评估步骤为:选取多个潜在的机器学习算法;对数据集划分若干次获得不同的训练集

测试集组合;对每个训练集

测试集组合进行训练和测试并记录各算法测试性能;以性能度量的均值和范围综合考量各算法基于全参数数据集和空间参数数据集建立地下水砷统计建模的潜在泛化能力;筛选具有足够优秀潜力的算法进行步骤S4的建模;
[0011]S4,构建概率估计模型:基于经过步骤S3评估筛选后的算法,对步骤S2中的模型任务进行超参敏感性测试,确定需要调试的超参及范围,优化后继所有模型的超参调试流程,并完成所有模型任务的全参数或空间参数模型的构建;
[0012]S5,利用步骤S4构建好的概率估计模型对地下水砷风险进行预测。
[0013]进一步的,步骤S1中,所述空间参数数据集包括地质参数、地理参数和水文参数对应的数据,所述全参数数据集包括水化学参数、地质参数、地理参数和水文参数对应的数据。
[0014]进一步的,步骤S2中,根据研究目标的研究区空间尺度和地下水砷超标程度定义模型任务,具体为:
[0015]研究区空间尺度包括:全国尺度研究区、西北部尺度研究区、东北部尺度研究区、南部尺度研究区以及南部浅层区域尺度研究区;
[0016]地下水砷超标程度包括三个阈值:5μg/L、10μg/L、50μg/L;
[0017]结合2个不同类型数据集:全参数数据集和空间参数数据集;
[0018]定义模型任务为采用不同的算法分别建立30个不同的模型。
[0019]进一步的,步骤S3中,选取多个潜在的机器学习算法,具体包括:逻辑回归、随机森林和提升回归树。
[0020]进一步的,步骤S3中,对数据集划分若干次获得不同的训练集

测试集组合;对每个训练集

测试集组合进行训练和测试并记录各算法测试性能;以性能度量的均值和范围综合考量各算法基于全参数数据集和空间参数数据集建立地下水砷统计建模的潜在泛化能力,具体包括:
[0021]将全参数数据集和空间参数数据集随机按7:3的比例生成训练集和测试集;
[0022]在训练集中采用10次重复的10折交叉验证的方法来估计超参某个取值下的泛化能力;10折交叉验证指将训练集划分为等大小的10个部分,每次选取其中一个子集作为验证集,剩余9个子集的合集作为子训练集;
[0023]通过设定超参取值使算法拟合子训练集生成模型,并计算模型在验证集上的性能度量,遍历10个子集分别作为验证集,求得10个验证集上性能度量的均值作为该次10折交叉验证中设定的超参取值对应模型的性能度量取值,以性能度量的偏差和方差来评估各算法潜在泛化能力。
[0024]进一步的,步骤S3中,以机器学习算法在全参数数据集和空间参数数据集上的性能作为评估标准,其中,作为评估标准的性能包括精确度、灵敏度、特异度和ROC平均值。
[0025]进一步的,步骤S4中,基于经过步骤S3评估筛选后的算法,对步骤S2中的模型任务进行超参敏感性测试,确定需要调试的超参及范围,优化后继所有模型的超参调试流程,并
完成所有模型任务的全参数或空间参数模型的构建,具体包括:
[0026]结合网格搜索和交叉验证方法,针对三个典型的模型任务来验证评估筛选后的算法中超参在不同数据集下的敏感性,以此来优化超参调试流程,三个典型的模型任务分别是:全参数数据集在全国尺度研究区的地下水砷统计建模、空间参数数据集在全国尺度研究区的地下水砷统计建模以及全参数数据集在西北部尺度研究区的的地下水砷统计建模;
[0027]针对每个参与调试的超参,根据研究对象的特点来选取有限个代表值,并通过排列组合的方式绘制一个多维空间的网格结构,通过遍历所有节点,尝试每个可能的超参取值,从而达到可行性与全面性的折中结果;
[0028]结合网格搜索,利用10次重复的10折交叉验证遍历超参空间中网格的所有点,再对比所有超参组合对应的性能度量,来选取对应于最高性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习模型的地下水砷风险预测方法,其特征在于,包括以如下步骤:S1,数据收集:择选与地下水砷超标潜在相关的预测变量,包括:水化学参数、地质参数、地理参数和水文参数四个大类,并收集相关预测变量的数据,整理分类为全参数数据集和空间参数数据集;S2,定制模型任务:根据研究目标的研究区空间尺度和地下水砷超标程度定义模型任务;S3,建立并评估算法选择机制:以机器学习算法在全参数数据集和空间参数数据集上的性能作为评估标准,来评估机器学习算法对数据的配适度,具体评估步骤为:选取多个潜在的机器学习算法;对数据集划分若干次获得不同的训练集

测试集组合;对每个训练集

测试集组合进行训练和测试并记录各算法测试性能;以性能度量的均值和范围综合考量各算法基于全参数数据集和空间参数数据集建立地下水砷统计建模的潜在泛化能力;筛选具有足够优秀潜力的算法进行步骤S4的建模;S4,构建概率估计模型:基于经过步骤S3评估筛选后的算法,对步骤S2中的模型任务进行超参敏感性测试,确定需要调试的超参及范围,优化后继所有模型的超参调试流程,并完成所有模型任务的全参数或空间参数模型的构建;S5,利用步骤S4构建好的概率估计模型对地下水砷风险进行预测。2.根据权利要求1所述的基于机器学习模型的地下水砷风险预测方法,其特征在于,步骤S1中,所述空间参数数据集包括地质参数、地理参数和水文参数对应的数据,所述全参数数据集包括水化学参数、地质参数、地理参数和水文参数对应的数据。3.根据权利要求1所述的基于机器学习模型的地下水砷风险预测方法,其特征在于,步骤S2中,根据研究目标的研究区空间尺度和地下水砷超标程度定义模型任务,具体为:研究区空间尺度包括:全国尺度研究区、西北部尺度研究区、东北部尺度研究区、南部尺度研究区以及南部浅层区域尺度研究区;地下水砷超标程度包括三个阈值:5μg/L、10μg/L、50μg/L;结合2个不同类型数据集:全参数数据集和空间参数数据集;定义模型任务为采用不同的算法分别建立30个不同的模型。4.根据权利要求1所述的基于机器学习模型的地下水砷风险预测方法,其特征在于,步骤S3中,选取多个潜在的机器学习算法,具体包括:逻辑回归、随机森林和提升回归树。5.根据权利要求4所述的基于机器学习模型的地下水砷风险预测...

【专利技术属性】
技术研发人员:曹文庚付宇高媛媛王小东
申请(专利权)人:中国地质科学院水文地质环境地质研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1