当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于机器学习的湖泊溶解性有机物性质预测的方法技术

技术编号:33205777 阅读:20 留言:0更新日期:2022-04-24 00:51
本发明专利技术公开一种基于机器学习的湖泊溶解性有机物性质预测的方法,通过采集湖泊水样;通过检测水样理化性质、微生物组分、溶解性有机物组分,收集湖泊及其流域的人文指标和土地使用类型数据,建立湖泊数据库;使用机器学习特征选择方法对湖泊特征集进行筛选,得到筛选特征集;基于机器学习算法将筛选数据集输入到机器学习随机森林模型进行训练,并调节机器学习随机森林的参数使其达到准确性要求,得到预测湖泊溶解性有机物性质机器学习模型;根据调整后的随机森林模型进行10折交叉验证,得到模型的预测结果。本发明专利技术快速、准确的预测湖泊溶解性有机物的性质,为快速判断湖泊溶解性有机物性质提供了技术基础。物性质提供了技术基础。物性质提供了技术基础。

【技术实现步骤摘要】
一种基于机器学习的湖泊溶解性有机物性质预测的方法


[0001]本专利技术涉及环境
,特别涉及一种机器学习的湖泊溶解性有机物性质预测的方法。

技术介绍

[0002]全球碳排放加剧导致全球变暖,内陆湖泊被视为重要的碳排放源,了解湖泊中溶解性有机物的组成和性质有助于了解湖泊碳循环趋势。溶解性有机物组分检测主要通过傅里叶变换离子回旋共振质谱仪器,但由于成本高昂、分析步骤复杂需消耗大量人力物力,随着机器学习等方法的出现,它能够处理多变量与标签的关系,同时做出快速准确预测,通过对数据集的筛选和模型参数的调整,能达到较好的预测效果,但是在湖泊溶解性有机物的应用较少。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足和填补空白,提供一种机器学习的湖泊溶解性有机物性质预测的方法,能够实现对湖泊溶解性有机物性质准确快速的预测。
[0004]为达成上述目的,本专利技术的解决上述技术问题的方案如下:一种机器学习的湖泊溶解性有机物性质预测的方法,包括如下步骤:
[0005]步骤S1采集中国40个湖泊水样;
[0006]步骤S2检测水样理化性质、微生物组分、溶解性有机物组分,收集湖泊及其流域的人文指标和土地使用类型数据,建立湖泊数据库;
[0007]步骤S3对特征数据集使用机器学习特征选择方法进行特征筛选,得到筛选特征集;
[0008]步骤S4基于机器学习算法将筛选数据集输入到机器学习随机森林模型进行训练,并调节机器学习随机森林的参数使其达到准确性要求,得到预测湖泊溶解性有机物性质机器学习模型;
[0009]步骤S5根据调整后的随机森林模型进行10折交叉验证,得到模型的预测结果。
[0010]进一步地,所述步骤S1中采集中国40个湖泊水样,具体步骤包括:
[0011]步骤S1.1采集中国40个湖泊水样;
[0012]进一步地,所述步骤S2中检测水样理化性质、微生物组分、溶解性有机物组分,收集湖泊及其流域的人文指标和土地使用类型数据,建立湖泊数据库,具体步骤包括:
[0013]步骤S2.1检测水样的:总氮含量,化学需氧量,微生物组分(真菌和细菌门水平丰度、Chao和Shannon指数)以及溶解性有机物组分;
[0014]步骤S2.2通过地图、数据库、政府公报和年鉴收集湖泊流域的经纬度、海拔、年平均降雨量、年平均温度、空气质量指数、生产总值密度、人口密度、土地使用类型(人工地表、农用地、水体、湿地、森林、灌木草地和其他),建立了湖泊数据库;
[0015]步骤S2.3根据测得的溶解性有机物组分计算其两个性质:降解程度指数和生物可
利用性,降解程度指数的公式为:
[0016]I
deg
=∑(I
deg,neg
)/∑(I
deg,neg
+I
deg,pos
)
[0017]其中:I
deg,neg
:负相关溶解性有机物丰度,C
21
H
26
O
11
,C
17
H
20
O9,C
19
H
22
O
10
,C
20
H
22
O
10
,C
20
H
24
O
11
;I
deg,pos
:正相关溶解性有机物丰度,C
13
H
18
O7,C
14
H
20
O7,C
15
H
22
O7,C
15
H
22
O
8 and C
16
H
24
O8;
[0018]生物可利用度公式为:
[0019]生物可降解度=38.4+10.6(H:C)

70.9(O:C)+183.2(N:C)
[0020]其中:H,C,O,N分别表示化学式中氢原子、碳原子、氧原子和氮原子个数。
[0021]进一步地,所述步骤S3中对特征数据集使用机器学习特征选择方法进行特征筛选,得到筛选特征集,具体步骤包括:
[0022]步骤S3.1使用基于随机森林模型的剔除特征重要性为负数的迭代方法对特征进行筛选,直到不出现负的特征重要性,选取模型效果最优的特征集。
[0023]步骤S3.2通过特征筛选,降解程度指数的特征包括:年平均温度、人工地表、水体、人口密度、空气质量、细菌Latescibacterota丰度、细菌Margulisbacteria丰度、细菌Methylomirabilota丰度;
[0024]步骤S3.3通过特征筛选,生物可利用性的特征包括:经度、海拔、森林、灌木草地、人工地表、生产总值密度、人口密度、真菌Chao指数、细菌Cyanobacteria丰度、细菌Chytridiomycota丰度、细菌Rozellomycota丰度。
[0025]进一步地,所述步骤S4中基于机器学习算法将筛选数据集输入到机器学习随机森林模型进行训练,并调节机器学习随机森林的参数使其达到准确性要求,得到预测湖泊溶解性有机物性质机器学习模型,具体步骤包括:
[0026]步骤S4.1将筛选数据集输入到机器学习随机森林模型中,使用十折交叉验证方法进行模型验证;
[0027]将数据集随机按比例9:1分成10份子数据集,依次选取9份不同的子数据集合并为训练集输入模型进行训练,剩下的1份子集作为测试集得到测试结果,模型预测准确性评定指标为:相关系数(R2);
[0028]R2=ρ
X,Y
[0029]其中,X表示实际值,Y表示预测值;
[0030]步骤S4.2根据模型预测准确性验证结果对随机森林模型的参数进行调整,所调整的参数包括:树的个数ntree,节点最佳变量个数mtry。
[0031]具体的模型表达:
[0032]基于R语言建立模型;
[0033]导入randomForest和Metrics程序包;
[0034]读取筛选之后的数据集;
[0035]设置随机数;
[0036]使用randomForest函数建立随机森林模型,其中参数设置为:ntree=600,mtry=2。
[0037]本专利技术的有益效果表现如下
[0038]1、本专利技术提供了一种基于机器学习的湖泊溶解性有机物性质预测的方法,利用检
测湖泊水样的理化性质、微生物组分和收集湖泊及其流域的人文指标和土地使用类型数据作为特征输入模型,通过溶解性有机物组分计算得到降解程度指数和生物可利用度作为标签输出,通过机器学习随机森林模型训练学习,获得了一个稳定的可用于预测湖泊溶解性有机物性质,降解程度指数和生物可利用度模型的R2分别高达0.74和0.86。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的湖泊溶解性有机物性质预测的方法,其特征在于,包括如下步骤:S1采集中国40个以上的湖泊水样;S2检测水样理化性质、微生物组分、溶解性有机物组分,收集湖泊及其流域的人文指标和土地使用类型数据,建立湖泊数据库;S3对特征数据集使用机器学习特征选择方法进行特征筛选,得到筛选特征集;S4基于机器学习算法将筛选数据集输入到机器学习随机森林模型进行训练,并调节机器学习随机森林的参数使其达到准确性要求,得到预测湖泊溶解性有机物性质机器学习模型;S5根据调整后的随机森林模型进行10折交叉验证,得到模型的预测结果。2.根据权利要求1所述的基于机器学习的湖泊溶解性有机物性质预测的方法,其特征在于,所述步骤S2中检测水样理化性质、微生物组分、溶解性有机物组分,收集湖泊及其流域的人文指标和土地使用类型数据,建立湖泊数据库,具体步骤包括:S2.1检测水样的:总氮含量,化学需氧量,微生物组分(真菌和细菌门水平丰度、Chao和Shannon指数)以及溶解性有机物组分;S2.2通过地图、数据库、政府公报和年鉴收集湖泊流域的经纬度、海拔、年平均降雨量、年平均温度、空气质量指数、生产总值密度、人口密度、土地使用类型(人工地表、农用地、水体、湿地、森林、灌木草地和其他),建立湖泊数据库;S2.3根据测得的溶解性有机物组分计算其两个性质:降解程度指数和生物可利用性,降解程度指数的公式为:I
deg
=∑(I
deg,neg
)/∑(I
deg,neg
+I
deg,pos
)其中:I
deg,neg
:负相关溶解性有机物丰度,C
21
H
26
O
11
,C
17
H
20
O9,C
19
H
22
O
10
,C
20
H
22
O
10
,C
20
H
24
O
11
;I
deg,pos
:正相关溶解性有机物丰度,C
...

【专利技术属性】
技术研发人员:邓鹏胡献刚罗吉伟于福波王忠玮
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1