一种预测土壤根际微生物多样性的机器学习方法技术

技术编号:39751185 阅读:5 留言:0更新日期:2023-12-17 23:49
本发明专利技术涉及一种预测土壤根际微生物多样性的机器学习方法,包括如下步骤:收集文献中不同地点土壤的包含植物种类

【技术实现步骤摘要】
一种预测土壤根际微生物多样性的机器学习方法


[0001]本专利技术涉及环境
,具体涉及一种评价土壤根际微生物多样性的机器学习方法


技术介绍

[0002]土壤作为地球上绝大多数陆地生物赖以生存的家园,在维持生物多样性以及生态系统功能方面有着不可忽视的重要意义,根际微生物是指生活在根际区域微环境中的一类微生物群落,它包括细菌,放线菌,真菌,病原体及一些特异菌等,其中以细菌为主

根际环境是植物根系生长发育

营养成分吸收和新陈代谢的场所,是土壤

根系

微生物相互作用的系统

土壤的理化性质在一定程度上作为土壤的特性决定了土壤中原有微生物群落的特征,同时土壤也会对植物的类型和根系特征有着一定的影响,从而影响根际微生物群落的特征

[0003]在土壤微生物的数量和种类以及代谢活动方面,根际要多于或强于非根际,根际土壤

微生物

植物互作一直是土壤微生物研究的热点方向,其复杂的互作关系对整个根际系统的稳定和发展有着至关重要的影响

通过研究对植物

土壤环境

根际微生物等在根际土壤微生态系统中所充当的角色和发挥的功能有了进一步的认识

[0004]近年来,基于机器学习的一系列预测方法得到了快速发展,为全球尺度背景下的数据驱动研究提供了有效支撑;机器学习可以识别人类可能遗漏的数据趋势和模式,设置后无需人工干预即可运作,其结果会随着时间推移越来越准确,并且能够在动态

大容量和复杂的数据环境中处理各种数据格式,相较于传统的计量领域推断方法有更强的适应性,对环境科学与生态领域研究有着较强借鉴意义


技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足与缺陷,提供一种预测土壤根际微生物多样性的机器学习方法,本专利技术拓展机器学习在环境科学领域应用的范围,通过收集文献中现有的细菌
16SrRNA
高通量测序技术数据使用
QIIME2
生信分析软件分析,能够实现对土壤根际微生物多样性的准确

稳定预测

为达成上述目的,本专利技术的技术方案如下

[0006]一种预测土壤根际微生物多样性的机器学习方法,其特征在于,包括如下步骤:
[0007]S1
:收集文献中不同地点土壤的包含植物种类

根际微生物基因测序序列号

土壤理化性质等在内的数据,并填补环境特征

气候条件相关数据,建立土壤数据库;
[0008]S2
:根据所获取的基因测序数据序列号,下载根际微生物测序数据,得到土壤根际微生物原始数据,使用生物信息软件处理搜集到的根际土壤微生物的原始数据,计算根际微生物的不同多样性指标,选择能够反映土壤根际微生物多样性的合适指标,确定机器学习模型的输出;
[0009]S3
:基于土壤数据库,使用机器学习特征筛选方法进行特征筛选,对筛选出的特征进行重要性分析,以重要性较高特征作为预测变量,得到筛选后的特征集,获得机器学习的
模型输入;
[0010]S4
:基于机器学习算法对所筛选出的特征进行重要性分析并排序,获得显著性信息;
[0011]S5
:基于机器学习算法将筛选后的特征集输入到机器学习模型进行训练,并调节机器学习随机森林的参数使其达到准确性的要求,得到预测的根际土壤微生物多样性结果;
[0012]S6
:使用十折交叉验证方法进行模型检验

[0013]进一步地,步骤
S1
的方法如下:
[0014]S11
:在文献数据库中检索,搜集主题包括气候地理因素对土壤根际微生物的影响

土壤理化性质对根际微生物的影响

土壤根际微生物多样性的相关文献,按照主题及相关内容进行存储,便于后续提取数据;
[0015]S12
:提取文献中提供的包括土壤理化性质

植物种类

根际微生物基因测序序列号在内的土壤特征数据;
[0016]S13
:填补包含年平均气温和年平均降水在内的环境特征数据,建立起土壤数据库

[0017]进一步地,步骤
S2
的方法如下:
[0018]S21
:根据所获取的基因测序数据序列号,下载根际微生物测序数据,得到土壤根际微生物原始数据;
[0019]S22
:对从
S21
所提取的土壤根际微生物原始数据进行剪切和注释处理,并计算土壤根际微生物的
α
多样性指数和
β
多样性指数;
[0020]S23
:从
S22
所计算的
α
多样性指数和
β
多样性指数中选择合适的指标表征根际微生物多样性;以所选择的合适指标作为机器学习模型的输出

[0021]进一步地,
S23
中,以
shannon
指数和
pielou
指数分别作为代表土壤根际微生物的丰富度指标和均匀度的指标,以
shannon
指数和
pielou
指数两个指标作为机器学习模型的输出

[0022]进一步地,步骤
S3
的方法如下:
[0023]S31
:使用基于随机森林模型的剔除重要性为负数的迭代方法对特征进行筛选,直到不出现负的特征重要性,选取模型效果最优的特征集;所述特征的种类包括植物种类

土壤理化性质

环境特征和气候条件;
[0024]S32
:通过特征筛选,保留的重要性较高特征为:经纬度

植物

年平均气温

年平均降水量

土壤类型
、pH、
硝态氮

速效钾

速效磷

全氮

全碳

土壤有机质含量,以上述特征为预测特征,得到筛选后的特征集

[0025]进一步地,所述的机器学习模型为随机森林模型,步骤
S4
的方法如下:
[0026]S41
:计算每个预测变量的相对重要性的得分,对预测变量根据得到的%
lnMSE
得分排序,得分越高的变量越重要,从而确定预测变量的可靠程度;
[0027]S42
:通过随机森林模型评估每个预测变量对响应变量的重要性,并获得显著性信息

[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种预测土壤根际微生物多样性的机器学习方法,其特征在于,包括如下步骤:
S1
:收集文献中不同地点土壤的包含植物种类

根际微生物基因测序序列号

土壤理化性质等在内的数据,并填补环境特征

气候条件相关数据,建立土壤数据库;
S2
:根据所获取的基因测序数据序列号,下载根际微生物测序数据,得到土壤根际微生物原始数据,使用生物信息软件处理搜集到的根际土壤微生物的原始数据,计算根际微生物的不同多样性指标,选择能够反映土壤根际微生物多样性的合适指标,确定机器学习模型的输出;
S3
:基于土壤数据库,使用机器学习特征筛选方法进行特征筛选,对筛选出的特征进行重要性分析,以重要性较高特征作为预测变量,得到筛选后的特征集,获得机器学习的模型输入;
S4
:基于机器学习算法对所筛选出的特征进行重要性分析并排序,获得显著性信息;
S5
:基于机器学习算法将筛选后的特征集输入到机器学习模型进行训练,并调节机器学习随机森林的参数使其达到准确性的要求,得到预测的根际土壤微生物多样性结果;
S6
:使用十折交叉验证方法进行模型检验
。2.
根据权利要求1所述的预测土壤根际微生物多样性的机器学习方法,其特征在于,步骤
S1
的方法如下:
S11
:在文献数据库中检索,搜集主题包括气候地理因素对土壤根际微生物的影响

土壤理化性质对根际微生物的影响

土壤根际微生物多样性的相关文献,按照主题及相关内容进行存储,便于后续提取数据;
S12
:提取文献中提供的包括土壤理化性质

植物种类

根际微生物基因测序序列号在内的土壤特征数据;
S13
:填补包含年平均气温和年平均降水在内的环境特征数据,建立起土壤数据库
。3.
根据权利要求1所述的预测土壤根际微生物多样性的机器学习方法,其特征在于,步骤
S2
的方法如下:
S21
:根据所获取的基因测序数据序列号,下载根际微生物测序数据,得到土壤根际微生物原始数据;
S22
:对从
S21
所提取的土壤根际微生物原始数据进行剪切和注释处理,并计算土壤根际微生物的
α
多样性指数和
β
多样性指数;
S23
:从<...

【专利技术属性】
技术研发人员:胡献刚王安宁穆莉邓鹏
申请(专利权)人:农业农村部环境保护科研监测所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1