System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种预测地表水中抗生素抗性基因相对丰度的方法及应用技术_技高网

一种预测地表水中抗生素抗性基因相对丰度的方法及应用技术

技术编号:43833999 阅读:21 留言:0更新日期:2024-12-31 18:32
本发明专利技术提供一种预测地表水中抗生素抗性基因相对丰度的方法及应用。该方法包括:获取待测水样的ARGs相对丰度、水质理化指标和属水平细菌相对丰度,以斯皮尔曼相关性判别ARGs的潜在细菌宿主;以水质理化指标和潜在细菌宿主相对丰度作为特征变量,分别以多药类(Multidrug)ARGs和总ARGs的相对丰度作为目标变量;采用自动机器学习筛选最优算法;通过特征重要度排序和模型对比,确定最优特征集;建立最优预测模型对待测水样的多药类ARGs和总ARGs相对丰度进行预测。该方法同时基于环境因素和细菌指标预测水环境ARGs,模型准确度高,而且能通过特征和目标变量间的可解释分析,识别出影响ARGs传播增殖的主要驱动因素和潜在细菌宿主。

【技术实现步骤摘要】

本专利技术涉及环境监测和智慧化环境管理领域,具体涉及一种基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法。


技术介绍

1、抗生素抗性基因(args)主要是由于滥用抗生素导致细菌或其他微生物对其产生抵抗能力,并加速其在环境中细菌间广泛传播,对生态系统以及人类健康造成严重威胁。目前普遍认为抗生素、营养状态等环境因素对于水环境中的args具有显著驱动作用,而细菌遗传学传播是导致args增殖的主要机制。然而,影响水环境中args组成与传播的因素仍然很大程度上未知,尤其对于生物因素和非生物因素的复杂互作关系及其对args的协同作用机制更是知之甚少,从而导致缺乏基于传播和增殖因素的args预测模型方法,进而导致args风险控制和监管难度非常大。

2、目前,已有少数研究尝试采用机器学习(machine learning,ml)构建环境中args预测模型,以探索其传播分布规律,如一项研究采用随机森林基于不同细菌类群预测污水处理厂活性污泥中的args丰度;另一项研究等采用深度学习技术长短期记忆方法,主要基于温度、降水、潮汐等气候变量实现了休闲海滩四种args丰度的预测。ml模型在解决这种复杂多元非线性问题时表现出强大的自学习能力和泛化能力,但是这些args预测模型是基于气象、水文、地理等影响因素而构建的,而非基于args传播和增殖的根本机制和排放因子,因此预测模型的准确度有限,且无法对args污染进行有效的源头定量管控。目前尚无同时基于环境因素和细菌指标的水环境args的预测模型。


技术实现思路

1、因此,本专利技术旨在提供一种基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,包括以下步骤:

4、(1)取若干地表水水样,获取抗生素抗性基因相对丰度,并获取其水质理化指标数据和属水平细菌相对丰度数据,针对细菌变量利用斯皮尔曼相关性分析,初步筛选多药类抗性基因(multidrug)和总抗生素抗性基因的预测模型中输入的细菌变量。

5、multidrug类args预测模型的数据集构建:原始数据初步清洗筛选过后剩余变量包括所述水质理化指标:氨态氮、硝态氮、亚硝态氮、总氮、溶解性有机碳、化学需氧量、溶解氧、叶绿素a、悬浮物、温度、ph、氧化还原电位、电导率、透明度、臭氧、总氯、喹诺酮类抗生素、磺胺类抗生素、氯霉素类抗生素、大环内酯类抗生素、四环素类抗生素;细菌指标:  uba、 acinetobacter、planktothrix、microcystis、planktophila、acamd、unclassed、 shewanella、aquiluna、pontimonas、polaribacter、mycolicibacterium、vulcanococcus、 fonsibacter、limnohabitans、thiosymbion、flavobacterium、pseudomonas、 hydrogenophaga、himb、tmed、pcc、rbg、rhodoluna;对目标变量多药类抗性基因(multidrug)相对丰度数据进行预处理,对目标变量的0值取最小值的1/10进行替代后再统一对数化处理形成包含特征变量和目标变量的数据集。

6、总args预测模型的数据集构建:原始数据初步清洗筛选过后剩余变量包括所述水质理化指标:氨态氮、硝态氮、亚硝态氮、总氮、溶解性有机碳、化学需氧量、溶解氧、叶绿素a、悬浮物、温度、ph、氧化还原电位、电导率、透明度、臭氧、总氯、喹诺酮类抗生素、磺胺类抗生素、氯霉素类抗生素、大环内酯类抗生素、四环素类抗生素;细菌指标: pseudomonas、 desulfobacca、rbg、acinetobacter、microcystis、0-14-0-80-60-11、utpro2、 planococcus_b、planktothrix、haliscomenobacter、idiomarina、bacteriovorax、 kuenenia、sg8-40、ld21、desulfosarcina、palsa-1003、brevefilum、sphaerospermopsis、 desulforhopalus、caldilinea、thiosymbion、nitrosomonas、pararheinheimera、 hyphomicrobium、gcf-002259525、phenylobacterium;对目标变量总抗生素抗性基因相对丰度数据预处理,对目标变量的0值取最小值的1/10进行替代后再统一对数化处理形成包含特征变量和目标变量的数据集。

7、(2)以上述水质理化指标和细菌指标分别作为多药类抗性基因(multidrug)和总抗生素抗性基因相对丰度预测模型的特征变量,以多药类抗性基因(multidrug)和总抗生素抗性基因相对丰度作为目标变量,采用自动机器学习模型筛选出最优算法gbm;基于gbm构建多药类抗性基因(multidrug)和总抗生素抗性基因相对丰度的初始预测模型。

8、(3)基于上述初始预测模型进行特征重要度分析,以特征变量的重要度排序为依据进行模型的特征变量优化,以r2和mse结果评估模型优化结果,最终确定分别以在多药类抗性基因(multidrug)和总抗生素抗性基因初始预测模型中的重要度排名前6位和前10位的特征变量为最优特征变量集,分别用于构建多药类抗性基因(multidrug)和总抗生素抗性基因相对丰度的最优预测模型;

9、(4)利用上述确定的多药类抗性基因(multidrug)和总抗生素抗性基因相对丰度的最优预测模型对待测地表水水样的抗生素抗性基因相对丰度进行预测。

10、进一步地,步骤(1)中,通过对地表水水样进行宏基因组测序来获取其抗生素抗性基因相对丰度。

11、进一步地,获取地表水水样args相对丰度的方法包括:

12、首先采集水体样品,提取获得样品的宏基因组测序数据,并对原始测序数据(rawreads)进行质量过滤,得到高质量读段(clean reads);

13、对每个样品获得的clean reads进行组装,获得重叠群(contigs);

14、进一步地,根据contigs的核酸组成和丰度变化模式,对序列进行聚类、分箱,得到宏基因组组装基因组(metagenomic assembled genomes,mags),对本文档来自技高网...

【技术保护点】

1.一种基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于,包括以下步骤:

2.权利要求1所述一种基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于步骤(4)中,基于GBM算法建立回归模型时对目标变量进行对数转换;通过R软件中的h2o包建立所述回归模型。

3.权利要求1所述的基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于步骤(1)中,通过对地表水水样进行宏基因组测序来获取其抗生素抗性基因相对丰度。

4.权利要求1所述的基于水质理化指标和细菌指标预测抗生素抗性基因相对丰度的方法,其特征在于获取地表水水样抗生素抗性基因相对丰度的方法包括:

5.权利要求1所述的基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于还包括将所述地表水水样的数据集随机划分为训练集和测试集,利用所述训练集建立所述预测模型,利用所述测试集验证所述预测模型的预测能力,优选的,以所述数据集的75%作为训练集,以所述数据集的25%作为测试集。

6.权利要求1所述的基于水质理化指标和细菌指标预测抗生素抗性基因相对丰度的方法,其特征在于以拟合系数R2衡量所述预测模型的预测能力:

7.权利要求1所述基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度方法在准确预测地表水环境中抗生素抗性基因(ARGs)相对丰度方面的应用;所述的相对丰度指的是:抗生素抗性基因(ARGs)在样本中的数量与样本中所有基因总量的比例,这个比例用来估计该基因在样本中的丰富程度;ARGs相对丰度越高代表其潜在环境危害越大;预测地表水环境中ARGs的相对丰度旨在对地表水环境中ARGs的传播与变化规律进行监测。

...

【技术特征摘要】

1.一种基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于,包括以下步骤:

2.权利要求1所述一种基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于步骤(4)中,基于gbm算法建立回归模型时对目标变量进行对数转换;通过r软件中的h2o包建立所述回归模型。

3.权利要求1所述的基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于步骤(1)中,通过对地表水水样进行宏基因组测序来获取其抗生素抗性基因相对丰度。

4.权利要求1所述的基于水质理化指标和细菌指标预测抗生素抗性基因相对丰度的方法,其特征在于获取地表水水样抗生素抗性基因相对丰度的方法包括:

5.权利要求1所述的基于水质理化指标和细菌指标预测地表水中抗生素抗性基因相对丰度的方法,其特征在于...

【专利技术属性】
技术研发人员:王晨晨李帅毅王少坡邱春生孙熙皓王昕妍
申请(专利权)人:天津城建大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1