一种通过微生物宏基因组对未知样本进行地理定位的方法技术

技术编号：23402101 阅读：27 留言：0更新日期：2020-02-22 14:09

本发明专利技术涉及一种通过微生物宏基因组对未知样本进行地理定位的方法，其基于微生物宏基因组对未知样本的来源城市进行预测定位，且在对训练样本和未知样本进行数据处理的过程中，对样本中各菌株的丰度进行分级，通过多个门限值将双精度的菌株丰度转换成离散的多元值。对相较于现有的定位方法，本发明专利技术预测准确性高。

A method of geolocation of unknown samples by microbial macro genome

全部详细技术资料下载

【技术实现步骤摘要】
一种通过微生物宏基因组对未知样本进行地理定位的方法
本专利技术涉及微生物
，具体涉及一种通过微生物宏基因组对未知样本进行地理定位的方法。
技术介绍
微生物是地球上数量最多，种类最丰富，分布范围最广泛的生物类群。基于高通量测序的宏基因组学技术不需要进行微生物培养，可以直接对取自环境里的微生物样品进行分析研究。整个流程是先将样品里的DNA提取出来，进行测序，然后通过算法和计算机软件对测序结果进行分析。目前宏基因组学的发展，可以从多个不同的环境样本中快速、准确的获得环境微生物的基因组序列。通过宏基因组测序数据可以进行菌群检测和菌群丰度的定量，分析样本的物种组成和功能组成。宏基因组学技术给病源识别鉴定、溯源分析等带来了新的方法和思路，在食品安全、传染病防控等方面有巨大潜力和发展空间。未知样本的地理定位是指对于一个未知的微生物样本，通过对该样本的测序数据的分析，定位其地理来源。现有的方法大多是基于16sRNA测序进行微生物来源城市的预测，在小样本量预测的准确性并不理想。
技术实现思路
针对上述问题，本...

【技术保护点】
1.一种通过微生物宏基因组对未知样本进行地理定位的方法，其特征在于：所述方法包括以下步骤：/n步骤1、训练预测模型/n将已知来源的微生物样本作为训练样本，将输入到预测模型中进行训练，而在训练之前需要对训练样本进行数据预处理和特征选择；/n步骤1.1、数据预处理/n对训练样本的宏基因测序数据进行预处理，包括质控、丰度定量、丰度分级；/n对训练样本的各菌株的丰度进行分级，分级方法通过多个门限值将双精度的菌株丰度转换成离散的多元值；/n步骤1.2、特征选择/n从样本的所有菌株的集合中，挑选出有区分鉴定能力的菌株，作为特征菌株；/n步骤1.3、预测模型训练/n在这一步骤中，采用训练样本中经过特征选择后...

【技术特征摘要】
1.一种通过微生物宏基因组对未知样本进行地理定位的方法，其特征在于：所述方法包括以下步骤：
步骤1、训练预测模型
将已知来源的微生物样本作为训练样本，将输入到预测模型中进行训练，而在训练之前需要对训练样本进行数据预处理和特征选择；
步骤1.1、数据预处理
对训练样本的宏基因测序数据进行预处理，包括质控、丰度定量、丰度分级；
对训练样本的各菌株的丰度进行分级，分级方法通过多个门限值将双精度的菌株丰度转换成离散的多元值；
步骤1.2、特征选择
从样本的所有菌株的集合中，挑选出有区分鉴定能力的菌株，作为特征菌株；
步骤1.3、预测模型训练
在这一步骤中，采用训练样本中经过特征选择后的所有特征菌株丰度值分级多元值，和这些训练样本的来源城市作为输入，利用机器学习的办法进行训练，从而得到预测模型；
步骤2、未知样本的地理定位
步骤2.1、对未知样本进行数据预处理
对未知样本的的宏基因测序数据进行预处理，包括质控、丰度定量、丰度分级；
步骤2.2、特征选择
从未知样本的所有菌株的集合中，挑选出一部分有区分鉴定能力的菌株，作为特征菌株；
步骤2.3、未知样本在训练集城市上的概率预测
将未知样本的所有特征菌株的丰度分级多元值做为输入，输入至预测模型中，得到该样本来自n个城市的概率yi,(i＝1,2,...,n)；
步骤2.4、地理定位
如果该未知样本来自这n个城市，那么，将预测概率最高的城市作为该未知样本的来源城市。

2.根据权利要求1所述的一种通过微生物宏基因组对未知样本进行地理定位的方法，其特征在于：所述步骤2.4还包括：
若未知样本不是来自训练集的n个城市，假设有n个训练集内城市在指定坐标系下的坐标为(xi,yi),(i＝1,2,...,n),然后，未知样本在这...

【专利技术属性】
技术研发人员：许灿强，黄丽红，杨文娴，俞容山，
申请(专利权)人：厦门极元科技有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人