一种通过微生物宏基因组对未知样本进行地理定位的方法技术

技术编号:23402101 阅读:16 留言:0更新日期:2020-02-22 14:09
本发明专利技术涉及一种通过微生物宏基因组对未知样本进行地理定位的方法,其基于微生物宏基因组对未知样本的来源城市进行预测定位,且在对训练样本和未知样本进行数据处理的过程中,对样本中各菌株的丰度进行分级,通过多个门限值将双精度的菌株丰度转换成离散的多元值。对相较于现有的定位方法,本发明专利技术预测准确性高。

A method of geolocation of unknown samples by microbial macro genome

【技术实现步骤摘要】
一种通过微生物宏基因组对未知样本进行地理定位的方法
本专利技术涉及微生物
,具体涉及一种通过微生物宏基因组对未知样本进行地理定位的方法。
技术介绍
微生物是地球上数量最多,种类最丰富,分布范围最广泛的生物类群。基于高通量测序的宏基因组学技术不需要进行微生物培养,可以直接对取自环境里的微生物样品进行分析研究。整个流程是先将样品里的DNA提取出来,进行测序,然后通过算法和计算机软件对测序结果进行分析。目前宏基因组学的发展,可以从多个不同的环境样本中快速、准确的获得环境微生物的基因组序列。通过宏基因组测序数据可以进行菌群检测和菌群丰度的定量,分析样本的物种组成和功能组成。宏基因组学技术给病源识别鉴定、溯源分析等带来了新的方法和思路,在食品安全、传染病防控等方面有巨大潜力和发展空间。未知样本的地理定位是指对于一个未知的微生物样本,通过对该样本的测序数据的分析,定位其地理来源。现有的方法大多是基于16sRNA测序进行微生物来源城市的预测,在小样本量预测的准确性并不理想。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种通过微生物宏基因组对未知样本进行地理定位的方法,其准确性高。为实现上述目的,本专利技术采用的技术方案是:一种通过微生物宏基因组对未知样本进行地理定位的方法,其包括以下步骤:步骤1、训练预测模型将已知来源的微生物样本作为训练样本,将输入到预测模型中进行训练,而在训练之前需要对训练样本进行数据预处理和特征选择;步骤1.1、数据预处理r>对训练样本的宏基因测序数据进行预处理,包括质控、丰度定量、丰度分级;对训练样本的各菌株的丰度进行分级,分级方法通过多个门限值将双精度的菌株丰度转换成离散的多元值;步骤1.2、特征选择从样本的所有菌株的集合中,挑选出有区分鉴定能力的菌株,作为特征菌株;步骤1.3、预测模型训练在这一步骤中,采用训练样本中经过特征选择后的所有特征菌株丰度值分级多元值,和这些训练样本的来源城市作为输入,利用机器学习的办法进行训练,从而得到预测模型;步骤2、未知样本的地理定位步骤2.1、对未知样本进行数据预处理对未知样本的的宏基因测序数据进行预处理,包括质控、丰度定量、丰度分级;步骤2.2、特征选择从未知样本的所有菌株的集合中,挑选出一部分有区分鉴定能力的菌株,作为特征菌株;步骤2.3、未知样本在训练集城市上的概率预测将未知样本的所有特征菌株的丰度分级多元值做为输入,输入至预测模型中,得到该样本来自n个城市的概率yi,(i=1,2,...,n);步骤2.4、地理定位如果该未知样本来自这n个城市,那么,将预测概率最高的城市作为该未知样本的来源城市。所述步骤2.4还包括:若未知样本不是来自训练集的n个城市,假设有n个训练集内城市在指定坐标系下的坐标为(xi,yi),(i=1,2,...,n),然后,未知样本在这些城市的概率分别为zi,(i=1,2,...,n),采用插值法对指定坐标系上的所有城市进行概率计算,概率最高的城市即为未知样本的来源城市。所述指定坐标系为地理坐标系,城市在地理坐标系下的地理坐标为城市所在的经纬度坐标。所述指定坐标系为生物坐标系,城市在生物坐标系下的生物坐标由其地理坐标经仿射变换得到,具体如下:将训练样本的所有特征菌株的丰度分级多元值做为输入,通过流形学习的方法TSNE进行降维,从而得到训练集中每个样本的二维坐标;对于训练集内城市,通过训练集中来自该城市的所有样本的二维坐标计算中心点坐标,将其作为该城市的生物坐标;城市所在的经纬度坐标作为其地理坐标,通过仿射变换将训练集内城市的地理坐标转换为其对应的生物坐标;将训练集外城市的地理坐标也通过此仿射变换,转化为生物坐标;在生物坐标系上,当通过插值法概率最大点的生物坐标时,将该生物坐标通过你仿射变换得到其地理坐标,该地理坐标对应的城市即为未知样本的来源城市。所述步骤1.2和步骤2.2中,采用结合了递归特征消除和随机森林两种算法的集成学习方法来进行特征选择。在数据预处理过程中,对各菌株的丰度进行分级具体为:将双精度丰度值转换成-1,0,1的三元值;对一个样本中所含的每一个菌株,其丰度值低于25%的转换为-1,丰度值在25%与75%之间的转换为0,丰度值大于75%的转换为1。采用上述方案后,本专利技术基于微生物宏基因组对未知样本的来源城市进行预测定位,且在对训练样本和未知样本进行数据处理的过程中,对样本中各菌株的丰度进行分级,通过多个门限值将双精度的菌株丰度转换成离散的多元值。该分级方法是一种将连续值转换为离散值的量化方法,提取不同菌株的丰度值之间的显著差异,而忽略微小差异。通过该分级方法去噪,从而增加算法的稳定性和鲁棒性。对相较于现有的定位方法,本专利技术预测准确性高。此外,本专利技术通过设定一指定坐标系,并将训练集内的城市和训练集外的城市均用该指定坐标系下的坐标来表示,然后采用插值法对指定坐标系上的所有城市进行概率计算,概率最高的城市即为未知样本的来源城市,而该城市可能不存在于训练样本的来源城市集合中。也就是说,本专利技术不仅可以预测出属于训练样本来源城市的未知样本,也可以预测出属于训练样本来源城市外的其他城市的未知样本,进一步提高了未知样本地理未知预测的准确度。附图说明图1为本专利技术数据处理流程图;图2为本专利技术预测模型训练流程图;图3为本专利技术未知样本定位流程图;图4为本专利技术地理坐标与生物坐标的仿射变换示意图。具体实施方式如图1至图3所示,本专利技术揭示了一种通过微生物宏基因组对未知样本进行地理定位的方法,其具体包括以下步骤:步骤1、训练预测模型将已知来源的微生物菌株作为训练样本,将其输入到预测模型中进行训练。而在训练之前需要对训练样本进行数据预处理和特征选择。步骤1.1、数据预处理训练样本的宏基因测序数据在FASTAQ文件中以短读长序列的方式存储,每个短读长序列的内容表示为4行文本:1)短读长序列的头信息,2)短读长序列本身,或称碱基序列,3)预留给其他附加信息,4)对应于碱基序列的质量值序列。对训练样本的宏基因测序数据进行预处理,包括质控、丰度定量、丰度分级。首先,首先对宏基因测序数据中的短读长序列进行质控。在测序建库的过程中,可能有各种物理化学原因或污染,测序技术和测序仪本身的缺陷等,都会造成测序结果里有碱基质量过低,或者含有其他来源的污染序列。为了后续生信分析的可靠性,通过质控把这些序列部分或整条清除,滤除掉不符合质量标准的测序数据。随后,通过将质控处理后的宏基因测序数据和参考基因组序列集合,检测训练样本中存在的微生物,并对各个菌株的丰度进行定量。最后,对训练样本的各个菌株的丰度进行分级。对各个样本中的微生物菌株进行丰度定量后,得到该样本中每个菌株的比例,如果直接采用这些值进行后续的机本文档来自技高网...

【技术保护点】
1.一种通过微生物宏基因组对未知样本进行地理定位的方法,其特征在于:所述方法包括以下步骤:/n步骤1、训练预测模型/n将已知来源的微生物样本作为训练样本,将输入到预测模型中进行训练,而在训练之前需要对训练样本进行数据预处理和特征选择;/n步骤1.1、数据预处理/n对训练样本的宏基因测序数据进行预处理,包括质控、丰度定量、丰度分级;/n对训练样本的各菌株的丰度进行分级,分级方法通过多个门限值将双精度的菌株丰度转换成离散的多元值;/n步骤1.2、特征选择/n从样本的所有菌株的集合中,挑选出有区分鉴定能力的菌株,作为特征菌株;/n步骤1.3、预测模型训练/n在这一步骤中,采用训练样本中经过特征选择后的所有特征菌株丰度值分级多元值,和这些训练样本的来源城市作为输入,利用机器学习的办法进行训练,从而得到预测模型;/n步骤2、未知样本的地理定位/n步骤2.1、对未知样本进行数据预处理/n对未知样本的的宏基因测序数据进行预处理,包括质控、丰度定量、丰度分级;/n步骤2.2、特征选择/n从未知样本的所有菌株的集合中,挑选出一部分有区分鉴定能力的菌株,作为特征菌株;/n步骤2.3、未知样本在训练集城市上的概率预测/n将未知样本的所有特征菌株的丰度分级多元值做为输入,输入至预测模型中,得到该样本来自n个城市的概率y...

【技术特征摘要】
1.一种通过微生物宏基因组对未知样本进行地理定位的方法,其特征在于:所述方法包括以下步骤:
步骤1、训练预测模型
将已知来源的微生物样本作为训练样本,将输入到预测模型中进行训练,而在训练之前需要对训练样本进行数据预处理和特征选择;
步骤1.1、数据预处理
对训练样本的宏基因测序数据进行预处理,包括质控、丰度定量、丰度分级;
对训练样本的各菌株的丰度进行分级,分级方法通过多个门限值将双精度的菌株丰度转换成离散的多元值;
步骤1.2、特征选择
从样本的所有菌株的集合中,挑选出有区分鉴定能力的菌株,作为特征菌株;
步骤1.3、预测模型训练
在这一步骤中,采用训练样本中经过特征选择后的所有特征菌株丰度值分级多元值,和这些训练样本的来源城市作为输入,利用机器学习的办法进行训练,从而得到预测模型;
步骤2、未知样本的地理定位
步骤2.1、对未知样本进行数据预处理
对未知样本的的宏基因测序数据进行预处理,包括质控、丰度定量、丰度分级;
步骤2.2、特征选择
从未知样本的所有菌株的集合中,挑选出一部分有区分鉴定能力的菌株,作为特征菌株;
步骤2.3、未知样本在训练集城市上的概率预测
将未知样本的所有特征菌株的丰度分级多元值做为输入,输入至预测模型中,得到该样本来自n个城市的概率yi,(i=1,2,...,n);
步骤2.4、地理定位
如果该未知样本来自这n个城市,那么,将预测概率最高的城市作为该未知样本的来源城市。


2.根据权利要求1所述的一种通过微生物宏基因组对未知样本进行地理定位的方法,其特征在于:所述步骤2.4还包括:
若未知样本不是来自训练集的n个城市,假设有n个训练集内城市在指定坐标系下的坐标为(xi,yi),(i=1,2,...,n),然后,未知样本在这...

【专利技术属性】
技术研发人员:许灿强黄丽红杨文娴俞容山
申请(专利权)人:厦门极元科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1