本发明专利技术公开了一种环境微生物群宏基因组测序中序列覆盖度的置信测定方法,该方法首先对参考基因组进行随机化区域划分,然后将测序序列和基因组进行比对,对覆盖到的随机区域进行占比统计得到随机覆盖度,最后基于随机覆盖度数据进行概率置信测定。本发明专利技术能够用于矫正环境微生物群组宏基因组测序中的假阳性问题,为环境微生物检测的可靠度提供了高置信参考。为环境微生物检测的可靠度提供了高置信参考。为环境微生物检测的可靠度提供了高置信参考。
【技术实现步骤摘要】
环境微生物群宏基因组测序中序列覆盖度的置信测定方法
[0001]本专利技术涉及生物工程
,尤其是一种环境微生物的测定方法。
技术介绍
[0002]宏基因组(Metagenome)的定义为“the genomes of the total microbiota found in nature”,即环境中所有微生物基因组的总和。宏基因组不包含对某个特定微生物种群的靶向,而是针对所有微生物基因组的总和。参见附图1,现有技术中,经典的宏基因组测序分为四步:样品制备、文库构建、上机测序和数据分析。样品制备一般由两步组成,分别为样品收集和DNA提取,这一步骤需要极力避免污染,尽量确保使用的所有试剂的“无菌”状态。由于二代测序的高敏感性,在DNA文库中即便极低的DNA含量也会被扩增并测序,一旦引入污染菌群,就会对样品中真实的信号产生覆盖。文库构建&上机测序可以根据测序平台的选择采用不同的建库方案及上机测序流程。对于数据分析,宏基因组流行的分析方法主要分为两种,即测序序列分类(read classification)和宏基因组组装(metagenomic assembly)。前者为宏基因组测序结果与数据库中已知微生物基因组的比对,按照比对结果对reads进行分类,并根据各微生物reads的相对丰度分析样本中各微生物的相对种群丰度;后者为根据宏基因组测序结果,对微生物基因组数据组装为完整的基因组序列。
[0003]可见,基因组数据分析通常会报一个覆盖度(coverage)的参数,即基因组被序列覆盖到的区域的比例,对于动植物和单菌来说,覆盖度可以反映出基因组的完整度,覆盖度较低则说明基因组测序深度不够,则需要对基因组进行加测,并观测覆盖度是否得到有效改善,若没有改善则需要用大片段文库进行sanger测序或者nanopore测序补齐其中的缺失区域(gap)。
[0004]然而,宏基因组则比较特殊,目的是对环境微生物群组(包括人体基因组中的微生物)进行定性,而不是进行定量。对这些标本提取好DNA或者RNA后,进行高通量基因组测序,然后进行后续分析。如图1所示,在实验环节会引入大量的人工序列(architects),人工序列主要来自于试剂及文库构建中的空载体序列,这部分序列可以通过通过背景数据库及标准的流程删去,人体细胞测序后得到的序列也可以通过和人类基因组参考序列比对删去。而剩余的序列和微生物基因组参考基因组比对后,如果未有收录,则无法判定其来源,可能是未知的物种,也可能是实验环节带入的污染序列。如参考基因组中有收录这些序列信息,则可以判定为已知物种。本专利技术主要指向是已知环境微生物序列。
技术实现思路
[0005]本专利技术要解决的技术问题是提供一种环境微生物群宏基因组测序中序列覆盖度的置信测定方法。
[0006]为解决上述技术问题,本专利技术所采取的技术方案如下。
[0007]环境微生物群宏基因组测序中序列覆盖度的置信测定方法,其特征在于:
[0008]该方法首先对参考基因组进行随机化区域划分,然后将测序序列和基因组进行比
对,对覆盖到的随机区域进行占比统计得到随机覆盖度,最后基于随机覆盖度数据进行概率置信测定。
[0009]作为本专利技术的一种优选技术方案,该方法包括如下实施步骤:
[0010]A、参考基因组的构建和随机化区域划分
[0011]将参考基因组分类后进行随机化分,然后按照统一的文本格式进行存储,以便于后续数据处理过程中随时调取;
[0012]B、随机覆盖度的测定
[0013]将测定序列和基因组进行比对,统计覆盖到的随机区域的占比,并按照随机批次的划分进行若干次重复计算,最后取平均值,得到随机覆盖度;
[0014]C、随机置信度的测定
[0015]确认环境样品中微生物的测序序列所在基因组坐标位置的随机分布性,基于此,对于随机性区域进一步划分为去除重复的区域和所有区域,并对这两种区域分别进行计算测定,最后设定量化可信度指标Pr,Pr的范围为0
‑
1,越接近1,说明环境样品中存在目标微生物的可信度越高;Pr的表达式为:
[0016]Pr=(Cov~{mCov}
i
)*Sigmoid(Cov);
[0017]其中,Cov为当次抽样随机覆盖度,{mCov}
i
为在序列数为i的情况下通过蒙特卡洛模拟得到的模拟值集合,(Cov~{mCov}i)为密度函数,即此次测序的随机覆盖度,落入{mCov}
i
中的可能性,为0
‑
1之间的值;Sigmoid(Cov)为Sigmoid惩罚函数。
[0018]作为本专利技术的一种优选技术方案,该方法包括如下实施步骤:
[0019]A、参考基因组的构建和随机化区域划分,包括如下分步骤:
[0020]A
‑
1、参考基因组包括完整基因组以及碎片基因组,将碎片基因组和完整基因组比对后进行排序;
[0021]A
‑
2、通过环化处理直接将其首尾相联;
[0022]A
‑
3、将环化后的基因组随机化分,并照统一的文本格式进行存储,以便于后续数据处理过程中随时调取;
[0023]B、随机覆盖度的测定
[0024]将测定序列和基因组进行比对,统计覆盖到的随机区域的占比,并按照随机批次的划分进行若干次重复计算,最后取平均值,得到随机覆盖度;计算公式为:
[0025]C={N}/nM;
[0026]其中,N为覆盖到的随机区域的个数,n为随机批次的个数,M为随机区域的个数;
[0027]C、随机置信度的测定
[0028]测序过程中将遗传物质随机打断成大小一致的片段并对基因组片段进行随机抽样,由此确认环境样品中微生物的测序序列所在基因组坐标位置的随机分布性,基于此,对于随机性区域进一步划分为去除重复的区域和所有区域,并对这两种区域分别进行计算测定,并基于随机覆盖度集合不符合正态分布,采用非参数检验的落入区间概率,同时对随机覆盖度较低的随机覆盖度引入Sigmoid惩罚打分,最后得到量化可信度指标Pr,Pr的范围为0
‑
1,越接近1,说明环境样品中存在目标微生物的可信度越高;Pr的表达式为:
[0029]Pr=(Cov~{mCov}i)*Sigmoid(Cov);
[0030]其中,Cov为当次抽样随机覆盖度,{mCov}
i
为在序列数为i的情况下通过蒙特卡洛
模拟得到的模拟值集;(Cov~{mCov}i)为密度函数,即此次测序的随机覆盖度,落入{mCov}
i
中正常区间可能性,为0
‑
1之间的值,Sigmoid(Cov)为Sigmoid函数。
[0031]我们假设某次测序发现,环境中物种的序列数为28,对于这个公式的详细描述如下所示:
[0032]{mCov}
i
即为{mCo本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.环境微生物群宏基因组测序中序列覆盖度的置信测定方法,其特征在于:该方法首先对参考基因组进行随机化区域划分,然后将测序序列和基因组进行比对,对覆盖到的随机区域进行占比统计得到随机覆盖度,最后基于随机覆盖度数据进行概率置信测定。2.根据权利要求1所述的环境微生物群宏基因组测序中序列覆盖度的置信测定方法,其特征在于:该方法包括如下实施步骤:A、参考基因组的构建和随机化区域划分将参考基因组分类后进行随机化分,然后按照统一的文本格式进行存储,以便于后续数据处理过程中随时调取;B、随机覆盖度的测定将测定序列和基因组进行比对,统计覆盖到的随机区域的占比,并按照随机批次的划分进行若干次重复计算,最后取平均值,得到随机覆盖度;C、随机置信度的测定确认环境样品中微生物的测序序列所在基因组坐标位置的随机分布性,基于此,将随机性区域进一步划分为“去除重复的区域”和“所有区域”,并对这两种区域分别进行计算测定,最后设定量化可信度指标Pr,Pr的范围为0
‑
1,越接近1,说明环境样品中存在目标微生物的可信度越高;Pr的表达式为:Pr=(Cov~{mCov}i)*Sigmoid(Cov);其中,Cov为当次抽样随机覆盖度,{mCov}
i
为在序列数为i的情况下通过蒙特卡洛模拟得到的模拟值集合,(Cov~{mCov}i)为密度函数,即此次测序的随机覆盖度,落入{mCov}
i
中的可能性,为0
‑
1之间的值,Sigmoid(Cov)为Sigmoid惩罚函数。3.根据权利要求1所述的环境微生物群宏基因组测序中序列覆盖度的置信测定方法,其特征在于:该方法包括如下实施步骤:A、参考基因组的构建和随机化区域划分,包括如下分步骤:A
‑
1、参考基因组包括完整基因组以及碎片基因组,将碎片基因组和完整基因组比对后进行排序;A
‑
2、通过环化处理直接将其首尾相联;A
‑
3、将环化后的基因组随机化分...
【专利技术属性】
技术研发人员:李昂,焦梦帆,刘英,李瑶光,王慧芬,朱威威,
申请(专利权)人:郑州大学第一附属医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。