优化的宏基因组纳米孔测序数据定量方法技术

技术编号:32971033 阅读:12 留言:0更新日期:2022-04-09 11:37
本发明专利技术提供一种通过降维分群和校正基因组长度优化宏基因组纳米孔测序数据定量的方法,所述方法能够提高宏基因组数据的定量准确度,与传统定量方法相比,相关性平均提高50%左右。左右。左右。

【技术实现步骤摘要】
优化的宏基因组纳米孔测序数据定量方法


[0001]本专利技术涉及生信分析领域,具体涉及一种通过降维分群和校正基因组长度优化宏基因组纳米孔测序数据定量的方法。

技术介绍

[0002]宏基因组学(Metagenomics,又称元基因组学)是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选或测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、与环境之间的关系为研究目的的微生物研究方法。宏基因组学允许我们越过可培养性和分类学特性的限制,直接调查细菌,病毒和真菌等微生物群落的遗传组成。宏基因组学的分析内容主要包括微生物群落的物种组分与差异分析、功能组分与差异分析、以及环境因子与微生物组的关系等。
[0003]纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术。目前测序长度可以达到150kb。这项技术开始于90年代,经历了三个主要的技术革新:一、单分子DNA从纳米孔通过;二、纳米孔上的酶对于测序分子在单核苷酸精度的控制;三、单核苷酸的测序精度控制。目前市场上广泛接受的纳米孔测序平台是Oxford Nanopore Technologies(以下简称ONT)公司的MinION和GridION纳米孔测序仪。它的特点是单分子测序,有测序读长长,文库制备方便,测序速度快,测序数据实时获取等特点。
[0004]确定微生物群落中存在的有机体及其丰富度通常是揭示这些群落生物学的第一步。分类特征分析用于推断环境微生物群落中微生物分类情况及比例(相对丰度)。分类学分析方法的特点:它们都在不同程度上依赖于(已测序微生物的)参考数据库来为序列分配分类标签。宏基因组和参考数据库的规模对分类分析提出了重大挑战。基于组装的方法特别适用于微生物组研究尤其是包含大量以前未观测到(未测序)微生物。利用宏基因组从头组装技术,即宏基因组reads首先组装成contigs,通过与参考基因组的序列比对,将分类或系统发育信息归于每个contig,得到微生物群落的物种组分,进而进行群落的差异分析,功能分析等。
[0005]除了受参考基因组的完整程度影响外,微生物定量的过程中常用序列(reads)数或归一化每百万序列(reads per million,RPM)的比值来表征特定微生物的数量或丰度。对于宏基因组,一个物种基因组长度越长、测序深度越高,得到该物种的序列数就越多,而目前的工具在计算时大多数没有考虑基因组大小和不同物种之间序列长度分布的差异。
[0006]有鉴于此,特提出本专利技术。

技术实现思路

[0007]本专利技术的目的是提升宏基因组纳米孔测序数据定量准确性,为实现上述目的,本专利技术创新性的提出了BPKM概念,即Bases Per Kilobase of reference per Million mapped bases,其代表每百万bases中来自于某基因组每千碱基长度的bases数。通过计算BPKM可有效的提高宏基因组数据的定量准确度。
[0008]本专利技术提供如下技术方案:
[0009]本专利技术首先提供一种提高宏基因组数据的定量准确度的生信分析方法,其特征在于,包括如下步骤:
[0010]步骤1)序列生成;
[0011]步骤2)序列质控;
[0012]步骤3)降维聚类:获取reads的k

mer频数矩阵,基于频数特征矩阵对所有测序reads进行降维分群;
[0013]步骤4)组装:对每群所含reads单独进行组装;
[0014]步骤5)数据库比对:将组装后的contigs分别与数据库进行blast比对,基于比对结果进行contigs物种鉴定;
[0015]步骤6)序列比对:将质控后序列比对到组装后的contigs上,得到比对结果bam文件;
[0016]步骤7)BPKM统计:基于bam文件统计每个contig覆盖的碱基数,进行BPKM统计。
[0017]进一步的,所述BPKM为每百万bases中来自于某基因组每千碱基长度的bases数,定义如下公式进行统计:
[0018][0019]其中,所述base数为contigs覆盖碱基数;所述测序总base数为质控后的reads所包含的所有碱基数。
[0020]进一步的,上述方法进一步包括如下步骤:
[0021]步骤8)基于步骤5)得到的contigs与物种对应关系,如果一个物种对应多个contigs,以所有contigs的BPKM均值作为该物种的最终定量结果。
[0022]进一步的,所述步骤1)序列生成为:测序平台产生的原始信号通过basecalling,得到的fastq格式的序列信息;
[0023]进一步的,所述步骤2)序列质控为:统计序列的长度和质量值;
[0024]优选的,对于纳米孔长读长数据,过滤低质量和长度过短的序列,同时去除接头序列;
[0025]更优选的,质控后进一步包括序列矫正步骤:过滤后的序列使用CONSENT软件进行碱基自校正;所述步骤5)中的数据库为NCBI NT数据库。
[0026]进一步的,所述步骤3)中k

mer频数矩阵为5

mer频数矩阵;优选的,所述5

mer的序列种类数为4*4*4*4*4/2=512种,计算每种reads中该512种mer的频率,得到5

mer频率矩阵;所述步骤3)降维聚类是采用umap降维处理;
[0027]优选的,使用python的umap包进行序列降维。
[0028]进一步的,所述步骤4)中所述组装为使用Canu对于每个cluster的reads单独进行组装;
[0029]优选的,还包括基于Medaka对组装结果进行纠错。
[0030]进一步的,所述步骤5)中的数据库为NCBI NT数据库。
[0031]进一步的,上述测序数据为三代或四代测序数据;
[0032]优选的为四代纳米孔测序数据。
[0033]本专利技术还提供一种BPKM统计在提高宏基因组数据的定量准确度性中的应用,其特征在于所述BPKM为每百万bases中来自于某基因组每千碱基长度的bases数,定义公式如下:
[0034][0035]其中,所述base数为contigs覆盖碱基数;所述测序总base数为质控后的reads所包含的所有碱基数。
[0036]进一步的,所述BPKM统计是基于bam文件统计每个contig覆盖的碱基数,进行BPKM统计。
[0037]进一步的,所述BPKM统计前还包括如下
[0038]步骤1)序列生成;
[0039]步骤2)序列质控;
[0040]步骤3)降维聚类:获取reads的k

mer频数矩阵,基于频数特征矩阵对所有测序reads进行降维分群;
[0041]步骤4)组装:对每群所含reads单独进行组装;
[0042]步骤5)数据库比对:将组装后的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提高宏基因组数据的定量准确度的生信分析方法,其特征在于,包括如下步骤:步骤1)序列生成;步骤2)序列质控;步骤3)降维聚类:获取reads的k

mer频数矩阵,基于频数特征矩阵对所有测序reads进行降维分群;步骤4)组装:对每群所含reads单独进行组装,得到contigs;步骤5)数据库比对:将组装后的contigs分别与数据库进行比对,基于比对结果进行contigs物种鉴定;步骤6)序列比对:将步骤2)质控后序列比对到步骤4)组装后的contigs上,得到比对结果bam文件;步骤7)BPKM统计:基于bam文件统计每个contig覆盖的碱基数,进行BPKM统计。2.权利要求1所述的提高宏基因组数据的定量准确度的生信分析方法,其特征在于,所述BPKM为每百万bases中来自于某基因组每千碱基长度的bases数,定义公式如下:其中,所述base数为contigs覆盖碱基数;所述测序总base数为质控后的reads所包含的所有碱基数。3.权利要求1

2任一所述的提高宏基因组数据的定量准确度的生信分析方法,其特征在于,进一步包括如下步骤:步骤8)基于步骤5)得到的contigs与物种对应关系,如果一个物种对应多个contigs,以所有contigs的BPKM均值作为该物种的最终定量结果。4.权利要求1

3任一所述提高宏基因组数据的定量准确度的生信分析方法,其特征在于:所述步骤1)序列生成为:测序平台产生的原始信号通过basecalling,得到的fastq格式的序列信息;所述步骤2)序列质控为:统计序列的长度和质量值;优选的,对于纳米孔长读长数据,过滤低质量和长度过短的序列,同时去除接头序列;更优选的,质控后进一步包括序列矫正步骤:过滤后的序列使用CONSENT软件进行碱基自校正;所述步骤5)中的...

【专利技术属性】
技术研发人员:李珊李振中戴岩张岩李诗濛任用
申请(专利权)人:南京先声诊断技术有限公司南京先声医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1