一种denovo评估组装基因组污染度的方法技术

技术编号:37816822 阅读:9 留言:0更新日期:2023-06-09 09:46
本发明专利技术属于分子生物学领域,提供一种de novo评估组装基因组污染度的方法,使用组装后计算得到的GC含量以及测序深度两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染。本申请的方法无需依赖数据库,使用情况广泛,运行速度稳定。运行速度稳定。运行速度稳定。

【技术实现步骤摘要】
一种de novo评估组装基因组污染度的方法


[0001]本专利技术属于分子生物学领域,具体涉及一种de novo评估组装基因组污染度的方法及其相应计算设备。

技术介绍

[0002]物种基因组组装是物种鉴定过程中重要的过程,由于样本来源,核酸提取,建库,上机测序等过程可能会混入其他物种的核酸。样本来源如来自肠道,土壤,水体中的样本本身包含多种物种,而实验室培养的菌落类似的样本中只包含一种样本由此导致的组装结果存在污染,最终会影响物种的鉴定结果。
[0003]目前对组装结果进行评估的工具较为常用的是checkm工具,该工具是根据基因组在参考基因组发育树中的位置来推断精确的单拷贝标记基因(lineage

specificmarker set),同时也提供数据库可用的基于分类学的基因集(taxonomic

specificmarker set),利用单拷贝基因来估计基因组的污染度(如图1所示)。使用此方法来进行污染度评估是需要有参考数据库的,若是新物种的单拷贝基因并没有在数据库中则使用该方法得到的结果并不准确;checkm中对于组装基因组的基因预测是基于prodigal方法,该方法适合细菌和古生细菌的基因预测,不能用于真核生物。而且此种方法中使用的工具,如python, hmmer, prodigal, pplacer中有的步骤并不能充分利用cpu,导致速度比较慢。
[0004]不同物种基因组核酸种类组成中会有不同,鸟嘌呤(G)和胞嘧啶(C)在总碱基中所占的比例(GC含量)是一个重要的指标,不同物种中该指标会有所不同,可根据组装后基因组不同核酸比例来进行评估组装结果是否是来源于不同物种。此外相较于相同物种的测序数据比对到自身基因组与比对到其他基因组的比对率会有不同,比对到自身的基因组会有大量的reads能够比对上,而比对到其他基因组则会有大量的reads不能比对上,因此测序深度也会受影响,在污染度较低的基因组中测序深度是比较高且稳定的,而有污染的基因组因为混入了其他物种的序列则会低很多。

技术实现思路

[0005]本专利技术将利用组装后计算得到的GC含量以及测序深度这两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染。相较于chekm方法,本方法是一种无需依赖任何数据库的de novo方法,运行速度也会比较稳定;不依赖参考数据库,即便未检测到相应的marker基因也能计算基因组的污染度。
[0006]一方面,本申请提供了一种de novo评估组装基因组污染度的方法,所述方法使用组装后计算得到的GC含量以及测序深度这两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染。
[0007]进一步地,所述方法包括以下步骤:(1)对样品基因组进行测序,获得质控后的reads以及组装的基因组;(2)对组装的基因组构建需要比对的index;
(3)使用短序列比对软件对reads进行比对获得比对结果bam文件;(4)计算基因组序列中每个位点测序深度;(5)对基因组序列统计GC含量:将每条组装的序列分割成等长的分割区域,每个分割区域长度为100—3000个碱基,计算每个分割区域中的GC含量:GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数);(6)按照步骤(5)的分割方式并结合步骤(4)得到的每个位点的测序深度结果,计算每个分割区域的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个分割区域的测序深度 = (比对到该位点的reads数 * 比对的reads长度)/分割碱基总数;(7)将步骤(5)得到的GC含量数据和步骤(6)计算得到的测序深度结果合并在一起,形成二维数据;(8)对步骤(7)得到的二维数据进行无监督聚类;(9)根据聚类结果判断污染程度。
[0008]另一方面,本申请提供了一种de novo评估组装基因组污染度的系统,所述系统包括以下模块:模块1:用于对样品基因组进行测序,获得质控后的reads以及组装的基因组;模块2:用于对组装的基因组构建需要比对的index;模块3:用于使用短序列比对软件对reads进行比对获得比对结果bam文件;模块4:用于计算基因组序列中每个位点测序深度;模块5:用于对基因组序列统计GC含量:对每条组装的序列进行分割,每个分割区域长度为100—3000个碱基,计算每个分割区域中的GC含量:GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数;模块6:用于按照模块5的分割方式并结合模块4得到的每个位点的测序深度结果,计算每个分割区域的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个分割区域的测序深度 = (比对到该位点的reads数 * 比对的reads长度)/分割碱基总数;模块7:用于将模块5得到的GC含量数据和模块6计算得到的测序深度结果合并在一起,形成二维数据;模块8:用于对模块7得到的二维数据进行无监督聚类;模块9:用于根据聚类结果判断污染程度;模块1

9中均包括存储和计算设备。
[0009]每个模块中包括存储和计算设备。
[0010]进一步地,模块3短序列比对软件选自bowtie2、bwa、bwa

mem。
[0011]进一步地,模块4中使用samtools depth工具。
[0012]进一步地,模块5中的分隔长度为200—1000个碱基。
[0013]进一步地,模块5中的分隔长度为500个碱基。
[0014]进一步地,模块8中的聚类方法选自kmeans、层次聚类(hierarchical clustering), DBSCAN算法以及Density Peaks聚类(局部密度聚类)。
[0015]进一步地,步骤模块8中聚类方法为kmeans;模块9包括寻找最优的k值;确定好最优的k值后,若k值为1,则表示只有一个类,表示没有污染;若k值大于1,则计算每个聚类中数据的数据量,计算最大的类占总数据量的比例,若大于95%则表示污染很少或是无污染。
[0016]进一步地,所述基因组为真核生物基因组。
[0017]本申请中步骤(1)/模块1中的“测序”可以使用现有技术中已知的研究中的各种方法和设备来处理样本、提取、建立文库和进行测序。
[0018]本申请中的设备中的模块可以是物理上有明显区分的单独设备,通过一定的方式连接传输数据;也可以有多个模块存在于同一物理设备(如包括CPU和存储器的计算机)中,其仅在程序中做出相应划分;每个模块对应的程序本领域技术人员可以常规设计编写。
[0019]由于不依赖现有数据库,本申请的GC

depth方法的运行速度快,时间和内存资源消耗表现均明显优于现有的方法;而且在未检测到相应的marker基因的情况下也能计算基因组的污染度,适用范围较现有方法更为广泛。
附图说明
[0020]图1为常用质量评估工具checkm的实现原理图。
[0021]图2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种de novo评估组装基因组污染度的方法,其特征在于,所述方法使用组装后计算得到的GC含量以及测序深度两个维度的数据来进行聚类,通过聚类的结果来评估组装的基因组中是否含有污染;所述方法包括以下步骤:(1)对样品基因组进行测序,获得质控后的reads以及组装的基因组;(2)对组装的基因组构建需要比对的index;(3)使用短序列比对软件对reads进行比对获得比对结果bam文件;(4)计算基因组序列中每个位点测序深度;(5)对基因组序列统计GC含量:将每条组装的序列分割成等长的分割区域,每个分割区域长度为100

3000个碱基,计算每个分割区域中的GC含量:GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数;(6)按照步骤(5)的分割方式并结合步骤(4)得到的每个位点的测序深度结果,计算每个分割区域的平均测序深度;某个位点测序深度 = 比对到该位点的reads数;某个分割区域的测序深度 = (比对到该位点的reads数 * 比对的reads长度)/分割碱基总数;(7)将步骤(5)得到的GC含量数据和步骤(6)计算得到的测序深度结果合并在一起,形成二维数据;(8)对步骤(7)得到的二维数据进行无监督聚类;(9)根据聚类结果判断污染程度。2. 根据权利要求1所述的方法,其中步骤(3)短序列比对软件选自bowtie2、bwa、bwa

mem;步骤(4)中使用samtools depth工具;步骤(8)中的聚类方法选自kmeans、层次聚类, DBSCAN算法或Density Peaks聚类。3.根据权利要求2所述的方法,其中步骤(5)中的每个分割区域长度为500个碱基。4.根据权利要求3所述的方法,其中步骤(8)中聚类方法为kmeans;步骤(9)包括寻找最优的k值;确定好最优的k值后,若k值为1,则表示只有一个类,表示没有污染;若k值大于1,则计算每个聚类中数据的数据量,计算最大的类占总数据量的比例,若大于95%则表示污染很少或是无污染。5.根据权利要求1

4任一项所述的方法,其中...

【专利技术属性】
技术研发人员:周袁杰房路京李少川
申请(专利权)人:瑞因迈拓科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1