一种快速准确鉴定高通量基因组数据污染源的方法技术

技术编号:13286211 阅读:53 留言:0更新日期:2016-07-09 02:21
本发明专利技术公开了一种快速准确鉴定高通量基因组数据污染源的方法,该方法首先组装denovo测序的原始基因组测序数据,得到组装结果,将组装结果进行基因预测,并翻译得到基因所对应蛋白的氨基酸序列,将组装的基因组序列和氨基酸序列分别与NCBI的NT数据库和NR数据库进行blast比对,得到有同源性的序列,作为原始比对数据库;从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到少进行排序,结合基因数据的结果和氨基酸数据的结果,综合判断是否存在外源污染。本发明专利技术的方法可大限度的降低基因组denovo项目中,外来污染源对高通量基因组测序数据的污染和对后续生物信息学分析的影响,并提高污染源鉴定的速度和效率。

【技术实现步骤摘要】

本专利技术属于分子生物学
,涉及一种快速准确鉴定高通量基因组数据污染源的方法
技术介绍
高通量测序技术(High-throughputsequencing)又称“下一代”测序技术,可以一次对几十万到几百万条DNA分子进行序列测定。近年来,随着高通量测序技术的测序通不断提高、运行时间不断缩短、测序片段不断增长、成本不断降低,使高通量测序技术的应用范围越来越广,越来越多的团队选择通过高通量测序方法开展科学研究、辅助育种等,随着海量基因数据被测序,越来越多的物种公布了全基因组数据,为更进一步的研究打下了很好的基础。但是测序样品的外源污染问题一直是不容忽视的问题,给后续数据分析造成很大的影响和障碍。造成污染的原因有很多,主要的原因有以下几点:一是由于负责样品制备的试验人员的不规范操作,引入外源污染;二是很多样品的收集并不是也无法在无菌的环境下进行,空气中本身就存在着很多微生物;三是在文库制备及测序的过程中,也很可能因为实验人员的不规范操作会造成不同样品间的交叉污染。在全基因组denovo从头测序中,由于测序通量通常比较高,因此小部分的污染也可能使最终产出的rawdata中存在相当可观的污染数据量,对后续的基因组组装结果造成很大影响,进而影响后续的基因结构注释、基因功能注释和后续的生物信息学分析,直接关系到项目的成败。因此,除了在样品准备、文库制备及测序阶段要尽量规范操作避免外源污染外,在拿到测序平台的下机rawdata数据开展后续的生物信息学分析之前,还需要采取高效准确的方法从GB甚至TB级的海量测序原始数据中快速对污染情况进行定性,并快速锁定外源污染源,进而对外源污染数据进行去除,得到去污染后的cleandata后再开展后续的生物信息学分析。由于生物信息学是新兴学科,很多数据分析人员由于刚接触高通量基因组测序数据的生物信息学分析工作,缺乏足够的知识储备,对外源污染源污染问题缺乏认识,或对污染问题对后续生物信息学分析工作的影响问题认识不足,所以很多时候对测序的原始数据不采取任何质控或污染鉴定和去除的工作,或仅仅进行简单的质控分析去除低质量的reads和接头后,就直接进行后续的生物信息学分析。一般情况下,对高通量测序数据的去污染原理是利用blast程序,设置特定的参数和比对阈值(主要包括identity和evalue两个参数,分别设置阈值为90%和1e-05),与NCBI的NT数据库(非冗余核酸库)进行比对,通过比对上的序列对应的物种信息,来确定测序数据是否有污染,以及具体是何种物种导致的污染。由于高通量测序平台下机的rawdata数据量非常大(达到GB甚至TB级别),而NT数据库所包含的数据信息更是巨大的。因此,对原始数据逐条进行比对就意味着原始数据的每一条都要与每条NT数据库中的序列进行一一比对,从而找到最佳匹配结果,然后才能进行下一条测序数据的比对。采用该算法所花费CPU资源巨大,时间消耗巨大,并随着测序数据量的增加呈正比例增加,少则数周,多则数月都无法完成。为了控制与NT数据库比对的时间成本,目前较普遍的方法是对每份数据进行随机抽样,再将抽样的数据进行与NT数据库的比对工作(对于双端测序的数据,一般是随机抽取10000对数据)。该方法能够较好的降低污染鉴定工作的时间成本,但是也存在明显的问题。就是由于抽样是随机的,导致基于抽样数据进行的污染鉴定分析很难准确反映测序数据整体的污染情况。特别是对于测序深度非常深、测序数据量非常大的项目,抽样数据在全部数据中所占的比例非常有限,几乎不可避免出现污染鉴定结论与实际真实污染的偏差,甚至出现结论完全错误的情况,比如实际上是存在某种污染源物种造成的污染,但是由于测序数据本身比较大,导致抽样数据中没有涵盖该污染数据,导致无法正确地识别该污染源物种造成的污染。不管是抽样还是不抽样,两个方法都普遍存在的问题是,采用二代测序获得的reads都非常短,一般在100-250bp之间,为了污染鉴定的准确性,比对参数中设置的阈值一般都比较高(主要包括identity和evalue两个参数,分别设置阈值为90%和1e-05),比对结果中低于这个阈值的序列就会被认为不是该污染源。而对于突变频繁的位点,本身的遗传多样性就比较高,这样就会导致很多时候,污染情况被低估。总之,目前存在对污染问题对分析工作的影响认识不足的情况;而目前所普遍采用的污染鉴定及排除方法中,全部测序数据与NT数据库比对存在对CPU资源占用巨大,时间耗费长的缺点;抽样的方法存在因抽样导致对污染的真实情况评估不准甚至评估错误的风险;两种方法都存在因阈值过高导致的污染情况被低估的风险,进而影响后续的污染去除和后续的生物信息学分析工作。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提供一种快速准确鉴定高通量基因组数据污染源的方法。本专利技术的方法可大限度的降低基因组denovo项目中,外来污染源对高通量基因组测序数据的污染和对后续生物信息学分析的影响,并提高污染源鉴定的速度和效率。为实现上述目的,本专利技术采取的技术方案是一种快速准确鉴定高通量基因组数据污染源的方法,包括以下步骤:(3)组装denovo测序的原始基因组测序数据,得到组装结果;(4)将组装结果与NCBI的NT数据库进行blast比对,得到同源性的序列,作为原始比对数据库;(3)从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到少进行排序,判断是否存在外源污染;(4)将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列,将氨基酸序列与NCBI的NR数据库进行blast比对;(5)得到步骤(4)的比对结果后,再依照步骤(3)的方法,提取物种信息和排序,将氨基酸序列对应的物种从多到少进行排序,判断是否存在外源污染;(6)结合步骤(3)和步骤(5)的结果,根据两步分析统计中均存在的结果,最终确定污染情况及具体污染源。其中,步骤(1)中,优选采用基于k-mer的开源基因组组装软件进行组装;更优选地,所述基于k-mer的开源基因组组装软件为ABYSS、SOAPdenovo、Velvet或ALLPATHS-LG软件;其中,步骤(2)中,进行blast比对时使用的具体命令为:blastall-pblastn-dBlastDB-iin_file.fasta-m8–b20-e1e-5>blast_output;其中,步骤(3)中,提取物种信息和排序的功能是通过基于Java程序的算法来实现的,本文档来自技高网
...

【技术保护点】
一种快速准确鉴定高通量基因组数据污染源的方法,其特征在于,包括以下步骤:(1)组装denovo测序的原始基因组测序数据,得到组装结果;(2)将组装结果与NCBI的NT数据库进行blast比对,得到有同源性的序列,作为原始比对数据库;(3)从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到少进行排序,判断是否存在外源污染;(4)将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列,将氨基酸序列与NCBI的NR数据库进行blast比对;(5)得到步骤(4)的比对结果后,再依照步骤(3)的方法,提取物种信息和排序,将氨基酸序列对应的物种从多到少进行排序,判断是否存在外源污染;(6)结合步骤(3)和步骤(5)的结果,根据两步分析统计中均存在的结果,最终确定污染情况及具体污染源。

【技术特征摘要】
1.一种快速准确鉴定高通量基因组数据污染源的方法,其特征在于,包括以下步骤:
(1)组装denovo测序的原始基因组测序数据,得到组装结果;
(2)将组装结果与NCBI的NT数据库进行blast比对,得到有同源性的序列,作为原始比
对数据库;
(3)从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到
少进行排序,判断是否存在外源污染;
(4)将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列,将
氨基酸序列与NCBI的NR数据库进行blast比对;
(5)得到步骤(4)的比对结果后,再依照步骤(3)的方法,提取物种信息和排序,将氨基
酸序列对应的物种从多到少进行排序,判断是否存在外源污染;
(6)结合步骤(3)和步骤(5)的结果,根据两步分析统计中均存在的结果,最终确定污染
情况及具体污染源。
2.按照权利要求1所述的方法,其特征在于:步骤(1)中,采用基于k-mer的开源基因组
组装软件进行组装。
3.按照权利要求2所述的方法,其特征在于:步骤(1)中,所述基于k-mer的开源基因组
组装软件为ABYSS、SOAPdenovo、Velvet或ALLPATHS-LG软件。
4.按照权利要求1所述的方法,其特征在于:步骤(2)中,进行blast比对时使用的具体
命令为:blastall-pblastn-dBlastDB-iin_file.fasta-m8–b20-e1e-5>blast_
output。
5.按照权利要求1所述的方法,其特征在于:步骤(3)中,提取物种信息和排序的功能是
通过基于Java程序的算法来实现的,具体包含以下两个步骤:
①javaPollutedIdentificationgetAnnotationFromNCBIDBByBlastOutblastOutRes
ultncbiDB>resul...

【专利技术属性】
技术研发人员:曲俊杰尹玲卢江
申请(专利权)人:广西作物遗传改良生物技术重点开放实验室
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1