【技术实现步骤摘要】
本专利技术属于分子生物学
,涉及一种快速准确鉴定高通量基因组数据污染源的方法。
技术介绍
高通量测序技术(High-throughputsequencing)又称“下一代”测序技术,可以一次对几十万到几百万条DNA分子进行序列测定。近年来,随着高通量测序技术的测序通不断提高、运行时间不断缩短、测序片段不断增长、成本不断降低,使高通量测序技术的应用范围越来越广,越来越多的团队选择通过高通量测序方法开展科学研究、辅助育种等,随着海量基因数据被测序,越来越多的物种公布了全基因组数据,为更进一步的研究打下了很好的基础。但是测序样品的外源污染问题一直是不容忽视的问题,给后续数据分析造成很大的影响和障碍。造成污染的原因有很多,主要的原因有以下几点:一是由于负责样品制备的试验人员的不规范操作,引入外源污染;二是很多样品的收集并不是也无法在无菌的环境下进行,空气中本身就存在着很多微生物;三是在文库制备及测序的过程中,也很可能因为实验人员的不规范操作会造成不同样品间的交叉污染。在全基因组denovo从头测序中,由于测序通量通常比较高,因此小部分的污染也可能使最终产出的rawdata中存在相当可观的污染数据量,对后续的基因组组装结果造成很大影响,进而影响后续的基因结构注释、基因功能注释和后续的生物信息学分析,直接关系到项目的成败。因此,除了在样品准备、文库制备及测序阶段要尽量规范操作避免外源污染外,在拿到测序平 ...
【技术保护点】
一种快速准确鉴定高通量基因组数据污染源的方法,其特征在于,包括以下步骤:(1)组装denovo测序的原始基因组测序数据,得到组装结果;(2)将组装结果与NCBI的NT数据库进行blast比对,得到有同源性的序列,作为原始比对数据库;(3)从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到少进行排序,判断是否存在外源污染;(4)将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列,将氨基酸序列与NCBI的NR数据库进行blast比对;(5)得到步骤(4)的比对结果后,再依照步骤(3)的方法,提取物种信息和排序,将氨基酸序列对应的物种从多到少进行排序,判断是否存在外源污染;(6)结合步骤(3)和步骤(5)的结果,根据两步分析统计中均存在的结果,最终确定污染情况及具体污染源。
【技术特征摘要】
1.一种快速准确鉴定高通量基因组数据污染源的方法,其特征在于,包括以下步骤:
(1)组装denovo测序的原始基因组测序数据,得到组装结果;
(2)将组装结果与NCBI的NT数据库进行blast比对,得到有同源性的序列,作为原始比
对数据库;
(3)从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到
少进行排序,判断是否存在外源污染;
(4)将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列,将
氨基酸序列与NCBI的NR数据库进行blast比对;
(5)得到步骤(4)的比对结果后,再依照步骤(3)的方法,提取物种信息和排序,将氨基
酸序列对应的物种从多到少进行排序,判断是否存在外源污染;
(6)结合步骤(3)和步骤(5)的结果,根据两步分析统计中均存在的结果,最终确定污染
情况及具体污染源。
2.按照权利要求1所述的方法,其特征在于:步骤(1)中,采用基于k-mer的开源基因组
组装软件进行组装。
3.按照权利要求2所述的方法,其特征在于:步骤(1)中,所述基于k-mer的开源基因组
组装软件为ABYSS、SOAPdenovo、Velvet或ALLPATHS-LG软件。
4.按照权利要求1所述的方法,其特征在于:步骤(2)中,进行blast比对时使用的具体
命令为:blastall-pblastn-dBlastDB-iin_file.fasta-m8–b20-e1e-5>blast_
output。
5.按照权利要求1所述的方法,其特征在于:步骤(3)中,提取物种信息和排序的功能是
通过基于Java程序的算法来实现的,具体包含以下两个步骤:
①javaPollutedIdentificationgetAnnotationFromNCBIDBByBlastOutblastOutRes
ultncbiDB>resul...
【专利技术属性】
技术研发人员:曲俊杰,尹玲,卢江,
申请(专利权)人:广西作物遗传改良生物技术重点开放实验室,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。