一种基因序列数据的筛选方法技术

技术编号:7465480 阅读:301 留言:0更新日期:2012-06-28 13:59
本发明专利技术公开了一种基因序列数据的筛选方法。首先利用基因的注释信息抽提初始数据集,然后逐条对基因序列进行N/R/K/M/S/Y/W/H/D/V/B的含量计算、终止密码子和自定义序列串(如污染序列片段)的检测、与模板蛋白的相似性计算,根据预设条件决定是否选取。该方法克服了现有基因序列数据筛选时存在的注释错误或模糊、测序精度参差不齐等质量问题继而导致无法正确构建系统发育树的问题,可以用于生物系统发育、生物条形码、生物物种鉴定等相关领域的基因数据筛选。

【技术实现步骤摘要】

本专利技术属于应用生物信息学
,尤其涉及一种基因序列数据筛选方法,主要应用于生物系统发育、生物条形码、生物物种鉴定等相关领域的基因数据筛选和质量控制。
技术介绍
生物分子系统发育研究在不同水平和层次上依赖于对数据的使用从简单的检索到PCR污染物的检查,到寻找一个给定序列的类群同源性序列,到更全面的基于大量数据进行的类群和位点的数据挖掘(McMahon,Μ. Μ.,and Μ. J. Sanderson. 2006. ” Phylogenetic supermatrix analysis of GenBank sequences from 2228papilionoid legumes". Syst. Biol. 55 :818-836 ;Ciccarelli, F. D. , Τ. Doerks, C. von Mering, C. J. Creevey, B. Sne 1, and P. Bork. 2006. "Toward automatic reconstruction of a highly resolved tree of life. Science 311 1283-1287 ;Bininda-Emonds, 0. R. P. , Μ. Cardillo, K.Ε. Jones, R. D. Ε. MacPhee, R. Μ. D. Beck, R. Grenyer, S. Α. Price, R. Α. Vos, J. L. Gittleman, and Α. Purvis. 2007. "The delayed rise ofpresent-day mammals". Nature 446 :507-512 ;Li, C. H. ,G. 0rti,G. Zhang,and G. Q. Lu. 2007.,,Apractical approach to phylogenomics :The phylogeny of ray-finned fish (Actinopterygii) as a casestudy" . BMC Evol.Biol.7 44 ;MICHAEL J.SANDERSON, 1 DARREN B0SS,et al.2008."ThePhyLoTA Browser processing GenBank for Molecular Phylogenetics Research", Syst.Biol. 57(3) :335-346.)。分子生物学的早期研究积累了大量的基因序列数据。以国际核算序列数据库 (International Nucleotide Sequence Database Collaboration, INSDC) t一的 GenBank 为例(Michael Y. Galperin.2011. "The Molecular Biology Database Collection 201 lupdaeNuc 1. Acids Res. 35 :D3_D4),截至 2010 年 9 月统计的数字,传统的GenBank版本中在720,000, 000条序列纪录中有75,000, 000, 000碱基对数据;在WGS版本中有92,369,977,826碱基对的海量数据。与生物分子系统发育学相关的最重要的注释是类群的名称和基因或序列区域的名称的注释,但在其发布的数据中呈现明显的问题,同时,其中还存在注释错误或模糊、一条数据重复提交的问题(Vilgalys,R. 2003. “Taxonomic misidentification in public DNA databases". New Phytol. 160 :4_5 ;McMahon,Μ. Μ. ,and Μ. J. Sanderson. 2006,Phylog enetic supermatrixanalysis of GenBank sequences from 2228papilionoid legumes". Syst. Biol. 55 :818-836.)。即使从INSDC拿到的序列,不存在注释错误的问题,但是其测序的质量却不一定符合相关系统发育学研究的需要。如在BARCODE Data Standards v. 2. 3 (26March 2009) 中就建议做为潜在物种条形码的序列是在测序中双向覆盖无N碱基且序列谱图文件的 PHRED scores 不能低于 40%。所以,需要提供一种方法对现有基因序列数据进行筛选,摈弃注释错误或模糊、测序精度参差的不符合后续挖掘要求的数据。随后,当在已测公开数据中没有找到符合条件的基因序列数据时进行补充测序。
技术实现思路
从上面的分析可以看出,由于历史数据积累的原因,基因序列数据存在注释错误或模糊、测序精度参差不齐等质量问题,继而导致无法正确构建系统发育树的问题。本专利技术的目的在于提供一种基于注释信息和同源性比对以及特定筛选序列片段相结合的基因序列数据筛选方法。另外,由于基因序列数据筛选计算属于数据密集型计算,筛选效率问题也是一个需要重点考虑的对象。因此,本专利技术的基因序列数据筛选方法首先要解决基因序列数据的质量问题,进一步要提高目标基因序列数据集的筛选效率。本专利技术的基因序列数据筛选方法也可以作为自测数据的质量控制筛选方法。本专利技术的基因序列数据筛选方法,其步骤包括1)基于基因注释信息的初始数据检索得到数据集,并将其调整为.fasta的格式;2)针对数据集中的每条序列进行N/R/K/M/S/Y/W/H/D/V/B含量的计算;3)对数据集中的每条序列进行终止密码子(TAG、TAA、TGA)或其它自定义序列串的检测;4)将数据集中的每条序列翻译为蛋白序列,将它们与基因对应的模板蛋白序列进行相似性比对计算;5)根据预设条件,综合步骤2)、3)和4)的结果对每条序列进行评判,决定是否选取。上述步骤中,步骤2)、3)、4)的执行顺序可以互换或并列进行。在步骤2),本专利技术通过对目标基因序列中N/R/K/M/S/Y/W/H/D/V/B含量的计算, 保证筛选者选取合适测序质量的序列。本专利技术按照下面公式计算N/R/K/M/S/Y/W/H/D/V/B中任一种字符的含量γ π …NiPi =-Nall其中每种字符(N/R/K/M/S/Y/W/H/D/V/B)的含量为Pi,每条序列的字符总数为 Nall,字符 i 的个数为 Ni(i = N,R,K,Μ, S,Y,W, H,D,V 或 B)。字符 N,R,K,Μ, S,Y,W, H, D,V,B代表序列表中不确定的核苷酸残基,其具体含义参见表1。在步骤3),本专利技术通过终止密码子(TAG、TAA、TGA)的检测以排除目标基因序列是假基因序列的可能;通过自定义序列串的检测以排除在各自研究领域内常见的污染序列串或是引物去除不净的序列等不希望出现的序列串。本专利技术优选采用正反共6个阅读框(正向3个、反向3个)的方式检测基因序列中是否含有以上终止密码子和自定义序列串。本专利技术在步骤4)将待筛选序列与对应的模板蛋白序列进行相似性比对计算,得到一致性值(identity)和期望值(evalue,即Expectation value)本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:黎建辉孟珍周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术