一种系统进化树的重建方法技术方案

技术编号:8682998 阅读:214 留言:0更新日期:2013-05-09 02:55
本发明专利技术属于应用生物信息学技术领域,涉及一种系统进化树的重建方法。该方法首先选定特定的序列标记片段进行检索并筛选相关的序列数据并组织成.fasta格式文件作为基础数据集;随后对基础数据集进行基础系统发育树的构建并生成.XML系统发育树文件,同时构建基础BLAST库;然后综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件,然后可视化和标注自测序列数据代表的样本物种在整棵大树中的位置等信息。该方法是一种基于初始大树构建和同源相似性比对的快速算法相结合的方法,可以用于生物系统发育、生物条形码、生物物种鉴定等相关领域的大系统发育树重建和web应用。

【技术实现步骤摘要】

本专利技术属于应用生物信息学
,具体涉及,主要应用于生物系统发育、生物条形码、生物物种鉴定等相关领域的针对大数据的系统发育树重建并可视化。
技术介绍
系统发育树也称系统进化树(phylogenetic tree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列、蛋白质序列、蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列P性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等。基于分子的进化研究已经应用到许多方面,如基因进化、物群划分、交配系统、物种鉴定、父亲身份测 试,环境监视以及已经转移物种的疾病源的研究等(FrancescaD.Ciccarellij et al.,Toward Automatic Reconstruction of a Highly Resolved Treeof Life, SCIENCE,vol.311,p.1283,2006.;1.Wapinskij et al.,Automatic genome-widereconstruction of phylogenetic gene trees, ^Bioinformaticsj vol.23,pp.1549-1558,2007.;Zhen Mengjet al.,^Construction of the Platform forPhylogenetic Analysis, ^Data Driven e-Science,pp.507-514,2011.)。以生物材料样本快速鉴定为目的的DNA条形码技术(Schindel,D.andS.E.Miller, DNA barcoding a useful tool for taxonomists.Nature, 2005.)的发展业已积累了丰富的数据,如按照 BOLD system (Schindel, D.and S.E.Miller, DNA barcodinga useful tool for taxonomists.Nature,2005.) 2012 年 11 月份的数据,以动物为例,如选用COI片段,其样本测序序列的量为247,479,是其在传统的描述的动物物种120,612的2倍多,差不多每个动物物种有2条甚至更多的序列信息;其从国际核算序列数据库联盟(International Nucleotide Sequence Database Collaboration, INSDC)成员之一的 GenBank (Michael Y.Galperin.The Molecular Biology DatabaseCollection: 201lupdate [J].Nuc1.Acids Res.2011,35:D3_D4)提取检索的初始相关序列也达625,341之多,并且每天也有将近200条的释放量。数据的积累为包含所有生物物种的系统进化树的构建做好了数据上的准备,也为怎样快速确定样本序列在系统发育树上的位置提出了需求。然而,现在的系统进化树的重建方法往往受到数据数量的限制,在兆的数量级上进行计算时,甚至有些方法根本不能完成,即使有些方法用上并行的方法、在集群式计算机上进行计算也需要几天甚至上月的时间才能完成(S.Guindon,et al.,〃New Algorithms and Methodsto Estimate Maximum-Likelihood Phylogenies:Assessing the Performance ofPhyML3.0,Systematic Biology, vol.59,pp.307-321,2010.;A.StamatakisjRAxML-V1-HPC:maximum likelihood-based phylogenetic analyses with thousandsof taxa and mixed models, ^Bioinformatics,vol.22,pp.2688-2690,2006.;Μ.N.Price, et al.,〃FastTree2〃Capproximately maximum-1ikelihood trees for largealignments, ^PLoS One, vol.5, p.e9490, 2010.)。这与系统发育树的快速重建及可视化的需求相去甚远,远不能满足在web交互的可忍受时间范围内去快速确定自测的样本序列在以目标mark (Barcode)为度量标准的大树上的位置并可视化。所以就需要提供一种针对大数据(兆以上的)的系统发育树重建方法,在web交互环境下,满足物种快速鉴定、系统发育树的自动增长等的需要。
技术实现思路
从上面的分析可以看出,随着数据量的积累,特别是DNA条形码技术的发展,数据量的不断攀升,以兆级以上单位序列进行系统发育树重建的要求越来越普遍,并且基于Web交互的要求去快速重建系统发育树以确定自测的样本序列在以目标mark (Barcode)为度量标准的大树上的位置并可视化的需求也越来越突出。本专利技术提供一种基于初始大树构建和同源相似性比对的算法相结合的快速系统进化树重建方法。本专利技术的系统进化树的重建方法,其步骤包括:A、基础数据集组织:选定特定的序列标记片段(Mark)进行检索并筛选相关的序列数据并组织成.fasta格式文件,接下来执行步骤B、C ;B、基础系统发育树构建:对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件,接下来执行步骤D ;C、基础 BLAST (Basic Local Alignment Search Tool)库构建:对步骤 A 所述.fasta文件进行格式化并构建BLAST库,接下来执行步骤D ; D、系统发育树重 建:对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件,接下来执行步骤E ;E、系统发育树的可视化:对步骤D重构的系统发育树进行可视化。上述步骤A中基础数据集的组织是针对特定序列片段标记(Mark)的数据组织;其Mark可以是核酸序列片段,也可以是蛋白序列片段;在D中新输入的序列片段也是相对应的同种标记的序列。上述步骤B中基础系统发育树的构建方法为:(I)对步骤A所述的.fasta文件进行多重序列比对(Multiple sequence alignment)并生成.aln文件;(2)对所述的.aln文件进行系统发育树的构建(Phylogenetic tree construction)并生成.tree文件;(3)对所述的.tree文件进行格式转换(Format conversion)并生成XML格式文件。在第(2)步系统发育树的构建之前,如选用的步骤A所述生成的.fasta数据集中的序列长度差异较大,需要进行比对后文件的修剪(trim)。上述步骤C中基础BLAST库的构建是针对A所述的.fasta文件进行格式化并生成BLAST算法的库文件。上述步骤D中系统发育树的重建方法为:⑴由自测本文档来自技高网
...

【技术保护点】
一种系统进化树的重建方法,其步骤包括:A、选定特定的序列标记片段进行检索,并筛选相关的序列数据组织成.fasta格式文件;B、对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件;C、对步骤A所述.fasta文件进行格式化并构建BLAST库;D、根据所述.XML系统发育树文件和所述BLAST库,对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件;E、对重建的系统发育树进行可视化。

【技术特征摘要】
1.一种系统进化树的重建方法,其步骤包括: A、选定特定的序列标记片段进行检索,并筛选相关的序列数据组织成.fasta格式文件; B、对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件; C、对步骤A所述.fasta文件进行格式化并构建BLAST库; D、根据所述.XML系统发育树文件和所述BLAST库,对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件; E、对重建的系统发育树进行可视化。2.按权利要求1所述的方法,其特征在于:所述序列标记片段是核酸序列片段或者蛋白序列片段。3.按权利要求1所述的方法,其特征在于,步骤B所述基础系统发育树的构建方法为: (1)对步骤A所述.fasta文件进行多重序列比对并生成.aln文件; (2)对所述.aln文件进行系统发育树的构建并生成.tree文件; (3)对所述.tree文件进行格式转换并生成XML格式文件。4.按权利要求3所述的方法,其特征在于:对于序列长度差异较大的.fasta数据集,在所述多重序列比对后进行文件的修剪。5.按权利要求...

【专利技术属性】
技术研发人员:黎建辉孟珍周园春邵靖曹巍
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1