当前位置: 首页 > 专利查询>王颖专利>正文

一种针对目标生物的目标基因建立系统进化树的方法技术方案

技术编号:4122411 阅读:408 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种针对目标生物的目标基因建立系统进化树的方法,所述方法包括如下步骤:1)数据的获取;2)序列的比对和分析;和3)系统进化树的构建;其中,在所述第1)步骤中,下载所述目标基因的蛋白的结构域,通过基因组或蛋白组已经测序完成的生物蛋白数据库搜索获取含有所述结构域的序列,并使用基因组或蛋白组已经测序完成的生物的目标基因搜索近缘植物的蛋白序列。由于本发明专利技术方法包括上述步骤,尤其是从物种亲缘关系和基因组或蛋白组完成测序的数据库两方面予以结合,因此可以建立更加准确的系统进化树。

【技术实现步骤摘要】

本专利技术涉及遗传信息分析方法,特别是涉及系统进化树的建立方法。
技术介绍
在对生物进化和系统分类进行研究时,常用一种树状分枝的图型来表示各种生物 之间的 亲缘关系,这种树状分枝的图型被称为系统进化树(phylogenetic tree,也叫系统 发育树),简称系统树。通过比较生物大分子序列差异的数值来构建的系统树称为分子系统 树。系统进化树分枝的末端和分枝的连结点称为结,表示生物类群,分枝末端的结代表仍生 存的种类。系统进化树可以有时间比例,或者用结之间的分枝长度变化来表现序列的差异 值。系统进化树有无根树和有根树(rooted tree)两种形式之分。前者只表示生物类群之 间的系统进化关系,不反映进化途径;而后者不仅表示出生物之间的亲疏,而且反映出它们 有共同的起源及进化方向。构建有根的系统进化树是相当困难的,例如,连结4种生物的无 根树只有3种可能,而有根树则存在15种可能。构建分子系统(进化)树,是在进行序列测定获得原始序列资料后,由计算机排 序,使各分子的序列同源位点对应,并计算出相似性或进化距离。接着,使用计算机软件根 据各分子序列的相似性或进化距离构建系统进化树。计算机分析系统采用进化相关性构建 系统树时,可以有诸多方法,其中常用有最节省分析法或称简约法。这种方法推断谱系的原 理是在所有可能的谱系关系中,涉及进化改变的序列特征数最少的谱系是最可信的。因 此,在比较过程中要找到比较决定性的分子序列。这种分析方法是基于“进化变化的发生是 沿着最短的途径、发生最少的、变化从祖先进化成今天所比较的生物种类”这一假设。伍斯(1981年)等提出了一个函盖整个生命界的有根系统进化树,而后又进行了 多次修改和补充,该系统进化树勾画了生物进化的大致轮廓。根部的结代表地球上最先出 现的生物,为现有生物的共同祖先。从该系统进化树所反映的进化关系可以看出,真核生物 离共同祖先最远,它们是进化程度最高的生物种类。在目前的分子生物领域的研究中,随着不同物种遗传信息尤其是基因组和蛋白组 测序的快速发展,产生了大量的DNA和蛋白序列信息,因此非常需要一种简便而快速的分 析方法来对这些数据进行有效的分析,以提取其中包含的大量信息,用于对目标生物的目 标基因进行研究。其中,建立系统进化树是众多方法中最为常见的分析方法之一。目前,关于系统进化树的研究主要集中在软件的开发及其与数据库的接合,现有 的系统进化树建立方法多基于软件功能的强化和多阈值优化组合设定,而缺少从生物亲缘 关系和数据库优化利用的角度来改进系统进化树的建立方法。
技术实现思路
为了解决上述问题,本专利技术人提出了一种改进的针对目标生物的目标基因建立系 统进化树的方法,所述方法包括如下步骤1)数据的获取;2)序列的比对和分析;和3)系统进化树的构建; 其中,在所述第1)步骤中,下载所述目标蛋白的结构域,通过基因组或蛋白组已 经测序完成的生物蛋白数据库搜索获取含有所述结构域的序列,并使用基因组或蛋白组已 经测序完成的生物的目标基因搜索近缘植物的蛋白序列。在一个优选的方案中,所述目标生物为植物。在一个优选的方案中,所述植物为开花植物。在一个优选的方案中,所述开花植物为青花菜(Brassica oleraceaL. var. italica P.),并且所述近缘植物为拟南芥、大白菜和/或油菜。优选的是,在第1)步骤中,所述结构域从Pfam网站上下载。优选的是,在第1)步骤中,所述生物蛋白数据库为NCBI蛋白数据库和/或开花 植物 EST 库(The Floral Genome Project,http://fgp. bio. psu. edu/),选择阈值为阈值 Ele^50优选的是,所述第2)步骤采用Clustal XI. 83软件以默认参数进行。优选的是,在所述第2)步骤中,还包括手工校对修正所述结构域两侧的比对结果 和去除缺口(gap)序列,更优选包括统计保守位点和变异区。更优选的是,所述第3)步骤采用MEGA4. 0软件的邻接法(neighbor-joining tree)构建。由于本专利技术方法包括上述第1)至3)步骤,而且从物种亲缘关系和基因组或蛋白 组完成测序的数据库两方面予以结合考虑,因此可以建立更加准确的系统进化树,从而可 以为今后基因功能的验证提供更具有价值的参考。附图说明图1植物CesA基因编码氨基酸序列保守区QVLRW的多重比对结果,箭头所示为保 守区QVLRW ;禾口图2植物CesA基因编码氨基酸序列锌指结构域的多重比对结果,箭头所示为锌指 结构域。图3纤维素合成酶基因蛋白序列的系统发生关系树。具体实施例方式实施例本研究以青花菜纤维素合成酶(CesA)基因作为目标基因举例说明本专利技术的方 法。1、数据的获取从Pfam网站上下载纤维素合成酶结构域(PF03552)的Is模型,通过HMMER2. 3. 2 的hmmsearch功能(默认参数)搜索下载到本地的拟南芥(Arabidopsis thaliana」 http//www, arabidopsis. org/)、/K 禾苗(Oryza sativa :http://rice, plantbiology. msu. edu/)、毛果杨(Populus trichocarpa :http//genome, jgi-psf. org/Poptrl 1/ Poptrl 1. home, html)、葡萄(Vitisvinifera :http://www, genoscope. ens, fr/externe/GenomeBrowser/Vitis/)蛋白质数据库中含有该结构域的蛋白序列,凡是阈值E < 0. 001的 序列都认为是该超基因家族的成员在NCBI 网站和开花植物 EST 库(The Floral Genome Project, http //fgp. bio. psu. edu/)使用拟南芥的 AtCesAl、AtCesA3、AtCesA6、AtCesA8 基因和水稻的 0sCesA7、 0sCesA9, 0sCesA3基因的蛋白序列通过PSI-BLAST搜索大白菜、油菜、棉花、玉米、小麦、马 铃薯CesA基因的蛋白序列,凡是阈值E ( Ie-5的序列都认为是CesA蛋白序列。2、序列比对与分析在得到的10个物种的纤维素合成酶超基因家族的氨基酸序列后,首先利用 Clustal XI. 83软件对该蛋白家族的氨基酸序列进行多序列比对,参数为默认参数。然后在 此基础上进行手工校对修正结构域两侧的比对结果,根据Pfam提供的结构域模型去除结 构域两端的非同源序列,保留包含结构域的蛋白序列,最后去除所有gap并用MUSCLE3.6软 件(默认参数)对其重新进行序列比对。依据比对结果分析纤维素合成酶结构域的分布特 点与排列方式,统计蛋白序列中的保守位点、变异区等参数。3、构建系统进化树采用MEGA4. 0软件的邻接法(neighbor-joining tree)构建邻接树模式Amino p-distance,状态 Pairwise Deletion,Bootstrap 检验使用 1000 次重复。4、结果与分析4. 1被子植物CesA基因的鉴定在拟南芥、水稻、杨树、葡萄基因组中分别筛选到2本文档来自技高网
...

【技术保护点】
一种针对目标生物的目标基因建立系统进化树的方法,所述方法包括如下步骤:  1)数据的获取;  2)序列的比对和分析;和  3)系统进化树的构建;  其中,在第1)步骤中,下载所述目标基因的蛋白的结构域,通过基因组或蛋白组已经测序完成的生物蛋白数据库搜索获取含有所述结构域的序列,并使用基因组或蛋白组已经测序完成的生物的相应目标基因搜索近缘植物的蛋白序列。

【技术特征摘要】

【专利技术属性】
技术研发人员:王颖
申请(专利权)人:王颖
类型:发明
国别省市:33[中国|浙江]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1