当前位置: 首页 > 专利查询>浙江大学专利>正文

水稻全基因组假基因数据库构建方法技术

技术编号:1719069 阅读:350 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基因序列数据处理方法,特别涉及水稻全基因组假基因数据库构建方法。包括将计算机系统中构建已知水稻全基因组序列的本地数据库;利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;去除冗余的假基因和基因数据;对假基因的筛选和分类;和以假基因对应的特征值作为数据项标识建立假基因的数据库。利用本发明专利技术提供的方法,可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析,为研究和探索作物遗传、变异、进化提供分子证据。

【技术实现步骤摘要】

本专利技术涉及一种基因序列数据处理方法,更具体地说,本专利技术涉及一种。
技术介绍
假基因是基因组中丧失功能的DNA序列,换言之,是功能基因不具备编码能力的多拷贝,或是与功能基因相似的序列。假基因很好保留了数百万年前基因组中祖先基因的分子记录,被视为”基因化石”,因而,假基因在进化和比较基因组学中是重要的资源。应用假基因和基因比较体系,可以为研究物种亲缘关系和进化距离,分析假基因自身的进化趋势,探讨DNA突变的成因等提供新的洞察。国外美国耶鲁大学的Gerstein实验室在其网站上(http//www.pseudogene.org)对人、大鼠、酵母、美丽线虫和果蝇等5种模式生物提供了假基因的相关论文,但没有公布其相关研究的分析方法。水稻是重要的粮食作物,2002年已完成全基因组序列框架图测序,这在作物中尚属首次。目前国内外尚未完成水稻基因组的假基因分析和公布水稻全基因组的假基因数据。我们利用生物信息学方法,首创自编计算机程序,首次获得水稻全基因组假基因数据,率先完成水稻全基因组假基因数据库的构建。
技术实现思路
针对迄今国内外尚未获得水稻全基因组的假基因数据现状,本专利技术首次提出从水稻全基因组分离,筛选,识别假基因数据的关键技术,主要目的是提供一种。本专利技术提供的,包括以下步骤(1)在计算机系统中构建已知水稻全基因组序列的本地数据库; (2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;(3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;(4)去除冗余的假基因和基因数据;(5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类,其鉴别标准如下①与编码已知蛋白质的序列相似度BLAST E值<1e-10,氨基酸相似程度大于40%);②与已知功能基因进行比对,不含超过60bp的空洞;③与相似基因比较,覆盖了其70%的编码序列区域;④含有多腺嘌呤尾部序列(多含有AATAAA信号);⑤提前出现终止密码子或具有移码突变;符合⑤则可视此片断为真正的假基因,其余则为候选假基因;符合①②③④视为加工假基因,其余则为非加工假基因;符合①②③④⑤视为新出现的加工假基因。(6)以假基因对应的特征值作为数据项标识建立假基因的数据库。本专利技术在构建已知水稻全基因组序列的本地数据库后,使用RepeatMasker程序屏蔽简单重复序列和rRNA重复序列,以避免这些数据的干扰。本专利技术在运行本地BLAST搜索时,包括对生成的数据库进行tBLASTn六框翻译;将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比以提高比对速度。本专利技术所述假基因和基因特征值数据包括染色体、对应蛋白质、E值、长度、起始位置或终止位置。与现有技术相比,本专利技术的有益效果是利用本专利技术提供的方法,可以对水稻乃至其他植物的假基因进行全基因组范围的搜索和分析,为研究和探索作物遗传、变异、进化提供分子证据。具体实施例方式以下通过实例进一步对本专利技术进行描述。(1)在计算机系统中构建已知水稻全基因组序列的本地数据库本实施例中假基因的数据主要是在水稻全基因组序列中利用同源性比对(BLAST等程序)对可能编码已知蛋白的DNA序列进行搜索和收集。其中籼稻和粳稻数据来自中国科学院北京基因组研究所完成测序的籼、粳稻全基因组序列,所有蛋白质数据来自国际水稻基因组计划(IRGSP)的官方FTP(cdna01.dna.affrc.go.jp)。其中籼稻和粳稻的基因组序列数据库(GenomeSequence.fasta)格式为>Chr01GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCGGCCCAAGAAGGGAAGGGGGTGGAAAGAA……>Chr12GCGCGGGGAAGGGCCGATGGGCCGCGGGGGAGAGGAGAGAGAGGGAGGGGACTGGGCCGAGCCGGCCCAAGAAGGGAAGGGGGTGGAAAGAA……其蛋白质序列数据库(Protein.fasta)格式为>OsJRFA058203 AK05820386MQLLLLTCLLQLIMVTNKAIASQISQIKHFFHCILVVVCPNSSMYLIMSGSPGTELELIPLPLPRSLTRCARSFGCGERYQLTQRR……首先构建本地的序列数据库formatdb-i GenomeSequence.fasta-p F-o T-n GenomeSeq其中-i参数输入的全基因组核苷酸序列的数据,生成的数据库为GenomeSeq屏蔽重复序列水稻基因组中有大量重复序列(约含50%),在假基因搜集前,必须屏蔽这些重复数据以避免其干扰,为此,我们调用RepeatMasker程序(可以免费下载,网址http//www.repeatmasker.org/)对提交的序列中所包含的简单重复序列和rRNA重复序列,加以“屏蔽”。本地执行RepeatMasker命令如下RepeatMasker-nolow-norna-species rice japonic.faRepeatMasker-nolow-norna-species rice indica.fa参数-nolow不屏蔽重复序列参数-norna不屏蔽rRNA重复序列参数-species针对水稻(rice)物种的特异性进行屏蔽(2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果BLAST(Basic Local Alignment Search Tool的缩写,基本局部相似性比对搜索工具)是目前常用的数据库搜索程序。本实验采用大内存服务器进行本地BLAST搜索,包括对生成的数据库GenomeSeq进行tBLASTn六框翻译blastall-p tblastn-d GenomeSeq-i Protein.fasta-e 10-F T-g T-M BLOSUM62-o Pseudogene.blst其中-p选择类型为tblastn,核苷酸序列数据库为GenomeSeq,而用来对比的蛋白质序列为Protein.fasta,采取默认的E值e-10,用BLOSUM62作为比对矩阵,最后输出的文件为Pseudogene.blst。为了提高速度,可以将序列切断成互相重叠的几部分,用相同的蛋白质氨基酸序列进行tBLASTn对比,这样能够充分利用系统的资源,缩短程序运行的时间。最后得到的tBLASTn结果是标准的BLAST格式的文本文件,示例如下Query=OsJRFA058204AK058204242 (242 letters)Databasechr0107.fasta6 sequences;213,379,654 total lettersSearching.done ScoreESequences producing significant alignments(bits)ValueChr03 2003-10-07 BGI 159 8e-39Chr05 20本文档来自技高网...

【技术保护点】
一种水稻全基因组假基因数据库构建方法,其特征在于,包括以下步骤:    (1)在计算机系统中构建已知水稻全基因组序列的本地数据库;    (2)利用BLAST程序对前述数据库进行搜索比对,获取标准BLAST格式的比对结果;    (3)使用Bioperl中的SeqIO模块分析比对结果,获取记录假基因和基因特征值数据的信息文件;    (4)去除冗余的假基因和基因数据;    (5)将相邻匹配的核苷酸序列连接,再用FASTA程序的Smith-Waterman算法进行最优化匹配,完成对假基因的筛选和分类,其鉴别标准如下:    ①与编码已知蛋白质的序列相似度:BLAST  E值<1e-10,氨基酸相似程度大于40%);    ②与已知功能基因进行比对,不含超过60bp的空洞;    ③与相似基因比较,覆盖了其70%的编码序列区域;    ④含有多腺嘌呤尾部序列(多含有AATAAA信号);    ⑤提前出现终止密码子或具有移码突变;    符合⑤则可视此片断为真正的假基因,其余则为候选假基因;    符合①②③④视为加工假基因,其余则为非加工假基因;    符合①②③④⑤视为新出现的加工假基因;    (6)以假基因对应的特征值作为数据项标识建立假基因的数据库。...

【技术特征摘要】

【专利技术属性】
技术研发人员:薛庆中黄志华张忠华
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利