一种快速分析真核生物蛋白质基因组学数据的方法技术

技术编号:19635388 阅读:28 留言:0更新日期:2018-12-01 16:04
本发明专利技术提供一种快速分析真核生物蛋白质基因组学数据的方法,属于蛋白质基因组数据分析方法技术领域。本发明专利技术提供的快速分析真核生物蛋白质基因组学数据的方法,采用原核生物多组数据整理方法和筛选方法得到II类可信肽段,再针对预测新基因、可变剪切体、点突变基因并校正已注释基因的结构的目的设计三种不同的回帖基因组的方法。本发明专利技术提供的方法适用于任何一个已经完成测序的真核生物,同时可变剪切体与点突变基因预测的方法,提高鉴定的覆盖度;采用不同的较为严格的假阳性控制策略,提高鉴定的可信度;从原始质谱数据到最后新基因、可变剪切体以及点突变基因的预测和校正已注释基因结构系列分析,真正实现真核生物质谱数据的快速鉴定分析。

A Method for Rapid Analysis of Eukaryotic Proteomic Data

The invention provides a method for rapid analysis of eukaryotic protein genomics data, belonging to the technical field of protein genomics data analysis method. The method for fast analysis of eukaryotic protein genomics data provided by the invention obtains class II credible peptide segments by prokaryotic multi-group data collation method and screening method, and then designs three different reply genes for the purpose of predicting new genes, variable splicers, point mutation genes and correcting the structure of annotated genes. Group method. The method provided by the invention is applicable to any eukaryotic organism that has completed sequencing, and the method of predicting variable splicing bodies and point mutation genes can improve the coverage of identification, adopt different strict false positive control strategies to improve the reliability of identification, from original mass spectrometry data to final new genes and variable splicing. Prediction and correction of annotated gene structure series analysis by cut-in and point mutation genes can truly achieve rapid identification and analysis of mass spectrometry data of eukaryotic organisms.

【技术实现步骤摘要】
一种快速分析真核生物蛋白质基因组学数据的方法
本专利技术属于蛋白质基因组数据分析方法,具体涉及一种快速分析真核生物蛋白质基因组学数据的方法。
技术介绍
随着人类基因组计划的完成,基因组测序技术也趋于成熟,越来越多的物种也相继完成了基因组测序。然而全基因组测序仅仅是解决问题的开始,从序列数据到生物本体,基因组的价值体现在其基因组的功能注释上。基因组的功能注释就是一个对基因组测序产生的原始DNA序列添加分析和阐释的过程,这种分析和阐释是理解其生物代谢过程和生物学意义所必需的。高质量的基因组注释是对基因组的序列组织特征,特别对基因和基因产物进行详细的识别和鉴定。而在人类基因组计划完成的10年后,两个独立的研究组成功绘制了人类蛋白质组草图,这项研究利用蛋白质组学数据对基因组进行重注释,验证84%的预测编码蛋白,并发现808个新的蛋白编码区域,蛋白质组学直接用于基因组的注释已经越来越受到相关领域的关注,为基因组注释工作提供了新的研究方向-蛋白质基因组学(Proteogenomics)。与其它基因组注释手段相比,基于质谱的蛋白质组注释,不仅结合了原始的DNA和RNA序列,使得信息更为完整;还直接在蛋白质水平对基因编码的蛋白质产物进行分析鉴定;而一些在蛋白质组学层面特有的现象比如翻译后修饰、信号肽,对蛋白质功能研究非常重要,也是其他传统注释手段不可替代的。另外,基于蛋白质基因组学的策略可以被用在通过分析蛋白质水平来鉴定一些基于个体的序列变异导致的癌症,并确定其中最相关的变异上。虽然目前蛋白质基因组学的研究发展较快,从2004年至今,蛋白质基因组学已经支持了几种重要的模式生物,以及大量的非模式生物,尤其是原核生物的基因组注释研究,但是也存在以下几个方面的问题:1)在数据库构建方面:相比于原核生物,真核生物基因组较大,直接使用其基因组构建数据库比较困难,以人类基因组为例,六阅读框翻译数据库大小约是传统蛋白质数据库的230倍左右;而转录组相比基因组,由于存在冗余,使其数据量则更大,使用从头组装的转录组建库,如何使用较好的存储结构来去除数据冗余性是非常值得研究的问题。2)数据质量控制问题,新肽段假阳率往往较高:目前绝大部分研究工作仅仅在谱图水平进行假阳性控制(FDR)从而直接获得鉴定蛋白质集合,且在假阳性控制方面仅采用全局FDR筛选,造成新肽段的实际假阳性率比较高。3)适用于真核生物的自动注释工具缺乏:目前的绝大多数蛋白质基因组学研究将重点放在新现象的解释上,并没有着眼于开发完整的流程支持更多研究的开展,尤其是真核生物,考虑到海量的质谱数据,使得数据的共享和传输非常不便,也极大地限制了蛋白质基因组学的推广。目前,仍然缺乏完整的适用于真核生物蛋白质基因组学数据的鉴定分析方法,尤其是真核生物基因组特有的可变剪切存在,使得其基因注释更加复杂;此外,点突变基因的存在也增加了注释的复杂性。针对真核生物蛋白质基因组数据分析的软件包括:PGTools,QUILTS,GALAXY-P,PPLine,PoGo等;然而,这些软件设定的方法局限性比较高,或仅适用于人蛋白质基因组数据分析;或完全依赖于转录组预测可变剪切位点和点突变,而非基于蛋白质组数据直接鉴定;或仅支持数据统计,缺乏前期的数据处理与鉴定;或用户具有较深的蛋白质组学研究方面的背景,应用范围也受到很大的限制,并未实现数据的自动快速分析。
技术实现思路
有鉴于此,本专利技术的目的在于克服了以往真核生物的海量质谱数据分析复杂繁琐的操作,提出了一套适用于真核生物的蛋白质基因组数据分析方法,使该方法能够用于预测新基因和校正已注释基因结构、预测新的可变剪切体和预测点突变基因。为了实现上述专利技术目的,本专利技术提供以下技术方案:本专利技术提供了一种快速分析真核生物蛋白质基因组学数据的方法,包括以下步骤:1)将组装后的转录组数据、EST序列和非编码RNA序列合并后进行三阅读框翻译,对基因组序列进行六阅读框翻译;根据三阅读框翻译结果和六阅读框翻译结果,整合构建蛋白序列数据库,对原始质谱数据进行格式转化得到转化后的质谱数据,对数据库检索参数定义;2)用四种不同算法的数据检索引擎对所述步骤1)中转化后的质谱数据进行数据库检索,得到检索结果;3)整合所述步骤2)得到的检索结果,将鉴定到的肽段通过氨基酸匹配回贴基因组,能够完全匹配到已注释编码基因结构区域的已知肽段定义为I类肽段,将不能匹配的新肽段定义为II类肽段;4)采用不同的假阳性概率计算方法,分别对所述步骤3)中的I类肽段和II类肽段计算,删除假阳性肽段,获得I类可信肽段和II类可信肽段;5)将所述步骤4)得到的II类可信肽段,通过氨基酸匹配回帖至基因组,用于预测可变剪切体,预测点突变基因和预测新基因并校正已注释基因的结构;所述预测可变剪切体的回帖方法,包括以下步骤:①从II类可信肽段的第二个氨基酸开始,将肽段分割为供体序列和受体序列,通过氨基酸序列匹配,分别将所述供体序列和受体序列比对到所述步骤1)中构建得到的蛋白序列数据库中,若所述供体序列和受体序列能够完全匹配且分别往两端延伸60个氨基酸,获取第一延长供体序列和第一延长受体序列;②将所述第一延长供体序列和第一延长受体序列比对到基因组中,再从II类可信肽段的第三个氨基酸开始分割,并获得第二延长供体序列和第二延长受体序列,再比对到基因组中,以此类推,直至分割至II类肽段的倒数第三个氨基酸为止,获得不同的延长供体序列和终延长受体序列;所述不同的延长供体序列和终延长受体序列能够完全比对到基因组中,再根据蛋白索引文件,查找II类可信肽段在基因组中的起始和终止位置信息,预测得到新可变剪切体;所述预测点突变基因的回帖方法,包括以下步骤:将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库,将所述II类可信肽段分别往两端各延伸60个氨基酸,并将延长后的新肽段比对到基因组中,仅允许新肽段中发生1个氨基酸的突变,所述突变的位点位于II类可信肽段第二个氨基酸和倒数第三个氨基酸之间,根据蛋白索引文件,查找所述发生突变的II类可信肽段在基因组中的起始与终止位置信息,预测得到点突变基因;所述预测新基因并校正已注释基因的结构的回帖方法,包括以下步骤:通过氨基酸匹配,将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库中,获取所述II类可信肽段所对应的全蛋白序列信息,根据蛋白索引文件,查找全蛋白序列在基因组中的起始与终止位置信息,预测得到新蛋白编码基因和校正已注释基因结构。优选的,步骤5)中新蛋白编码基因的序列具有以下特征:新蛋白编码基因的序列长度大于150bp,蛋白匹配的unique肽段长度≥7个氨基酸,每个蛋白匹配的unique肽段数≥2,蛋白的起始密码子为常见的四种起始密码子或稀有密码子,所述常见的四种起始密码子为ATG、GTG、TTG或CTG,所述稀有密码子为ATA或ATT。优选的,步骤5)中已注释基因结构校正的序列具有以下特征:校正后的已注释基因结构的肽段和校正前的已注释基因结构的肽段有重叠;所述重叠的氨基酸数目>50。优选的,步骤5)中预测的可变剪切体和点突变基因独立具有以下特征:每个蛋白匹配的unique肽段数≥2,蛋白序列匹配的unique肽段的长度≥10个氨基酸。优选的,所述步骤1)中整合构建蛋白序列数据库的方本文档来自技高网
...

【技术保护点】
1.一种快速分析真核生物蛋白质基因组学数据的方法,包括以下步骤:1)将组装后的转录组数据、EST序列和非编码RNA序列合并后进行三阅读框翻译,对基因组序列进行六阅读框翻译;根据三阅读框翻译结果和六阅读框翻译结果,构建蛋白序列数据库;对原始质谱数据进行格式转化得到转化后的质谱数据,对数据库检索参数定义;2)用四种不同算法的数据检索引擎对所述步骤1)中转化后的质谱数据进行数据库检索,得到检索结果;3)整合所述步骤2)得到的检索结果,将鉴定到的肽段通过氨基酸匹配回贴基因组,能够完全匹配到已注释编码基因结构区域的已知肽段定义为I类肽段,将不能匹配的新肽段定义为II类肽段;4)采用不同的假阳性概率计算方法,分别对所述步骤3)中的I类肽段和II类肽段计算,删除假阳性肽段,获得I类可信肽段和II类可信肽段;5)将所述步骤4)得到的II类可信肽段,利用氨基酸匹配的方法回帖至基因组,用于预测可变剪切体,预测点突变基因和预测新基因并校正已注释基因的结构;所述预测可变剪切体的回帖方法,包括以下步骤:①从II类可信肽段的第二个氨基酸开始,将肽段分割为供体序列和受体序列,通过氨基酸序列匹配,分别将所述供体序列和受体序列比对到所述步骤1)中构建得到的蛋白序列数据库中,若所述供体序列和受体序列能够完全匹配且分别往两端延伸60个氨基酸,获取第一延长供体序列和第一延长受体序列;②将所述第一延长供体序列和第一延长受体序列比对到基因组中,再从II类可信肽段的第三个氨基酸开始分割,并获得第二延长供体序列和第二延长受体序列,再比对到基因组中,以此类推,直至分割至II类肽段的倒数第三个氨基酸为止,获得不同的延长供体序列和终延长受体序列;所述不同的延长供体序列和终延长受体序列能够完全比对到基因组中,再根据蛋白索引文件,查找II类可信肽段在基因组中的起始和终止位置信息,预测得到新可变剪切体;所述预测点突变基因的回帖方法,包括以下步骤:将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库,将所述II类可信肽段分别往两端各延伸60个氨基酸,并将延长后的新肽段比对到基因组中,仅允许新肽段中发生1个氨基酸的突变,所述突变的位点位于II类可信肽段第二个氨基酸和倒数第三个氨基酸之间的任意一个氨基酸,根据蛋白索引文件,查找所述发生突变的II类可信肽段在基因组中的起始与终止位置信息,预测得到点突变基因;所述预测新基因并校正已注释基因结构的回帖方法,包括以下步骤:通过氨基酸匹配,将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库中,获取所述II类可信肽段所对应的全蛋白序列信息,根据蛋白索引文件,查找全蛋白序列在基因组中的起始与终止位置信息,预测得到新蛋白编码基因和校正已注释基因结构。...

【技术特征摘要】
1.一种快速分析真核生物蛋白质基因组学数据的方法,包括以下步骤:1)将组装后的转录组数据、EST序列和非编码RNA序列合并后进行三阅读框翻译,对基因组序列进行六阅读框翻译;根据三阅读框翻译结果和六阅读框翻译结果,构建蛋白序列数据库;对原始质谱数据进行格式转化得到转化后的质谱数据,对数据库检索参数定义;2)用四种不同算法的数据检索引擎对所述步骤1)中转化后的质谱数据进行数据库检索,得到检索结果;3)整合所述步骤2)得到的检索结果,将鉴定到的肽段通过氨基酸匹配回贴基因组,能够完全匹配到已注释编码基因结构区域的已知肽段定义为I类肽段,将不能匹配的新肽段定义为II类肽段;4)采用不同的假阳性概率计算方法,分别对所述步骤3)中的I类肽段和II类肽段计算,删除假阳性肽段,获得I类可信肽段和II类可信肽段;5)将所述步骤4)得到的II类可信肽段,利用氨基酸匹配的方法回帖至基因组,用于预测可变剪切体,预测点突变基因和预测新基因并校正已注释基因的结构;所述预测可变剪切体的回帖方法,包括以下步骤:①从II类可信肽段的第二个氨基酸开始,将肽段分割为供体序列和受体序列,通过氨基酸序列匹配,分别将所述供体序列和受体序列比对到所述步骤1)中构建得到的蛋白序列数据库中,若所述供体序列和受体序列能够完全匹配且分别往两端延伸60个氨基酸,获取第一延长供体序列和第一延长受体序列;②将所述第一延长供体序列和第一延长受体序列比对到基因组中,再从II类可信肽段的第三个氨基酸开始分割,并获得第二延长供体序列和第二延长受体序列,再比对到基因组中,以此类推,直至分割至II类肽段的倒数第三个氨基酸为止,获得不同的延长供体序列和终延长受体序列;所述不同的延长供体序列和终延长受体序列能够完全比对到基因组中,再根据蛋白索引文件,查找II类可信肽段在基因组中的起始和终止位置信息,预测得到新可变剪切体;所述预测点突变基因的回帖方法,包括以下步骤:将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库,将所述II类可信肽段分别往两端各延伸60个氨基酸,并将延长后的新肽段比对到基因组中,仅允许新肽段中发生1个氨基酸的突变,所述突变的位点位于II类可信肽段第二个氨基酸和倒数第三个氨基酸之间的任意一个氨基酸,根据蛋白索引文件,查找所述发生突变的II类可信肽段在基因组中的起始与终...

【专利技术属性】
技术研发人员:葛峰杨明坤张珈洪斌
申请(专利权)人:中国科学院水生生物研究所
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1