一种快速分析真核生物蛋白质基因组学数据的方法技术

技术编号：19635388 阅读：28 留言：0更新日期：2018-12-01 16:04

本发明专利技术提供一种快速分析真核生物蛋白质基因组学数据的方法，属于蛋白质基因组数据分析方法技术领域。本发明专利技术提供的快速分析真核生物蛋白质基因组学数据的方法，采用原核生物多组数据整理方法和筛选方法得到II类可信肽段，再针对预测新基因、可变剪切体、点突变基因并校正已注释基因的结构的目的设计三种不同的回帖基因组的方法。本发明专利技术提供的方法适用于任何一个已经完成测序的真核生物，同时可变剪切体与点突变基因预测的方法，提高鉴定的覆盖度；采用不同的较为严格的假阳性控制策略，提高鉴定的可信度；从原始质谱数据到最后新基因、可变剪切体以及点突变基因的预测和校正已注释基因结构系列分析，真正实现真核生物质谱数据的快速鉴定分析。

A Method for Rapid Analysis of Eukaryotic Proteomic Data

The invention provides a method for rapid analysis of eukaryotic protein genomics data, belonging to the technical field of protein genomics data analysis method. The method for fast analysis of eukaryotic protein genomics data provided by the invention obtains class II credible peptide segments by prokaryotic multi-group data collation method and screening method, and then designs three different reply genes for the purpose of predicting new genes, variable splicers, point mutation genes and correcting the structure of annotated genes. Group method. The method provided by the invention is applicable to any eukaryotic organism that has completed sequencing, and the method of predicting variable splicing bodies and point mutation genes can improve the coverage of identification, adopt different strict false positive control strategies to improve the reliability of identification, from original mass spectrometry data to final new genes and variable splicing. Prediction and correction of annotated gene structure series analysis by cut-in and point mutation genes can truly achieve rapid identification and analysis of mass spectrometry data of eukaryotic organisms.

全部详细技术资料下载

【技术实现步骤摘要】
一种快速分析真核生物蛋白质基因组学数据的方法
本专利技术属于蛋白质基因组数据分析方法，具体涉及一种快速分析真核生物蛋白质基因组学数据的方法。
技术介绍
随着人类基因组计划的完成，基因组测序技术也趋于成熟，越来越多的物种也相继完成了基因组测序。然而全基因组测序仅仅是解决问题的开始，从序列数据到生物本体，基因组的价值体现在其基因组的功能注释上。基因组的功能注释就是一个对基因组测序产生的原始DNA序列添加分析和阐释的过程，这种分析和阐释是理解其生物代谢过程和生物学意义所必需的。高质量的基因组注释是对基因组的序列组织特征，特别对基因和基因产物进行详细的识别和鉴定。而在人类基因组计划完成的10年后，两个独立的研究组成功绘制了人类蛋白质组草图，这项研究利用蛋白质组学数据对基因组进行重注释，验证84％的预测编码蛋白，并发现808个新的蛋白编码区域，蛋白质组学直接用于基因组的注释已经越来越受到相关领域的关注，为基因组注释工作提供了新的研究方向-蛋白质基因组学(Proteogenomics)。与其它基因组注释手段相比，基于质谱的蛋白质组注释，不仅结合了原始的DNA和RNA序列，使得信息更为完整；还直接在蛋白质水平对基因编码的蛋白质产物进行分析鉴定；而一些在蛋白质组学层面特有的现象比如翻译后修饰、信号肽，对蛋白质功能研究非常重要，也是其他传统注释手段不可替代的。另外，基于蛋白质基因组学的策略可以被用在通过分析蛋白质水平来鉴定一些基于个体的序列变异导致的癌症，并确定其中最相关的变异上。虽然目前蛋白质基因组学的研究发展较快，从2004年至今，蛋白质基因组学已经支持了几种重要的模式...

【技术保护点】
1.一种快速分析真核生物蛋白质基因组学数据的方法，包括以下步骤：1)将组装后的转录组数据、EST序列和非编码RNA序列合并后进行三阅读框翻译，对基因组序列进行六阅读框翻译；根据三阅读框翻译结果和六阅读框翻译结果，构建蛋白序列数据库；对原始质谱数据进行格式转化得到转化后的质谱数据，对数据库检索参数定义；2)用四种不同算法的数据检索引擎对所述步骤1)中转化后的质谱数据进行数据库检索，得到检索结果；3)整合所述步骤2)得到的检索结果，将鉴定到的肽段通过氨基酸匹配回贴基因组，能够完全匹配到已注释编码基因结构区域的已知肽段定义为I类肽段，将不能匹配的新肽段定义为II类肽段；4)采用不同的假阳性概率计算方法，分别对所述步骤3)中的I类肽段和II类肽段计算，删除假阳性肽段，获得I类可信肽段和II类可信肽段；5)将所述步骤4)得到的II类可信肽段，利用氨基酸匹配的方法回帖至基因组，用于预测可变剪切体，预测点突变基因和预测新基因并校正已注释基因的结构；所述预测可变剪切体的回帖方法，包括以下步骤：①从II类可信肽段的第二个氨基酸开始，将肽段分割为供体序列和受体序列，通过氨基酸序列匹配，分别将所述供体序列和...

【技术特征摘要】
1.一种快速分析真核生物蛋白质基因组学数据的方法，包括以下步骤：1)将组装后的转录组数据、EST序列和非编码RNA序列合并后进行三阅读框翻译，对基因组序列进行六阅读框翻译；根据三阅读框翻译结果和六阅读框翻译结果，构建蛋白序列数据库；对原始质谱数据进行格式转化得到转化后的质谱数据，对数据库检索参数定义；2)用四种不同算法的数据检索引擎对所述步骤1)中转化后的质谱数据进行数据库检索，得到检索结果；3)整合所述步骤2)得到的检索结果，将鉴定到的肽段通过氨基酸匹配回贴基因组，能够完全匹配到已注释编码基因结构区域的已知肽段定义为I类肽段，将不能匹配的新肽段定义为II类肽段；4)采用不同的假阳性概率计算方法，分别对所述步骤3)中的I类肽段和II类肽段计算，删除假阳性肽段，获得I类可信肽段和II类可信肽段；5)将所述步骤4)得到的II类可信肽段，利用氨基酸匹配的方法回帖至基因组，用于预测可变剪切体，预测点突变基因和预测新基因并校正已注释基因的结构；所述预测可变剪切体的回帖方法，包括以下步骤：①从II类可信肽段的第二个氨基酸开始，将肽段分割为供体序列和受体序列，通过氨基酸序列匹配，分别将所述供体序列和受体序列比对到所述步骤1)中构建得到的蛋白序列数据库中，若所述供体序列和受体序列能够完全匹配且分别往两端延伸60个氨基酸，获取第一延长供体序列和第一延长受体序列；②将所述第一延长供体序列和第一延长受体序列比对到基因组中，再从II类可信肽段的第三个氨基酸开始分割，并获得第二延长供体序列和第二延长受体序列，再比对到基因组中，以此类推，直至分割至II类肽段的倒数第三个氨基酸为止，获得不同的延长供体序列和终延长受体序列；所述不同的延长供体序列和终延长受体序列能够完全比对到基因组中，再根据蛋白索引文件，查找II类可信肽段在基因组中的起始和终止位置信息，预测得到新可变剪切体；所述预测点突变基因的回帖方法，包括以下步骤：将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库，将所述II类可信肽段分别往两端各延伸60个氨基酸，并将延长后的新肽段比对到基因组中，仅允许新肽段中发生1个氨基酸的突变，所述突变的位点位于II类可信肽段第二个氨基酸和倒数第三个氨基酸之间的任意一个氨基酸，根据蛋白索引文件，查找所述发生突变的II类可信肽段在基因组中的起始与终...

【专利技术属性】
技术研发人员：葛峰，杨明坤，张珈，洪斌，
申请(专利权)人：中国科学院水生生物研究所，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人