当前位置: 首页 > 专利查询>重庆大学专利>正文

一种蛋白激酶磷酸化特异位点计算识别方法技术

技术编号:4163328 阅读:354 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种蛋白激酶磷酸化特异位点计算识别方法,其特征是:a)基于主成分分析方法,建立一种新的蛋白质序列结构表征方法-氨基酸三维性质得分;b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征;c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的参数;d)以径向基核支持向量机建立蛋白激酶磷酸化特异位点识别模型,分别以自取代检验,留1/10法交互检验以及外部检验验证方法的预测能力。该发明专利技术方法可用于蛋白激酶磷酸化特异位点识别,可为探索生理和病理状态下蛋白质磷酸化规律,进一步阐述生命本质和疾病发生机制及研发新药提供重要支持。

A protein kinase phosphorylation specific site recognition method

The invention discloses a method for identifying protein kinase phosphorylation site-specific calculation, its features are: a) the principal component analysis method based on the establishment of a protein amino acid sequence structure characterization of new method of three-dimensional nature score; b) structural features of specific sites for characterization of protein amino acid score three-dimensional nature kinase C); selection of parameters related with protein kinase phosphorylation site-specific characteristics using the Fischer criterion score method; d) with radial basis kernel support vector machines to establish protein kinase phosphorylation site-specific recognition model, respectively to replace self inspection, leaving 1 / 10 predictive ability test and external inspection method interactive verification method. This method can be used for protein kinase phosphorylation site-specific recognition, for the law to explore the protein phosphorylation in physiological and pathological conditions, further provide important support mechanism and drug development occurred in the nature of life and disease.

【技术实现步骤摘要】

本专利技术涉及一种蛋白质修饰化位点识别方法,特别是。
技术介绍
蛋白质磷酸化和去磷酸化过程调节着细胞信号转导、细胞分化、细胞生长、细胞凋 亡等几乎所有生命活动。蛋白质磷酸化位点主要发生于酪氨酸(Y)、丝氨酸(S)与苏氨酸 (T)残基(Wu et al. , J Proteome Res, 2007, 6 (5) :1812)。蛋白质磷酸化的异常往往导致 细胞生命活动的异常,甚至产生细胞损伤或细胞癌变(Yang et al.,J Proteome Res,2006, 5(5) :252)。因此,探索生理和病理状态下蛋白质磷酸化规律对于阐述生命本质和疾病发生 机制及研发新药至关重要。 实验手段鉴定激酶特异性磷酸化位点是了解磷酸化机制以及药物设计的基础。目 前已发展多种实验鉴定蛋白质磷酸化位点方法,传统鉴定方法如P32标记法和埃德曼降解 法常用于磷酸化位点测定(Campbell et al. , J BiomolTech, 2002, 13 :119),但其费时、费 力、灵敏度低以及需要大量提纯蛋白质。基于质谱高通量磷酸化位点鉴定方法是最近涌现 出的检测蛋白磷酸化强有力手段(Philip et al. ,Cell Co匪n Adhes, 2006, 13 :249)。但 该类方法大多仍处于实验室研究阶段未得到广泛应用。随着高通量鉴定蛋白质磷酸化技 术发展,特别是质谱技术在蛋白组学上应用,磷酸化位点的数据不断积累,已有多种计算机 预测方法预测磷酸化位点,如遗传算法-神经网络(Tang et al. , Protein Engineering. Design&Selection, 2007, 20 (8) :405),支持向量机(Kim etal. ,Bioinformatics, 2004, 20 : 3179),隐Markov模型(Huang et al. ,Nucleic AcidsRes, 2005, 33 :W226)及贝叶斯决策理 论(Xue et al. , BMC Bioinformatics, 2006, 7 :163)等。但现有的磷酸化位点预测方法都 存在无法同时获得较高灵敏度和特异性的问题,并且预测正确率仍然不高(Tang et al., Protein Engineering. Design&Selection, 2007, 20 (8) :405),因此有必要开发具有高灵敏 度、特异度和预测正确率的蛋白激酶磷酸化特异位点识别方法。
技术实现思路
有鉴于此,为了解决上述问题,本专利技术提供了一种蛋白激酶磷酸化特异位点计算 识别方法,可用于蛋白激酶磷酸化特异位点识别。 本专利技术的目的是这样实现的,包括 如下步骤 a)具体包括al)精选20种天然氨基酸的629种三维性质参数;a2)对629种性质 参数做主成分分析,得到12个主成分;a3)计算各主成分得分,建立氨基酸三维性质得分; b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征,其中的每个 氨基酸用12个氨基酸三维性质得分表征; c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的性质参数,并作为模型的输入变量; d)应用径向基核支持向量机建立蛋白激酶磷酸化特异位点识别模型,以自取代检 验,留1/10法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模 型并识别蛋白激酶磷酸化特异位点。 本专利技术的,其中选取的氨基酸三维性质得分所含信息量大、表征能力强、拓展性能好及操作简便;费歇尔准则得分可以很好地挑选与蛋白激酶磷酸化特异位点特征密切相关的性质参数;径向基核支持向量机通过核函数技术,可以有效的防止模型的过拟合,并具有良好的泛化性能;同时,采用的自取代检验,留1/10法交互检验及外部检验验证方法可以较大程度地保证方法的预测能力。 本专利技术的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。具体实施例方式以下将对采用本专利技术的方法用于蛋白激酶磷酸化特异位点识别为例进行详细的 描述,包括以下步骤 a)精选20种天然氨基酸的629种三维性质参数,包括Randic分子剖面参数,几 何特征参数,基于不同原子间距的径向基函数描述子(RDF),基于电衍射法的分子结构表征 (MoRSE)得到的描述子,加权整体不变分子的(WHIM)描述子及几何、拓扑与原子重量的集 合(GETAWAY)参数。 采用主成分分析处理629种性质参数,得到12个主成分,其累计解释原始数据 矩阵(20X629)95. 82%的方差,各主成分得分见表1,因此,可用此12个主成分得分矩阵 (20X12)代替原始变量矩阵(20X629)。为方便,称此12个主成分得分为氨基酸三维性质 得分,因为此12个得分矢量综合了 629种三维性质参数的大部分信息,因此,可将其用于肽 或蛋白质结构表征。 表1 20种天然氨基酸的629种三维性质参数的12个主成分得分 <table>table see original document page 5</column></row><table> a20种天然氨基酸用常规的单个英文字母表示。 b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征,其中的每个 氨基酸用12个氨基酸三维性质得分表征; 所选数据来自Tang等(Tang et al. , Design&Selection, 2007, 20 (8) :405)的研 究报道,该数据首先从Phospho. ELM (Version 5. 0)数据库提取已知磷酸化位点,并过滤掉 不含激酶蛋白信息的位点,然后,将所得到磷酸化位点按激酶家族进行分类后去除冗余位 点。这些磷酸化位点是经实验充分验证,将其作为正样本集。晶体结构研究表明激酶与磷酸 化位点(S, T或Y)旁侧7 12氨基酸残基发生相互作用(Songyang et al. , Curr Biol, 1994,4:973)。所选择的每个样本是由位点和旁侧序列组成25肽序列。由于数据集的负 样本过多不利于磷酸化预测,这里采用1 : 1比例选取正负样本。为了验证预测性能,将样 本划分训练集和外部验证测试集,其中训练集样本与测试集样本的比例为l : 1。 25-肽序 列中的每个氨基酸残基用12个氨基酸三维性质得分表征。每个25-肽序列以25X12个二300个变量表征。 c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的性质 参数,并作为模型的输入变量; 经比较,以300个原始自变量作为支持向量机的输入,无论建模还是外部预测 效果都较差,故用费歇尔准则得分(Webb-Robertson et al. , Bioinformatics, 2008, 24 : 1503)选择与蛋白激酶磷酸化特异位点特征密切相关的变量,共得到68个费歇尔准则得分 大于等于2. 0的变量变量,作为模型的输入变量。 d)应用径向基核支持向量机建立本文档来自技高网
...

【技术保护点】
一种蛋白激酶磷酸化特异位点计算识别方法,其特征在于包括如下步骤:a)具体包括a1)精选20种天然氨基酸的629种三维性质参数;a2)对629种性质参数做主成分分析,得到12个主成分;a3)计算各主成分得分,建立氨基酸三维性质得分;b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征,其中的每个氨基酸用12个氨基酸三维性质得分表征;c)用费歇尔准则得分方法挑选与蛋白激酶磷酸化特异位点特征密切相关的性质参数,并作为模型的输入变量;d)用径向基核支持向量机建立蛋白激酶磷酸化特异位点识别模型,以自取代检验,留1/10法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模型并识别蛋白激酶磷酸化特异位点。

【技术特征摘要】
一种蛋白激酶磷酸化特异位点计算识别方法,其特征在于包括如下步骤a)具体包括a1)精选20种天然氨基酸的629种三维性质参数;a2)对629种性质参数做主成分分析,得到12个主成分;a3)计算各主成分得分,建立氨基酸三维性质得分;b)用氨基酸三维性质得分表征蛋白激酶磷酸化特异位点的结构特征,其中的每个氨基酸用1...

【专利技术属性】
技术研发人员:梁桂兆马秀岩赵巍杨力梅虎
申请(专利权)人:重庆大学
类型:发明
国别省市:85[中国|重庆]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1