蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统技术方案

技术编号:21660968 阅读:24 留言:0更新日期:2019-07-20 06:12
本发明专利技术公开了蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统,属于生物信息学领域。所述蛋白质编码方法包括收集修饰位点信息、位置权重训练和待编码肽段的编码。蛋白质翻译后修饰位点预测方法包括收集修饰位点信息、特征编码、模型训练和蛋白质翻译后修饰位点预测。本发明专利技术利用深度神经网络和惩罚逻辑回归分别对不同类别的阳性位点和阴性位点的数字向量特征构建预测模型,得到多个预测模型;将每个预测模型的预测结果作为新的特征并利用惩罚逻辑回归构建最终模型。本发明专利技术可以捕获更多蛋白信息从而有助于提高预测的准确度,可以快速的大规模鉴定蛋白质修饰位点。

Protein coding methods and prediction methods and systems for post-translational modification sites of proteins

【技术实现步骤摘要】
蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统
本专利技术涉及生物信息学领域,更具体地,涉及蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统。
技术介绍
蛋白质翻译后修饰是真核和原核生物最重要的机制之一,它涉及化学基团与蛋白质氨基酸侧链的连接。各种蛋白质翻译后修饰PTM在多种细胞过程中发挥着至关重要的作用,这些过程调节蛋白质的功能、物理化学性质、构象、稳定性和响应发育信号或环境刺激的分子相互作用。例如,蛋白质磷酸化是最普遍存在的蛋白质翻译后修饰PTM,可诱导信号转导和细胞凋亡;赖氨酸琥珀酰化在代谢途径中起着至关重要的作用;蛋白质乙酰化和甲基化参与染色质重编程和转录调控;赖氨酸泛素化介导蛋白质降解。并且,越来越多的研究发现蛋白质翻译后修饰PTM的失调与多种疾病(包括癌症)的发展和进展有关。由于各种限制,通过诸如高通量液相色谱/质谱(LC-MS)技术的传统实验技术鉴定蛋白质翻译后修饰位点仍然是低效、昂贵且耗时的。因此,开发能够识别蛋白质翻译后修饰位点的计算方法已变得越来越有必要。尽管有多种蛋白质翻译后修饰位点预测方法,例如,Xue等利用基于肽段相似度打分的方法构建了多个蛋白质修饰位点的预测器。Qiu等利用支持向量机构建多个蛋白质修饰位点的预测器。但当这些方法仍然存在一些缺陷,如:利用一种算法构建一个简化模型无法充分挖掘多类型多特征数据的信息。现有的预测方法仅考虑蛋白质的一个或几个特征,而修饰的发生往往跟蛋白质序列、结构、氨基酸理化性质等多个因素有关。此外,现有预测方法往往忽略了物种之间存在的差异,修饰位点周围的序列或结构可能在不同物种中显著变化。因而发展新的高精度预测方法非常关键。
技术实现思路
本专利技术解决了现有技术中蛋白质翻译后修饰位点预测方法无法实现多特征数据的预测,且无法高精度预测不同物种中的蛋白质翻译后修饰。按照本专利技术的第一方面,提供了一种蛋白质编码方法,所述蛋白质编码方法用于表示待编码肽段与阳性数据集肽段的相似度,含有以下步骤:(1)收集修饰位点信息:首先收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸序列;所述n大于等于1;所有含有所述阳性位点的所述氨基酸序列构成阳性数据集,所有含有所述阴性位点的所述氨基酸序列构成阴性数据集;(2)位置权重训练:步骤(1)所述阳性数据集和阴性数据集中的每个肽段与阳性数据集基于位置权重和氨基酸替换得分的相似度打分的公式为:其中:L为所述阳性数据集中每个肽段的长度2n+1;N为所述阳性数据集中肽段的数量;Tij是阳性数据集中肽段Ti在位置j上的氨基酸,i的取值范围为1≤i≤N;Pj为肽段在位置j上的氨基酸;M[Pj,Tij]为氨基酸Pj和Tij在BLOSUM62氨基酸替换矩阵中的分值;Wj为该肽段中位置j上的权重;所述阳性数据集和阴性数据集中的每条肽段分别与阳性数据集中的每条肽段依次打分,其中肽段不与其自身打分,初始位置权重Wj为1,获得肽段中除中心位置以外的其它2n个位置的得分;然后将该2n个位置的得分使用惩罚逻辑回归执行交叉验证,使AUC值最大的权重向量由肽段中各个位置上的权重Wj组成;(3)待编码肽段的编码:待编码肽段与阳性数据集间的氨基酸对的平均相似度S为:其中:L是待编码肽段的长度,j为氨基酸所在位置,Cj为待编码肽段与阳性数据集间的任意一个氨基酸对在位置j上出现的次数,M为所述氨基酸对在BLOSUM62氨基酸替换矩阵中的分值,Wj为步骤(2)训练得到的待编码肽段位置j上的权重;待编码肽段与阳性数据集间的所有的氨基酸对的相似度得分构成该待编码肽段的数字向量特征。按照本专利技术的另一方面,提供了多特征算法模型的蛋白质翻译后修饰位点预测方法,含有以下步骤:(1)收集修饰位点信息:收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将所述阳性位点和阴性位点按照蛋白质所属物种进行分类;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸的序列;所述n大于等于1;(2)特征编码:将权利要求1所述的蛋白质编码方法以及其它的编码方案逐个对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码,得到数字向量特征,将所述数字向量特征分别利用惩罚逻辑回归、支持向量机和随机森林验证每种编码方案的AUC性能,将AUC性能大于0.5的编码方案作为备用编码方案;挑选所述备用编码方案对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码得到的数字向量特征;(3)模型训练:利用深度神经网络和惩罚逻辑回归分别对步骤(2)所述不同类别的阳性位点和阴性位点的数字向量特征构建预测模型,得到多个预测模型;将每个预测模型的预测结果作为新的特征并利用惩罚逻辑回归构建最终模型;(4)蛋白质翻译后修饰位点预测:通过步骤(3)所述最终模型预测蛋白质翻译后修饰位点;所述预测能得到步骤(2)所述备用编码方案中的特征以及步骤(1)所述蛋白质所属物种信息。优选地,步骤(1)所述目标类型的修饰位点信息为赖氨酸琥珀酰化位点信息、磷酸化位点信息、泛素化位点信息、甲基化位点信息或乙酰化位点信息。优选地,步骤(1)所述n小于等于30。优选地,步骤(2)所述其它的编码方案为PseAAC编码方案、CKSAAP编码方案、正交二进制编码方案、AAindex编码方案、自相关特征集编码方案、PSSM编码方案、ASA编码方案,SS编码方案和BTA编码方案;所述PseAAC编码方案用于表示肽段中每种氨基酸出现的频率的数字向量特征;所述CKSAAP编码方案用于表示肽段中被k个氨基酸间隔的任意两种或者两种相同氨基酸出现的次数的数字向量特征,所述k大于等于0小于等于(2n-1);所述正交二进制编码方案用于表示肽段中每个氨基酸二进制向量的数字向量特征;所述AAindex编码方案用于表示肽段中每个氨基酸在AAindex数据库中理化性质下编码的数字向量特征;所述自相关特征编码方案用于表示肽段中被k个氨基酸间隔的任意两种或者两种相同氨基酸的AAindex数据库中理化性质相关性的数字向量特征;所述PSSM编码方案用于表示肽段中每个氨基酸位置分别出现特定氨基酸的概率的数字向量特征;所述ASA编码方案用于表示肽段中每个氨基酸的可及表面积的数字向量特征;所述SS编码方案用于表示肽段中每个氨基酸发生α-螺旋、β-折叠和转角的概率的数字向量特征;所述BTA编码方案用于表示肽段中每个氨基酸发生二级结构的角度的数字向量特征。按照本专利技术的另一方面,提供了一种蛋白质编码系统,包括:收集修饰位点信息模板:所述收集修饰位点信息模板用于收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心本文档来自技高网
...

【技术保护点】
1.一种蛋白质编码方法,其特征在于,所述蛋白质编码方法用于表示待编码肽段与阳性数据集肽段的相似度,含有以下步骤:(1)收集修饰位点信息:首先收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸序列;所述n大于等于1;所有含有所述阳性位点的所述氨基酸序列构成阳性数据集,所有含有所述阴性位点的所述氨基酸序列构成阴性数据集;(2)位置权重训练:步骤(1)所述阳性数据集和阴性数据集中的每个肽段与阳性数据集基于位置权重和氨基酸替换得分的相似度打分的公式为:

【技术特征摘要】
1.一种蛋白质编码方法,其特征在于,所述蛋白质编码方法用于表示待编码肽段与阳性数据集肽段的相似度,含有以下步骤:(1)收集修饰位点信息:首先收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸序列;所述n大于等于1;所有含有所述阳性位点的所述氨基酸序列构成阳性数据集,所有含有所述阴性位点的所述氨基酸序列构成阴性数据集;(2)位置权重训练:步骤(1)所述阳性数据集和阴性数据集中的每个肽段与阳性数据集基于位置权重和氨基酸替换得分的相似度打分的公式为:其中:L为所述阳性数据集中每个肽段的长度2n+1;N为所述阳性数据集中肽段的数量;Tij是阳性数据集中肽段Ti在位置j上的氨基酸,i的取值范围为1≤i≤N;Pj为肽段在位置j上的氨基酸;M[Pj,Tij]为氨基酸Pj和Tij在BLOSUM62氨基酸替换矩阵中的分值;Wj为该肽段中位置j上的权重;所述阳性数据集和阴性数据集中的每条肽段分别与阳性数据集中的每条肽段依次打分,其中肽段不与其自身打分,初始位置权重Wj为1,获得肽段中除中心位置以外的其它2n个位置的得分;然后将该2n个位置的得分使用惩罚逻辑回归执行交叉验证,使AUC值最大的权重向量由肽段中各个位置上的权重Wj组成;(3)待编码肽段的编码:待编码肽段与阳性数据集间的氨基酸对的平均相似度S为:其中:L是待编码肽段的长度,j为氨基酸所在位置,Cj为待编码肽段与阳性数据集间的任意一个氨基酸对在位置j上出现的次数,M为所述氨基酸对在BLOSUM62氨基酸替换矩阵中的分值,Wj为步骤(2)训练得到的待编码肽段位置j上的权重;待编码肽段与阳性数据集间的所有的氨基酸对的相似度得分构成该待编码肽段的数字向量特征。2.多特征算法模型的蛋白质翻译后修饰位点预测方法,其特征在于,含有以下步骤:(1)收集修饰位点信息:收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将所述阳性位点和阴性位点按照蛋白质所属物种进行分类;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸的序列;所述n大于等于1;(2)特征编码:将权利要求1所述的蛋白质编码方法以及其它的编码方案逐个对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码,得到数字向量特征,将所述数字向量特征分别利用惩罚逻辑回归、支持向量机和随机森林验证每种编码方案的AUC性能,将AUC性能大于0.5的编码方案作为备用编码方案;挑选所述备用编码方案对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码得到的数字向量特征;(3)模型训练:利用深度神经网络和惩罚逻辑回归分别对步骤(2)所述不同类别的阳性位点和阴性位点的数字向量特征构建预测模型,得到多个预测模型;将每个预测模型的预测结果作为新的特征并利用惩罚逻辑回归构建最终模型;(4)蛋白质翻译后修饰位点预测:通过步骤(3)所述最终模型预测蛋白质翻译后修饰位点;所述预测能得到步骤(2)所述备用编码方案中的特征以及步骤(1)所述蛋白质所属物种信息。3.如权利要求2所述的多特征算法模型的蛋白质翻译后修饰位点预测方法,其特征在于,步骤(1)所述目标类型的修饰位点信息为赖氨酸琥珀酰化位点信息、磷酸化位点信息、泛素化位点信息、甲基化位点信息或乙酰化位点信息。4.如权利要求2所述的多特征算法模型的蛋白质翻译后修饰位点预测方法,其特征在于,步骤(1)所述n小于等于30。5.如权利要求2所述的多特征算法模型的蛋白质翻译后修饰位点预测方法,其特征在于,步骤(2)所述其它的编码方案为PseAAC编码方案、CKSAAP编码方案、正交二进制编码方案、AAindex编码方案、自相关特征集编码方案、PSSM编码方案、ASA编码方案,SS编码方案和BTA编码方案;所述PseAAC编码方案用于表示肽段中每种氨基酸出现的频率的数字向量特征;所述CKSAAP编码方案用于表示肽段中被k个氨基酸间隔的任意两种或者两种相同氨基酸出...

【专利技术属性】
技术研发人员:薛宇宁万山许浩东邓万锟郭亚萍
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1