当前位置: 首页 > 专利查询>湖南工学院专利>正文

基于迁移学习的赖氨酸丙酰化预测方法和系统技术方案

技术编号:28504984 阅读:42 留言:0更新日期:2021-05-19 22:56
基于迁移学习的赖氨酸丙酰化预测方法和系统,涉及生物信息技术领域,本发明专利技术通过将已知的丙二酰化修饰数据直接输入到深度递归神经网络模型中进行训练,再利用丙酰化修饰数据对训练后的深度递归神经网络模型进行微调,上述经过训练和微调后的深度递归神经网络模型被作为特征提取器并将其最后第二层的输出视为丙酰化序列特征,并以支持向量机作为最终分类器,训练支持向量机并使用训练后的支持向量机模型预测丙酰化。本发明专利技术利用迁移学习手段解决了现有丙酰化样本数据太小无法较好地训练深度学习模型的问题,能够快速有效地对赖氨酸丙酰化修饰进行预测。丙酰化修饰进行预测。丙酰化修饰进行预测。

【技术实现步骤摘要】
基于迁移学习的赖氨酸丙酰化预测方法和系统


[0001]本专利技术涉及生物信息
,特别涉及一种基于迁移学习的赖氨酸丙酰化预测方法和系统。

技术介绍

[0002]蛋白质丙酰化是2007年首次在组蛋白上发现的一种新型赖氨酸酰化修饰,丙酰基可以通过乙酰基转移酶来配合更大的酰基辅酶分子。目前的研究已经发现,一些乙酰基转移酶如PCF、P300、CBP可以催化丙酰化,而SIRT1和SIRT2则可以去除丙酰化修饰。现有研究表明,赖氨酸丙酰化在代谢过程中起调节作用,并是活性染色质的标志。
[0003]对修饰位点进行鉴定识别和系统分析是研究蛋白质PTM(翻译后修饰)的重要内容,鉴定丙酰化位点是进一步探索丙酰化蛋白在病理生理学中功能和作用的关键基础。传统用以鉴定丙酰化底物蛋白的方法有高通量质谱法(MS)、PTMap结合蛋白质序列比、混合MS纳米液相色谱相结合方法等。近些年来,利用计算识别PTM的工作研究取得了明显的进步,出现了各种类型的预测算法和系统,譬如通过将各种位置和组成的相对特征以及统计矩阵结合在一起用于赖氨酸巴豆酰化预测的方法,还有通过提取基于序列的理化特性和进化信息特征来预测原核生物赖氨酸乙酰化位点的方法等,但是很少见到有对赖氨酸丙酰化预测的方法和系统。另外,现有技术中将序列特征信息与特征筛选优化方法相结合的预测算法大多仅在“小”样本上受过训练,概括性较差,这意味着,即使其在实验数据集中达到较高的预测准确性,但实际精度很有可能会比实验精度差得多。

技术实现思路

[0004]本专利技术的目的之一是提供一种基于迁移学习的赖氨酸丙酰化预测方法,用于对赖氨酸丙酰化修饰进行快速有效的预测。
[0005]为了实现上述目的,本专利技术所涉基于迁移学习的赖氨酸丙酰化预测方法采用以下手段:1)以经过已知赖氨酸丙二酰化修饰数据训练再通过已知赖氨酸丙酰化修饰数据微调的深度递归神经网络模型作为特征提取器;2)以经过已知赖氨酸丙酰化蛋白序列特征进行参数优化和训练的支持向量机模型作为最终分类器;3)利用特征提取器提取待分析蛋白的目标序列特征,并将提取的目标序列特征输入最终分类器中,对丙酰化修饰位点进行预测并输出预测结果。
[0006]其中,在步骤1)之前,还包括:构建深度递归神经网络模型,并将已知赖氨酸丙二酰化修饰数据输入深度递归神经网络模型对其进行训练的步骤;以及将已知赖氨酸丙酰化修饰数据输入训练后的深度递归神经网络模型对其进行微调的步骤。
[0007]其中,在步骤2)之前,还包括构建支持向量机,并将已知赖氨酸丙酰化蛋白序列分割成肽段序列,形成阳性和阴性样本集,以及通过特征提取器从阳性和阴性样本集中提取
序列特征,再利用提取的序列特征优化支持向量机窗口大小和超参数并训练支持向量机模型的步骤。
[0008]进一步地,在对深度递归神经网络模型进行训练时,先将已知的赖氨酸丙二酰化蛋白分割成肽段序列,形成包含相应阳性和阴性样本集的赖氨酸丙二酰化修饰数据,再将赖氨酸丙二酰化修饰数据输入深度递归神经网络模型以对其进行训练。
[0009]进一步地,对训练后的深度递归神经网络模型进行微调时,先将已知的赖氨酸丙酰化蛋白分割成肽段序列,形成包含相应阳性和阴性样本集的赖氨酸丙酰化修饰数据,再将赖氨酸丙酰化修饰数据输入训练后的深度递归神经网络模型以对其进行微调。
[0010]另外,在步骤3)中,利用特征提取器提取待分析蛋白的目标序列特征是先将待分析蛋白序列分割成肽段序列,再利用特征提取器从肽段序列中提取目标序列特征。
[0011]其中,在将各蛋白序列分割成肽段序列时,都是将对应的蛋白序列分割成以赖氨酸为中心且上游和下游各含有n个氨基酸残基的肽段;对于分割得到的上游和/或下游少于n个氨基酸残基的肽段,在对应肽段的前端和/或末端以字符“X”补齐;其中,n为大于等于1的自然数。
[0012]其中,在构建所述深度递归神经网络模型时,将所述深度递归神经网络模型的框架设定为依次由嵌入层、第一双向长短时记忆网络层、双向门控循环单元层、第二双向长短时记忆网络层、退出层、扁平化层、完全连接层和输出层构成;籍由所述嵌入层将输入的肽段序列的氨基酸字符整数索引转换成嵌入向量,并以完全连接层的输出作为要提取的序列特征。
[0013]另外,本专利技术还涉及一种基于迁移学习的赖氨酸丙酰化预测系统,其包括:特征提取器,所述特征提取器包括经过已知赖氨酸丙二酰化修饰数据训练再通过已知赖氨酸丙酰化修饰数据微调的深度递归神经网络模型;最终分类器,所述最终分类器包括经过已知赖氨酸丙酰化序列特征进行参数优化和训练的支持向量机模型;该赖氨酸丙酰化预测系统按照上面所述的赖氨酸丙酰化预测方法对待分析蛋白的丙酰化修饰位点进行预测并输出预测结果。
[0014]进一步地,上述基于迁移学习的赖氨酸丙酰化预测系统还包括序列分割器,所述序列分割器用于将各蛋白序列分割成以赖氨酸为中心且上游和下游各含有n个氨基酸残基的肽段序列,并在分割得到的上游和/或下游少于n个氨基酸残基的肽段序列的前端和/或末端以字符“X”补齐;其中,n为大于等于1的自然数。
[0015]本专利技术通过将已知的赖氨酸丙二酰化修饰数据直接输入到深度递归神经网络模型中,先利用丙二酰化修饰数据对深度递归神经网络模型进行训练,再通过已知的赖氨酸丙酰化修饰数据对训练后的模型进行微调,将完成训练和微调后的深度递归神经网络模型最后第二层的输出视为丙酰化序列的特征,训练后的模型可以充当特征提取器,同时,本专利技术用经过训练和微调后的深度递归神经网络模型作为特征提取器提取已知赖氨酸丙酰化蛋白的序列特性来优化支持向量机参数(窗口大小和超参数),并对支持向量机进行训练,训练后的支持向量机可以作为最终分类器来对未知蛋白序列进行赖氨酸丙酰化预测。籍由上述迁移学习手段,本专利技术解决了现有丙酰化数据样本太小无法更好地训练深度学习模型的问题,能够快速有效地对赖氨酸丙酰化修饰位点进行预测。
[0016]附图说明:图1为基于迁移学习的赖氨酸丙酰化预测方法的示例流程图。
[0017]图2为蛋白质序列被分割成肽段的示例图。
[0018]图3为实施例中所构建的深度递归神经网络(RNN)模型的框架图。
[0019]图4中(a)为实施例所涉预测方法和PropPred的10倍交叉验证的性能比较图,(b)为实施例所涉预测方法和PropPred的独立测试的性能比较图。
具体实施方式
[0020]为了便于本领域技术人员的理解,下面结合具体实施例和附图对本专利技术作进一步的说明,实施例提及的内容并非对本专利技术的限定。
[0021]图1示出了以下实施例中基于迁移学习的赖氨酸丙酰化预测方法的具体实施流程。
[0022]一、数据样本的构成。
[0023]1、从PLMD 数据库下载了包含413个丙酰赖氨酸位点的192种蛋白质,从Uniprot数据库中检索了18种丙酰化蛋白,合并两个蛋白质数据集并删除重复的蛋白质后,共获得207个独特的蛋白质。
[0024]2、用序列聚类软件CD
...

【技术保护点】

【技术特征摘要】
1.基于迁移学习的赖氨酸丙酰化预测方法,其特征在于:1)以经过已知赖氨酸丙二酰化修饰数据训练再通过已知赖氨酸丙酰化修饰数据微调的深度递归神经网络模型作为特征提取器;2)以经过已知赖氨酸丙酰化蛋白序列特征进行参数优化和训练的支持向量机模型作为最终分类器;3)利用特征提取器提取待分析蛋白的目标序列特征,并将提取的目标序列特征输入最终分类器中,对丙酰化修饰位点进行预测并输出预测结果。2.根据权利要求1所述的基于迁移学习的赖氨酸丙酰化预测方法,其特征在于,在步骤1)之前,还包括:构建深度递归神经网络模型,并将已知赖氨酸丙二酰化修饰数据输入深度递归神经网络模型对其进行训练的步骤;以及,将已知赖氨酸丙酰化修饰数据输入训练后的深度递归神经网络模型对其进行微调的步骤。3.根据权利要求1所述的基于迁移学习的赖氨酸丙酰化预测方法,其特征在于,在步骤2)之前,还包括:构建支持向量机,将已知赖氨酸丙酰化蛋白序列分割成肽段序列,形成阳性和阴性样本集,并通过特征提取器从阳性和阴性样本集中提取序列特征,再利用提取的序列特征优化支持向量机窗口大小和超参数并训练支持向量机模型的步骤。4.根据权利要求2所述的基于迁移学习的赖氨酸丙酰化预测方法,其特征在于:对深度递归神经网络模型进行训练时,先将已知的赖氨酸丙二酰化蛋白分割成肽段序列,形成包含相应阳性和阴性样本集的赖氨酸丙二酰化修饰数据,再将赖氨酸丙二酰化修饰数据输入深度递归神经网络模型以对其进行训练。5.根据权利要求2所述的基于迁移学习的赖氨酸丙酰化预测方法,其特征在于:对训练后的深度递归神经网络模型进行微调时,先将已知的赖氨酸丙酰化蛋白分割成肽段序列,形成包含相应阳性和阴性样本集的赖氨酸丙酰化修饰数据,再将赖氨酸丙酰化修饰数据输入训练后的深度递归神经网络模型以对其进行微调。6.根据权利要求1所述的基于迁移学习的赖氨酸丙酰化预测方法,其特征在于:步骤3)中,利用特征提取器提取待分析蛋...

【专利技术属性】
技术研发人员:黎昂陈敏谭艳邓英伟
申请(专利权)人:湖南工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1