一种用于识别SARS-CoV-2感染的磷酸化位点的深度学习方法技术

技术编号:39979300 阅读:21 留言:0更新日期:2024-01-09 01:24
本发明专利技术公开了一种用于识别SARS‑CoV‑2感染的磷酸化位点的深度学习方法,包括:首先收集已知的感染SARS‑CoV‑2的人类A549细胞的磷酸化位点数据集;再分别使用五种特征编码方法提取肽序列的特征表示;将这五种特征编码方法提取到的特征进行向量拼接;然后基于卷积神经网络、Gating机制、双向门控循环单元构建深度学习模型;使用正负样本的编码向量及其标签训练深度学习神经网络模型;利用训练好的模型预测未知的肽序列,本发明专利技术充分利用了卷积神经网络、gating机制和双向门控循环单元网络的优势,不仅实现了特征提取、信息整合和时序处理的协同作用,还为高效识别SARS‑CoV‑2感染的磷酸化位点提供了一种创新而准确的方法。

【技术实现步骤摘要】

本专利技术涉及计算生物信息学领域,特别是涉及一种用于识别sars-cov-2感染的磷酸化位点的深度学习方法。


技术介绍

1、磷酸化是影响许多基本细胞过程的常见翻译后修饰,研究发现,sars-cov-2蛋白在宿主细胞中被广泛地磷酸化,sars-cov-2感染触发了宿主激酶,并负责在宿主和病毒中进行重度磷酸化。

2、随着高通量测序技术的不断发展,对许多磷酸化位点的功能进行了很好的注释。bouhaddou等人提出了一项基于定量质谱的磷酸化蛋白质组学研究,该研究调查了细胞中的sars-cov-2感染,揭示了宿主和病毒蛋白质磷酸化的重组。hekman等人对sars-cov-2感染进行了定量磷酸化蛋白质组学研究,以找出其中的联系。由于蛋白激酶在细胞信号传导中的生物学重要性以及识别磷酸化位点的报告数量稳步增加,实验分子生物学家追踪其研究领域中蛋白质的所有磷酸化修饰已变得不切实际,大多数实验需要昂贵的设备和劳动力。

3、此外,到目前为止还有许多用于机器学习的方法来预测磷酸化位点,例如,quokka应用多个序列评分函数并结合优化的逻辑回归算法来预测磷本文档来自技高网...

【技术保护点】

1.一种用于识别SARS-CoV-2感染的磷酸化位点的深度学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种用于识别SARS-CoV-2感染的磷酸化位点的深度学习方法,其特征在于,所述步骤S2中独热编码方法为给定一条蛋白质序列S={a1,a2,…,ai},其中i表示序列的长度,ai表示位置i的残基,将每个残基表示为一个20维的向量,其中只有一个维度的值为1,代表该位置的氨基酸类型,其他维度的值为0。

3.根据权利要求1所述的一种用于识别SARS-CoV-2感染的磷酸化位点的深度学习方法,其特征在于,所述步骤S2中氨基酸替换打分矩阵方法包括:首先构建...

【技术特征摘要】

1.一种用于识别sars-cov-2感染的磷酸化位点的深度学习方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种用于识别sars-cov-2感染的磷酸化位点的深度学习方法,其特征在于,所述步骤s2中独热编码方法为给定一条蛋白质序列s={a1,a2,…,ai},其中i表示序列的长度,ai表示位置i的残基,将每个残基表示为一个20维的向量,其中只有一个维度的值为1,代表该位置的氨基酸类型,其他维度的值为0。

3.根据权利要求1所述的一种用于识别sars-cov-2感染的磷酸化位点的深度学习方法,其特征在于,所述步骤s2中氨基酸替换打分矩阵方法包括:首先构建替代矩阵,基于已知的多种蛋白质序列对比数据构建一个替代矩阵,这个替代矩阵描述了在蛋白质序列中一个氨基酸被另一个氨基酸替代的频率;然后计算相似性得分,对于两条蛋白质序列之间的比对,可以根据替代矩阵来计算相似性得分,可以用以下公式来表示两条蛋白质序列不同位置的之间的相似性得分:score=m(s1[i],s2[j]),其中m是blosum62矩阵,m∈rm×d,其中m是氨基酸类型的数量,d是嵌入向量的维度,score表示蛋白质序列1的位置i和蛋白质序列2的位置j之间的相似性得分;最后累计得分,对于整个蛋白质序列的比对,将每对氨基酸之间的相似性得分累积起来,得到一个总的相似性得分,这个得分可以用来衡量两条蛋白质序列的相似程度,得分越高,表示两个序列越相似。

4.根据权利要求1所述的一种用于识别sars-cov-2感染的磷酸化位点的深度学习方法,其特征在于,所述步骤s2中新扩展和更新的主要属性尺度方法为将每个氨基酸用5个物理化学描述符进行表征,通过使用这些描述符变量,捕捉到蛋白质序列中不同氨基酸之间的差异和相似性,进而对蛋白质的结构和功能进行分析和预测。

5.根据权利要求1所述的一种用于识别sars-cov-2感染的磷酸化位点的深度学习方法,其特征在于,所述步骤s2中5位二进制类型一方法为使用一组包含5个字母的氨基酸组{a1,a2,a3,a4,a5},对于每个氨基酸组都有一个对应的五维二进制向量表示方式,然后,每个组由一个5维二进制向量表示,a1使用二进制向量(10...

【专利技术属性】
技术研发人员:黄国华肖润娟
申请(专利权)人:湖南财政经济学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1