基于深度语言模型的多肽关键位点预测方法、设备和介质技术

技术编号：40987542 阅读：18 留言：0更新日期：2024-04-18 21:31

本发明专利技术涉及多肽关键位点预测技术领域，特别涉及一种基于深度语言模型的多肽关键位点预测方法、设备和介质，其包括：训练多肽序列深度语言模型，直至每条序列选择的目标残基的被还原概率达到目标；训练多肽关键位点预测模型，直至输出的多肽关键点位预测精度达到预设阈值；将需关键位点预测的多肽序列输入至目标多肽序列深度语言模型得到多肽序列中每个残基的表征；将表征输入至目标多肽关键位点预测模型，输出每个残基关键位点的预测结果。本发明专利技术训练了多肽序列深度语言模型来提取多肽序列的高鉴别性表征，再利用基于深度神经网络模型构建的多肽关键位点预测模型来预测多肽关键位点，进一步地提升了基于序列的多肽关键位点预测性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多肽关键位点预测，特别涉及一种基于深度语言模型的多肽关键位点预测方法、设备和介质。

技术介绍

1、多肽在生命活动中会与诸如蛋白质与rna等大分子发生相互作用，以完成特定的生物学功能。精确识别多肽上的关键残基位点对于分子间相互作用机制理解以及多肽药物的改造与设计均至关重要。尽管生物湿实验是目前最为精准的多肽关键位点的识别方法，但其耗时、费力且成本高昂，严重阻碍了多肽关键位点的识别、多肽药物设计的进程。基于计算方法的多肽关键位点预测方法受到了越来越多研究学者的关注，主要包括间接与直接预测方法两种。间接预测方法主要为大分子与多肽复合物结构预测方法，它们首先预测大分子(如蛋白质)与多肽的复合物三维结构，然后通过计算原子间距离来预测多肽关键位点，此类方法的优点在于额外给出了多肽与大分子的相互作用空间姿态信息，缺点在于消耗的计算资源巨大且预测关键位点只是针对某种特定的大分子，且受限于复合物结构预测精度。直接预测方法为通过多肽序列或结构信息，通过使用机器学习、深度学习等算法，来直接预测多肽关键位点的一类方法，它们的优点在于可以快速地预测...

【技术保护点】

1.一种基于深度语言模型的多肽关键位点预测方法，其特征在于，包括：

2.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法，其特征在于，所述编码模块包括蛋白质语言模型模块、残差模块和K层全连接层；所述残差模块的数量为2个，其中每个残差模块中包含2层卷积层、1层Dropout层和1个注意力机制层；所述解码模块包含N层全连接层；所述K≥1，N≥1。

3.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法，其特征在于，所述构建第一训练集，包括：

4.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法，其特征在于，在训练所述初始多肽序列...

【技术特征摘要】

1.一种基于深度语言模型的多肽关键位点预测方法，其特征在于，包括：

2.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法，其特征在于，所述编码模块包括蛋白质语言模型模块、残差模块和k层全连接层；所述残差模块的数量为2个，其中每个残差模块中包含2层卷积层、1层dropout层和1个注意力机制层；所述解码模块包含n层全连接层；所述k≥1，n≥1。

3.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法，其特征在于，所述构建第一训练集，包括：

4.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法，其特征在于，在训练所述初始多肽序列深度语言模型时，每条序列在输入到所述初始多肽序列深度语言模型前所选择的所述目标残基中，每个残基对应9.85％的概率被替换成其他残基类型、6.05％的概率被掩盖掉、4.10％的概率被删除。

5.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法，其特征在于，所述...

【专利技术属性】
技术研发人员：胡俊，张阳，
申请(专利权)人：深药科技苏州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人