System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度语言模型的多肽关键位点预测方法、设备和介质技术_技高网

基于深度语言模型的多肽关键位点预测方法、设备和介质技术

技术编号:40987542 阅读:2 留言:0更新日期:2024-04-18 21:31
本发明专利技术涉及多肽关键位点预测技术领域,特别涉及一种基于深度语言模型的多肽关键位点预测方法、设备和介质,其包括:训练多肽序列深度语言模型,直至每条序列选择的目标残基的被还原概率达到目标;训练多肽关键位点预测模型,直至输出的多肽关键点位预测精度达到预设阈值;将需关键位点预测的多肽序列输入至目标多肽序列深度语言模型得到多肽序列中每个残基的表征;将表征输入至目标多肽关键位点预测模型,输出每个残基关键位点的预测结果。本发明专利技术训练了多肽序列深度语言模型来提取多肽序列的高鉴别性表征,再利用基于深度神经网络模型构建的多肽关键位点预测模型来预测多肽关键位点,进一步地提升了基于序列的多肽关键位点预测性能。

【技术实现步骤摘要】

本专利技术涉及多肽关键位点预测,特别涉及一种基于深度语言模型的多肽关键位点预测方法、设备和介质


技术介绍

1、多肽在生命活动中会与诸如蛋白质与rna等大分子发生相互作用,以完成特定的生物学功能。精确识别多肽上的关键残基位点对于分子间相互作用机制理解以及多肽药物的改造与设计均至关重要。尽管生物湿实验是目前最为精准的多肽关键位点的识别方法,但其耗时、费力且成本高昂,严重阻碍了多肽关键位点的识别、多肽药物设计的进程。基于计算方法的多肽关键位点预测方法受到了越来越多研究学者的关注,主要包括间接与直接预测方法两种。间接预测方法主要为大分子与多肽复合物结构预测方法,它们首先预测大分子(如蛋白质)与多肽的复合物三维结构,然后通过计算原子间距离来预测多肽关键位点,此类方法的优点在于额外给出了多肽与大分子的相互作用空间姿态信息,缺点在于消耗的计算资源巨大且预测关键位点只是针对某种特定的大分子,且受限于复合物结构预测精度。直接预测方法为通过多肽序列或结构信息,通过使用机器学习、深度学习等算法,来直接预测多肽关键位点的一类方法,它们的优点在于可以快速地预测多肽关键位点且不用消耗大量计算资源,缺点在于目前多肽数据的高鉴别特征提取困难,从而限制了多肽关键位点的预测性能的提升。

2、尽管现存方法可以用来进行多肽关键位点预测,但它们使用的多肽序列特征的鉴别性较弱,从而限制了目前多肽关键位点的预测精度。

3、基于现有技术中已有的多肽关键位点预测方法受限于表征信息的鉴别性欠缺,且在识别精度方面距离实际应用的要求差距很大的问题,尚未提出有效的解决方案。

4、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、为此,本专利技术所要解决的技术问题在于克服现有技术中已有的多肽关键位点预测方法受限于表征信息的鉴别性欠缺,且在识别精度方面距离实际应用的要求差距很大的问题。

2、本专利技术至少包括以下几个方面:

3、第一方面,本专利技术提供了一种基于深度语言模型的多肽关键位点预测方法,包括:

4、构建初始多肽序列深度语言模型,所述初始多肽序列深度语言模型包括编码模块与解码模块;

5、构建第一训练集,获取所述第一训练集中每条序列选择的目标残基,并将所述第一训练集输入至所述初始多肽序列深度语言模型,采用第一优化器和第一损失函数调整模型初始参数,直至每条序列选择的目标残基的被还原概率达到目标概率,则完成训练,得到目标多肽序列深度语言模型;

6、基于深度神经网络构建初始多肽关键位点预测模型,所述初始多肽关键位点预测模型包括卷积层和全连接层;

7、构建第二训练集,基于所述第二训练集训练所述初始多肽关键位点预测模型,采用第二优化器和第二损失函数调整模型初始参数,直至输出的多肽关键点位预测精度达到预设阈值,训练完成,得到目标多肽关键位点预测模型;

8、将待进行关键位点预测的多肽序列输入至所述目标多肽序列深度语言模型,得到所述多肽序列中每个残基的表征;

9、将所述多肽序列中每个残基的表征输入至所述目标多肽关键位点预测模型,输出所述多肽序列中每个残基是否为关键位点的预测结果。

10、在本专利技术的一个实施例中,所述编码模块包括蛋白质语言模型模块、残差模块和k层全连接层;所述残差模块的数量为2个,其中每个残差模块中包含2层卷积层、1层dropout层和1个注意力机制层;所述解码模块包含n层全连接层;所述k≥1,n≥1。

11、在本专利技术的一个实施例中,所述构建第一训练集,包括:

12、截取已被预测序列的多肽数据中长loop区域的片段作为伪多肽数据;

13、将所述伪多肽数据与所述已被预测序列的多肽数据合并,构成所述第一训练集。

14、在本专利技术的一个实施例中,在训练所述初始多肽序列深度语言模型时,每条序列在输入到所述初始多肽序列深度语言模型前所选择的所述目标残基中,每个残基对应9.85%的概率被替换成其他残基类型、6.05%的概率被掩盖掉、4.10%的概率被删除。

15、在本专利技术的一个实施例中,所述构建第二训练集,包括:

16、收集已标注关键位点信息的多肽序列,构建所述第二训练集。

17、在本专利技术的一个实施例中,所述初始多肽关键位点预测模型包括2层卷积层和l层全连接层;所述l≥1。

18、在本专利技术的一个实施例中,所述将待进行关键位点预测的多肽序列输入至所述目标多肽序列深度语言模型,得到所述多肽序列中每个残基的表征,包括:

19、将所述多肽序列输入至所述目标多肽序列深度语言模型,通过所述蛋白质语言模型模块生成第一表征;

20、将所述第一表征同时输入至两个残差模块中,输出第二表征;

21、将所述第二表征进行平均,并将平均后的结果输入至n层全连接层,得到所述多肽序列中每个残基的表征。

22、第二方面,本专利技术提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如上述任一实施例所述基于深度语言模型的多肽关键位点预测方法的步骤。

23、第四方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述任一实施例所述基于深度语言模型的多肽关键位点预测方法的步骤。

24、本专利技术的上述技术方案相比现有技术具有以下优点:

25、本专利技术所述的一种基于深度语言模型的多肽关键位点预测方法、设备和介质,从多肽序列信息出发,训练了多肽序列深度语言模型来提取多肽序列的高鉴别性表征,再利用基于深度神经网络模型构建的多肽关键位点预测模型来预测多肽关键位点,进一步地提升了基于序列的多肽关键位点预测性能。

本文档来自技高网...

【技术保护点】

1.一种基于深度语言模型的多肽关键位点预测方法,其特征在于,包括:

2.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述编码模块包括蛋白质语言模型模块、残差模块和K层全连接层;所述残差模块的数量为2个,其中每个残差模块中包含2层卷积层、1层Dropout层和1个注意力机制层;所述解码模块包含N层全连接层;所述K≥1,N≥1。

3.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述构建第一训练集,包括:

4.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,在训练所述初始多肽序列深度语言模型时,每条序列在输入到所述初始多肽序列深度语言模型前所选择的所述目标残基中,每个残基对应9.85%的概率被替换成其他残基类型、6.05%的概率被掩盖掉、4.10%的概率被删除。

5.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述构建第二训练集,包括:

6.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述初始多肽关键位点预测模型包括2层卷积层和L层全连接层;所述L≥1。

7.根据权利要求2所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述将待进行关键位点预测的多肽序列输入至所述目标多肽序列深度语言模型,得到所述多肽序列中每个残基的表征,包括:

8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述基于深度语言模型的多肽关键位点预测方法的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述基于深度语言模型的多肽关键位点预测方法的步骤。

...

【技术特征摘要】

1.一种基于深度语言模型的多肽关键位点预测方法,其特征在于,包括:

2.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述编码模块包括蛋白质语言模型模块、残差模块和k层全连接层;所述残差模块的数量为2个,其中每个残差模块中包含2层卷积层、1层dropout层和1个注意力机制层;所述解码模块包含n层全连接层;所述k≥1,n≥1。

3.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述构建第一训练集,包括:

4.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,在训练所述初始多肽序列深度语言模型时,每条序列在输入到所述初始多肽序列深度语言模型前所选择的所述目标残基中,每个残基对应9.85%的概率被替换成其他残基类型、6.05%的概率被掩盖掉、4.10%的概率被删除。

5.根据权利要求1所述的基于深度语言模型的多肽关键位点预测方法,其特征在于,所述...

【专利技术属性】
技术研发人员:胡俊张阳
申请(专利权)人:深药科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1