蛋白质相互作用的预测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38139091 阅读:19 留言:0更新日期:2023-07-08 09:52
本发明专利技术提供了一种蛋白质相互作用的预测方法、装置、电子设备及存储介质,包括:获取第一蛋白质对应的第一氨基酸序列和第二蛋白质对应的第二氨基酸序列;通过预先训练的目标预测网络,基于第一氨基酸序列和第二氨基酸序列进行蛋白质预测,得到蛋白质预测结果;其中,目标预测网络包括氨基酸嵌入子网络、向量编码子网络和预测子网络,蛋白质预测结果用于表征第一蛋白质和第二蛋白质之间发生相互作用的概率。本发明专利技术可以高效、高准确率地预测蛋白质之间是否会发生相互作用,还可以实现跨物种的蛋白质相互作用预测。白质相互作用预测。白质相互作用预测。

【技术实现步骤摘要】
蛋白质相互作用的预测方法、装置、电子设备及存储介质


[0001]本专利技术涉及蛋白质相互作用预测
,尤其是涉及一种蛋白质相互作用的预测方法、装置、电子设备及存储介质。

技术介绍

[0002]预测蛋白质之间的相互作用,有助于揭示细胞的生命活动过程,是从海量数据中挖掘验证功能基因等标志物的重要手段。传统的蛋白质预测技术包括湿实验方法和计算方法。其中,酵母双杂交、免疫共沉淀、荧光共振能量转移等是典型的湿实验方法,但是湿实验方法通常需要大量的样品、需要高度纯化的蛋白质,且时间和成本过高;另外,计算生物学和生物信息学技术的发展为探究蛋白质相互作用提供了新的方法,但是现有计算方法通常存在OOD(Out of distribution)问题,导致难以针对未知物种的蛋白质做出准确的预测。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种蛋白质相互作用的预测方法、装置、电子设备及存储介质,可以高效、高准确率地预测蛋白质之间是否会发生相互作用,还可以实现跨物种的蛋白质相互作用预测。
[0004]第一方面,本专利技术实施例提供了一种蛋白质相互作用的预测方法,包括:获取第一蛋白质对应的第一氨基酸序列和第二蛋白质对应的第二氨基酸序列;通过预先训练的目标预测网络,基于所述第一氨基酸序列和所述第二氨基酸序列进行蛋白质预测,得到蛋白质预测结果;其中,所述目标预测网络包括氨基酸嵌入子网络、向量编码子网络和预测子网络,所述蛋白质预测结果用于表征所述第一蛋白质和所述第二蛋白质之间发生相互作用的概率。
[0005]在一种实施方式中,所述向量编码子网络包括第一向量编码子网络和第二向量编码子网络,所述氨基酸嵌入子网络的输出分别与所述第一向量编码子网络、所述第二向量编码子网络的输入连接,所述第一向量编码子网络和所述第二向量编码子网络的输出均与所述预测子网络连接;通过预先训练的目标预测网络,基于所述第一氨基酸序列和所述第二氨基酸序列进行蛋白质预测,得到蛋白质预测结果,包括:通过所述氨基酸嵌入子网络,将所述第一氨基酸序列嵌入至向量空间,得到所述第一蛋白质对应的第一嵌入向量,以及将所述第二氨基酸序列嵌入至所述向量空间,得到所述第二蛋白质对应的第二嵌入向量;通过所述第一向量编码子网络,对所述第一嵌入向量进行编码,得到所述第一蛋白质对应的第一编码结果;以及,通过所述第二向量编码子网络,对所述第二嵌入向量进行编码,得到所述第二蛋白质对应的第二编码结果;通过所述预测子网络,基于所述第一编码结果和所述第二编码结果进行蛋白质预测,得到蛋白质预测结果。
[0006]在一种实施方式中,所述第一向量编码子网络包括投影单元和多个编码单元;通过所述第一向量编码子网络,对所述第一嵌入向量进行编码,得到所述第一蛋白质对应的第一编码结果,包括:通过所述投影单元将所述第一嵌入向量从当前维度压缩至指定维度;
通过所述编码单元,对所述指定维度的第一嵌入向量或者前一个编码单元的所述输出向量,进行自注意力计算和前馈神经计算,得到所述编码单元的输出向量;将位于末端的所述编码单元的所述输出向量,确定为所述第一蛋白质对应的第一编码结果。
[0007]在一种实施方式中,所述编码单元包括多头注意力层和前馈神经层;通过所述编码单元,对前一个编码单元的所述输出向量,进行自注意力计算和前馈神经计算,得到所述编码单元的输出向量,包括:通过所述多头注意力层,对前一个编码单元的所述输出向量进行多头注意力操作,并对所述前一个编码单元的所述输出向量与所述头注意力操作的结果的和值进行归一化操作,得到中间向量;通过所述前馈神经层,按照如下公式根据所述中间向量确定该编码单元的所述输出向量:其中,所述表示所述输出向量,所述表示所述中间向量,LN表示所述归一化操作,W1、W2、b1、b2均为所述前馈神经层的网络参数。
[0008]在一种实施方式中,所述第一向量编码子网络和所述第二向量编码子网络采用孪生网络架构,且所述第一向量编码子网络和所述第二向量编码子网络共享网络参数。
[0009]在一种实施方式中,基于所述第一编码结果和所述第二编码结果进行蛋白质预测,得到蛋白质预测结果,包括:对所述第一编码结果进行平均池化操作得到第一平均池化结果,以及对所述第二编码结果进行平均池化操作得到第二平均池化结果;确定所述第一平均池化结果和所述第二平均池化结果的哈达玛积;利用Softmax函数,基于所述哈达玛积和所述预测子网络的网络参数确定蛋白质预测结果;其中,如果所述蛋白质预测结果所表征的概率大于预设阈值,则确定所述第一蛋白质和所述第二蛋白质之间发生相互作用,如果所述蛋白质预测结果所表征的概率小于所述预设阈值,则确定所述第一蛋白质和所述第二蛋白质之间不发生相互作用。
[0010]在一种实施方式中,所述方法还包括:利用第一训练数据集对所述氨基酸嵌入子网络的网络参数进行训练;其中,所述氨基酸嵌入子网络采用PortT5模型;冻结所述氨基酸嵌入子网络的网络参数,并利用第二训练集对所述向量编码子网络和预测子网络的网络参数进行训练,以得到目标预测网络。
[0011]第二方面,本专利技术实施例还提供一种蛋白质相互作用的预测装置,包括:序列获取模块,用于获取第一蛋白质对应的第一氨基酸序列和第二蛋白质对应的第二氨基酸序列;预测模块,用于通过预先训练的目标预测网络,基于所述第一氨基酸序列和所述第二氨基酸序列进行蛋白质预测,得到蛋白质预测结果;其中,所述目标预测网络包括氨基酸嵌入子网络、向量编码子网络和预测子网络,所述蛋白质预测结果用于表征所述第一蛋白质和所述第二蛋白质之间发生相互作用的概率。
[0012]第三方面,本专利技术实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。
[0013]第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。
[0014]本专利技术实施例提供的蛋白质相互作用的预测方法、装置、电子设备及存储介质,首
先获取第一蛋白质对应的第一氨基酸序列和第二蛋白质对应的第二氨基酸序列,然后通过预先训练的目标预测网络,基于第一氨基酸序列和第二氨基酸序列进行蛋白质预测,得到蛋白质预测结果。其中,目标预测网络包括氨基酸嵌入子网络、向量编码子网络和预测子网络,蛋白质预测结果用于表征第一蛋白质和第二蛋白质之间发生相互作用的概率。上述方法提供了一种目标预测网络,该目标预测网络包括氨基酸嵌入子网络、向量编码子网络和预测子网络,利用该目标预测网络可以根据蛋白质的氨基酸序列高效、高准确率地预测蛋白质之间是否会发生相互作用,还可以实现跨物种的蛋白质相互作用预测。
[0015]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质相互作用的预测方法,其特征在于,包括:获取第一蛋白质对应的第一氨基酸序列和第二蛋白质对应的第二氨基酸序列;通过预先训练的目标预测网络,基于所述第一氨基酸序列和所述第二氨基酸序列进行蛋白质预测,得到蛋白质预测结果;其中,所述目标预测网络包括氨基酸嵌入子网络、向量编码子网络和预测子网络,所述蛋白质预测结果用于表征所述第一蛋白质和所述第二蛋白质之间发生相互作用的概率。2.根据权利要求1所述的蛋白质相互作用的预测方法,其特征在于,所述向量编码子网络包括第一向量编码子网络和第二向量编码子网络,所述氨基酸嵌入子网络的输出分别与所述第一向量编码子网络、所述第二向量编码子网络的输入连接,所述第一向量编码子网络和所述第二向量编码子网络的输出均与所述预测子网络连接;通过预先训练的目标预测网络,基于所述第一氨基酸序列和所述第二氨基酸序列进行蛋白质预测,得到蛋白质预测结果,包括:通过所述氨基酸嵌入子网络,将所述第一氨基酸序列嵌入至向量空间,得到所述第一蛋白质对应的第一嵌入向量,以及将所述第二氨基酸序列嵌入至所述向量空间,得到所述第二蛋白质对应的第二嵌入向量;通过所述第一向量编码子网络,对所述第一嵌入向量进行编码,得到所述第一蛋白质对应的第一编码结果;以及,通过所述第二向量编码子网络,对所述第二嵌入向量进行编码,得到所述第二蛋白质对应的第二编码结果;通过所述预测子网络,基于所述第一编码结果和所述第二编码结果进行蛋白质预测,得到蛋白质预测结果。3.根据权利要求2所述的蛋白质相互作用的预测方法,其特征在于,所述第一向量编码子网络包括投影单元和多个编码单元;通过所述第一向量编码子网络,对所述第一嵌入向量进行编码,得到所述第一蛋白质对应的第一编码结果,包括:通过所述投影单元将所述第一嵌入向量从当前维度压缩至指定维度;通过所述编码单元,对所述指定维度的第一嵌入向量或者前一个编码单元的输出向量,进行自注意力计算和前馈神经计算,得到所述编码单元的输出向量;将位于末端的所述编码单元的所述输出向量,确定为所述第一蛋白质对应的第一编码结果。4.根据权利要求3所述的蛋白质相互作用的预测方法,其特征在于,所述编码单元包括多头注意力层和前馈神经层;通过所述编码单元,对前一个编码单元的所述输出向量,进行自注意力计算和前馈神经计算,得到所述编码单元的输出向量,包括:通过所述多头注意力层,对前一个编码单元的所述输出向量进行多头注意力操作,并对所述前一个编码单元的所述输出向量与所述头注意力操作的结果的和值进行归一化操作,得到中间向量;通过所述前馈神经层,...

【专利技术属性】
技术研发人员:杨森程鹏舒文杰王升启
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1