使用自注意力神经网络的由氨基酸序列的蛋白质结构预测制造技术

技术编号:33525192 阅读:12 留言:0更新日期:2022-05-19 01:35
包括编码在计算机储存介质上的计算机程序的方法、系统和装置,其用于确定由氨基酸序列指定的蛋白质的预测的结构。一方面,方法包括:获得对于蛋白质的多序列比对;从多序列比对中且对于蛋白质的氨基酸序列中的各氨基酸对,确定氨基酸对的相应的初始嵌入;使用包括多个自注意力神经网络层的成对嵌入神经网络处理氨基酸对的初始嵌入,以生成各氨基酸对的最终嵌入;以及基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构。定蛋白质的预测的结构。定蛋白质的预测的结构。

【技术实现步骤摘要】
【国外来华专利技术】使用自注意力神经网络的由氨基酸序列的蛋白质结构预测

技术介绍

[0001]本说明书涉及预测蛋白质结构。
[0002]蛋白质是通过氨基酸的序列指定(具体说明)的。氨基酸是包括氨基官能团和羧基官能团以及对氨基酸特异的侧链(即原子团)的有机化合物。蛋白质折叠是指氨基酸的序列折叠成三维构型的物理过程。蛋白质的结构定义在蛋白质进行蛋白质折叠后,蛋白质的氨基酸序列中原子的三维构型。当在由肽键连接的序列中时,氨基酸可称为氨基酸残基。
[0003]可使用机器学习模型进行预测。机器学习模型接收输入,并基于接收的输入生成输出(例如,预测的输出)。一些机器学习模型是参数模型,并基于接收的输入和模型的参数的值生成输出。蛋白质的结构可基于指定蛋白质的氨基酸序列来预测。
[0004]一些机器学习模型是采用多层模型来对于接收的输入生成输出的深度模型。例如,深度神经网络是深度机器学习模型,其包括输出层和一个或多个隐藏层,所述隐藏层各自将非线性变换应用到接收的输入以生成输出。

技术实现思路

[0005]本说明书描述在一个或多个位置的一台或多台计算机上作为计算机程序实施的系统,其执行蛋白质结构预测。
[0006]根据第一方面,提供由一个或多个数据处理装置进行的用于确定由氨基酸序列指定的蛋白质的预测的结构的方法。该方法包括获得对于蛋白质的多序列比对(MSA)。该方法可进一步包括从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对来确定氨基酸对的相应的初始嵌入。该方法可进一步包括使用包括多个自注意力神经网络层的成对嵌入(对嵌入,pair embedding)神经网络来处理氨基酸对的初始嵌入,以生成各氨基酸对的最终嵌入。然后,该方法可包括基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构。
[0007]该方法的一些优点在后面描述。例如,该方法的实施生成“成对”嵌入,其将在蛋白质中氨基酸对之间的关系编码。(例如,对于蛋白质中氨基酸对的成对嵌入可将在该氨基酸对中相应的指定的原子(例如碳α原子)之间的关系编码)然后,这些可由随后的神经网络层处理以确定额外信息,特别地蛋白质的预测的结构。在实施中,折叠神经网络处理成对嵌入以确定预测的结构,例如,在结构参数诸如对于蛋白质的碳原子的原子坐标或骨架扭转角度。稍后描述这样的折叠神经网络的实例实施,但是也可使用其他。在一些实施中,使用最终成对嵌入以确定氨基酸序列中各(单个)氨基酸的初始嵌入,并且该单个嵌入可单独使用或者与成对嵌入联合使用来确定预测的结构。
[0008]在实施中,各自注意力神经网络层接收各氨基酸对的当前嵌入,并在氨基酸对的当前嵌入上或在这些嵌入的真子集(合适的子集)上使用注意力来更新当前嵌入。例如,自注意力神经网络层可确定应用于当前嵌入(或子集)的注意力权重集以更新当前嵌入,例如基于当前嵌入的注意力加权求和。
[0009]在一些实施中,氨基酸对的当前嵌入排列(布置)成二维阵列(数组)。然后,自注意力神经网络层可包括行式和/或列式自注意力神经网络层,例如,交替序列。行(或列)式自
注意力神经网络层可仅在位于与氨基酸对的当前嵌入相同的行(或列)中的氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入。
[0010]已经发现,使用自注意力显著地改善预测的结构的准确性,例如,通过生成更容易处理的嵌入来确定预测的结构参数。行和列式处理有助于以减少的计算资源实现这点。
[0011]各氨基酸对的初始嵌入可通过将MSA分成聚类(簇,cluster)氨基酸序列的集和(较大的)额外氨基酸序列的集来确定。然后可生成各集的嵌入,并且可使用额外氨基酸序列的嵌入来更新聚类氨基酸序列的嵌入。然后,更新的聚类氨基酸序列的嵌入可用于确定氨基酸对的初始嵌入。以这种方式,为了计算效率,可使用大的额外氨基酸序列的集来丰富较小的氨基酸序列(聚类氨基酸序列)的集的嵌入的信息。所述处理可通过交叉注意力神经网络进行。交叉注意力神经网络可包括如下神经网络:其在额外氨基酸序列的嵌入上使用注意力(即,应用到额外氨基酸序列的嵌入的注意力权重)来更新聚类氨基酸序列的嵌入。任选地,该方法可进一步涉及在聚类氨基酸序列的嵌入上使用注意力来更新额外氨基酸序列的嵌入。可重复地进行聚类氨基酸序列以及任选地额外氨基酸序列的嵌入的更新,例如在时间上顺序地或使用顺序的神经网络层。
[0012]在第二方面,提供系统,其包括:一台或多台计算机;以及通信地连接(耦合)到一台或多台计算机的一个或多个储存设备,其中一个或多个储存设备存储指令,所述指令当由一台或多台计算机执行时使得一台或多台计算机进行包括第一方面的方法的操作(运行)的操作。
[0013]在第三方面,提供存储指令的一个或多个非暂时性计算机储存介质,所述指令当由一台或多台计算机执行时使得一台或多台计算机进行包括第一方面的方法的操作的操作。
[0014]本文中描述的方法和系统可用于获得配体诸如药物或工业酶的配体。例如,获得配体的方法可包括获得靶(目标)氨基酸序列,特别地靶蛋白质的氨基酸序列,并使用靶氨基酸序列作为氨基酸序列来进行如以上或本文中所述的计算机实施的方法,以确定靶蛋白质的(三级)结构,即预测的蛋白质结构。然后,该方法可包括评估一种或多种候选配体与靶蛋白质的结构的相互作用。该方法可进一步包括取决于相互作用的评估的结果选择所述候选配体的一种或多种作为配体。
[0015]在一些实施中,评估相互作用可包括评估候选配体与靶蛋白质的结构的结合。例如,评估相互作用可包括鉴别对于生物效应以足够亲和力结合的配体。在一些其他实施中,评估相互作用可包括评估候选配体与对靶蛋白质例如酶的功能有影响的靶蛋白质的结构的关联。评估可包括评估候选配体和靶蛋白质的结构之间的亲和力或者评估相互作用的选择性。
[0016](多个)候选配体可得自候选配体的数据库,和/或可通过对候选配体的数据库中的配体进行改变(改性)(例如通过对候选配体的结构或氨基酸序列进行改变)而得到,和/或可通过候选配体的逐步或迭代组装/优化而得到。
[0017]可使用其中对用户操作显示候选配体和靶蛋白质的结构的图形模型的计算机辅助的途径进行候选配体与靶蛋白质的结构的相互作用的评估,和/或可部分或完全地自动进行评估,例如使用标准分子(蛋白质

配体)对接软件。在一些实施中,评估可包括确定对于候选配体的相互作用分数,其中相互作用分数包括候选配体和靶蛋白质之间的相互作用
的度量。相互作用分数可取决于相互作用的强度和/或特异性,例如,分数取决于结合自由能。候选配体可取决于其分数进行选择。
[0018]在一些实施中,靶蛋白质包括受体或酶,并且配体是受体或酶的激动剂或拮抗剂。在一些实施中,该方法可用于鉴别细胞表面标记物的结构。这然后可用于鉴别结合至细胞表面标记物的配体,例如抗体或标记诸如荧光标记。这可用于鉴别和/或处理(治疗)癌细胞。
[0019]在一些实施中,(多个)候选配体可包括小分子配体,例如分子质量<900道尔顿的有机化合物。在一些其他实施中,(多个)候选配体可包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.由一个或多个数据处理装置进行的用于确定由氨基酸序列指定的蛋白质的预测的结构的方法,该方法包括:获得对于蛋白质的多序列比对;从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对,确定氨基酸对的相应的初始嵌入;使用包括多个自注意力神经网络层的成对嵌入神经网络处理氨基酸对的初始嵌入,以生成各氨基酸对的最终嵌入;以及基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构。2.根据权利要求1所述的方法,其中所述成对嵌入神经网络的各自注意力神经网络层配置为进行包括以下的操作:接收各氨基酸对的当前嵌入;以及在氨基酸对的当前嵌入上使用注意力来更新各氨基酸对的当前嵌入。3.根据权利要求2所述的方法,其中对于各氨基酸对,在氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入包括:仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入。4.根据权利要求3所述的方法,其中:自注意力神经网络层的一个或多个是行式自注意力神经网络层;以及对于各行式自注意力神经网络层,仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入包括:在氨基酸对的当前嵌入成为二维阵列的排列中,仅在位于与氨基酸对的当前嵌入相同的行中的氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入。5.根据权利要求4所述的方法,其中:自注意力神经网络层的一个或多个是列式自注意力神经网络层;以及对于各列式自注意力神经网络层,仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入包括:在氨基酸对的当前嵌入成为二维阵列的排列中,仅在位于与氨基酸对的当前嵌入相同的列中的氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入。6.根据权利要求5所述的方法,其中成对嵌入神经网络的多个自注意力神经网络层包括行式自注意力神经网络层和列式自注意力神经网络层的交替序列。7.根据权利要求1

6所述的方法,其中基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构包括:基于氨基酸对的最终嵌入来确定蛋白质的氨基酸序列中各氨基酸的相应的初始嵌入;基于氨基酸序列中各氨基酸的初始嵌入来确定蛋白质的预测的结构。8.根据权利要求1

7中任一项所述的方法,其中从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对,确定氨基酸对的相应的初始嵌入包括:将所述多序列比对分成:(i)聚类氨基酸序列的集和(ii)额外氨基酸序列的集;生成:(i)聚类氨基酸序列的集的嵌入和(ii)额外氨基酸序列的集的嵌入;使用交叉注意力神经网络处理包括:(i)聚类氨基酸序列的嵌入和(ii)额外氨基酸序列的嵌入的网络输入来更新聚类氨基酸序列的嵌入;以及
基于更新的聚类氨基酸序列的嵌入来确定氨基酸对的初始嵌入。9.根据权利要求8所述的方法,其中使用交叉注意力神经网络处理包括:(i)聚类氨基酸...

【专利技术属性】
技术研发人员:J江珀AW西尼尔RA埃文斯RJ贝茨M菲古尔诺夫A普里策尔TFG格林
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1