使用自注意力神经网络的由氨基酸序列的蛋白质结构预测制造技术

技术编号：33525192 阅读：12 留言：0更新日期：2022-05-19 01:35

包括编码在计算机储存介质上的计算机程序的方法、系统和装置，其用于确定由氨基酸序列指定的蛋白质的预测的结构。一方面，方法包括：获得对于蛋白质的多序列比对；从多序列比对中且对于蛋白质的氨基酸序列中的各氨基酸对，确定氨基酸对的相应的初始嵌入；使用包括多个自注意力神经网络层的成对嵌入神经网络处理氨基酸对的初始嵌入，以生成各氨基酸对的最终嵌入；以及基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构。定蛋白质的预测的结构。定蛋白质的预测的结构。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用自注意力神经网络的由氨基酸序列的蛋白质结构预测

技术介绍

[0001]本说明书涉及预测蛋白质结构。
[0002]蛋白质是通过氨基酸的序列指定(具体说明)的。氨基酸是包括氨基官能团和羧基官能团以及对氨基酸特异的侧链(即原子团)的有机化合物。蛋白质折叠是指氨基酸的序列折叠成三维构型的物理过程。蛋白质的结构定义在蛋白质进行蛋白质折叠后，蛋白质的氨基酸序列中原子的三维构型。当在由肽键连接的序列中时，氨基酸可称为氨基酸残基。
[0003]可使用机器学习模型进行预测。机器学习模型接收输入，并基于接收的输入生成输出(例如，预测的输出)。一些机器学习模型是参数模型，并基于接收的输入和模型的参数的值生成输出。蛋白质的结构可基于指定蛋白质的氨基酸序列来预测。
[0004]一些机器学习模型是采用多层模型来对于接收的输入生成输出的深度模型。例如，深度神经网络是深度机器学习模型，其包括输出层和一个或多个隐藏层，所述隐藏层各自将非线性变换应用到接收的输入以生成输出。

技术实现思路

[0005]本说明书描述在一个或多个位置的一台或多台计算机上作为计算机程序实施的系统，其执行蛋白质结构预测。
[0006]根据第一方面，提供由一个或多个数据处理装置进行的用于确定由氨基酸序列指定的蛋白质的预测的结构的方法。该方法包括获得对于蛋白质的多序列比对(MSA)。该方法可进一步包括从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对来确定氨基酸对的相应的初始嵌入。该方法可进一步包括使用包括多个自注意力神经网络层的成对嵌入(对嵌入，pair...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.由一个或多个数据处理装置进行的用于确定由氨基酸序列指定的蛋白质的预测的结构的方法，该方法包括：获得对于蛋白质的多序列比对；从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对，确定氨基酸对的相应的初始嵌入；使用包括多个自注意力神经网络层的成对嵌入神经网络处理氨基酸对的初始嵌入，以生成各氨基酸对的最终嵌入；以及基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构。2.根据权利要求1所述的方法，其中所述成对嵌入神经网络的各自注意力神经网络层配置为进行包括以下的操作：接收各氨基酸对的当前嵌入；以及在氨基酸对的当前嵌入上使用注意力来更新各氨基酸对的当前嵌入。3.根据权利要求2所述的方法，其中对于各氨基酸对，在氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入包括：仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入。4.根据权利要求3所述的方法，其中：自注意力神经网络层的一个或多个是行式自注意力神经网络层；以及对于各行式自注意力神经网络层，仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入包括：在氨基酸对的当前嵌入成为二维阵列的排列中，仅在位于与氨基酸对的当前嵌入相同的行中的氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入。5.根据权利要求4所述的方法，其中：自注意力神经网络层的一个或多个是列式自注意力神经网络层；以及对于各列式自注意力神经网络层，仅在氨基酸对的当前嵌入的真子集上使用注意力来更新氨基酸对的当前嵌入包括：在氨基酸对的当前嵌入成为二维阵列的排列中，仅在位于与氨基酸对的当前嵌入相同的列中的氨基酸对的当前嵌入上使用注意力来更新氨基酸对的当前嵌入。6.根据权利要求5所述的方法，其中成对嵌入神经网络的多个自注意力神经网络层包括行式自注意力神经网络层和列式自注意力神经网络层的交替序列。7.根据权利要求1
‑
6所述的方法，其中基于各氨基酸对的最终嵌入来确定蛋白质的预测的结构包括：基于氨基酸对的最终嵌入来确定蛋白质的氨基酸序列中各氨基酸的相应的初始嵌入；基于氨基酸序列中各氨基酸的初始嵌入来确定蛋白质的预测的结构。8.根据权利要求1
‑
7中任一项所述的方法，其中从多序列比对且对于蛋白质的氨基酸序列中的各氨基酸对，确定氨基酸对的相应的初始嵌入包括：将所述多序列比对分成：(i)聚类氨基酸序列的集和(ii)额外氨基酸序列的集；生成：(i)聚类氨基酸序列的集的嵌入和(ii)额外氨基酸序列的集的嵌入；使用交叉注意力神经网络处理包括：(i)聚类氨基酸序列的嵌入和(ii)额外氨基酸序列的嵌入的网络输入来更新聚类氨基酸序列的嵌入；以及
基于更新的聚类氨基酸序列的嵌入来确定氨基酸对的初始嵌入。9.根据权利要求8所述的方法，其中使用交叉注意力神经网络处理包括：(i)聚类氨基酸...

【专利技术属性】
技术研发人员：J江珀，AW西尼尔，RA埃文斯，RJ贝茨，M菲古尔诺夫，A普里策尔，TFG格林，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人