【技术实现步骤摘要】
一种基于流模型的抗体序列结构协同设计方法
[0001]本专利技术涉及抗体序列结构预测
,更具体的说是涉及一种基于流模型的抗体序列结构协同设计方法。
技术介绍
[0002]目前,传统的机器学习方法是针对一个特定的,一般是有大量数据的数据集,试图学习出一个预测式模型或生成式模型,使得模型能够建模出数据集中的概率分布,从而得到准确的预测或是生成出符合数据集特征的样本。一种常用于生成式模型的方法,通过可逆、可微、连续的非线性变换,将具有复杂分布的数据集样本映射到具有简单分布的隐空间中,从而使得模型更好地对数据集中的概率分布进行建模。可变区是抗体结合抗原的位置,其氨基酸的组成和排列决定抗体的抗原结合特异性。可变区存在一些氨基酸能够高频变化组合的区域,这些区域被称为互补决定区(complementarity determining region,CDR区),CDR区决定了抗体的独特型(抗独特型抗体表达)。抗体设计就主要针对CDR区的氨基酸序列。进行设计。
[0003]但是,已有的机器学习多集中于预测式模型的研究上,对生成式 ...
【技术保护点】
【技术特征摘要】
1.一种基于流模型的抗体序列结构协同设计方法,其特征在于,包括以下步骤:S1、选取结构抗体数据集作为通用的抗体数据;S2、获取氨基酸序列信息及结构信息;S3、将序列信息及结构信息编码入图神经网络,对神经网络进行更新,得到氨基酸编码;S4、将氨基酸编码输入至第一流模型中进行变换,得到氨基酸类型,将预测到的氨基酸类型输入图神经网络,对其进行更新,得到新的氨基酸编码;S5、将新的氨基酸编码输入至第二流模型中进行变换,得到氨基酸的三维坐标信息;S6、将氨基酸类型及三维坐标信息与真实值做损失函数,最小化损失函数,优化生成模型参数。2.根据权利要求1所述的一种基于流模型的抗体序列结构协同设计方法,其特征在于,所述步骤S2具体包括:所述氨基酸序列信息由若干个首尾相连的氨基酸的类型构成,所述结构信息由若干个首尾相连的氨基酸的C,C
α
,N原子的三维坐标构成。3.根据权利要求1所述的一种基于流模型的抗体序列结构协同设计方法,其特征在于,所述步骤S3具体包括:建立图结构并将序列信息和结构信息编码,当获取氨基酸序列的结构信息后,用C
α
原子的三维坐标来代表其所对应的氨基酸的空间位置,每一个氨基酸视为图结构中的一个节点,在序列中相邻的氨基酸节点将以边进行连接,此外,对于每一个氨基酸而言,与其距离最近的6个氨基酸也被视为其相邻节点,用边将后六者与前者连接,完成图结构的建立后,利用结构信息和空间几何知识,求得蛋白质主链上每一个氨基酸位置的扭转角φ,ψ,ω,将正余弦处理过的扭转角信息编码为图结构中的节点特征:v
i
=(cosφ
i
,sinφ
i
,cosψ
i
,sinψ
i
,cosω
i
,sinω
i
)在图结构中两个相邻的氨基酸的空间位置都由其对应的C
α
原子的三维坐标表示,因此将欧氏距离编码为图结构中的边特征:e
ij
=(||x
i,α
‑
x
j,α
||)其中,x
i,α
为第i个氨基酸中C
α
原子的三维坐标,第j个氨基酸在图结构中与第i个氨基酸相邻;图神经网络的更新,依据上述图结构及其对应的节点和边特征,对图神经网络更新L次,每次的更新公式为:其中,为上一次更新的节点隐藏状态,E(s
j
)为与氨基酸类型相关的编码;e
i,j
为边的特征;FFN(
·
)为两层全连接网络;为20维的行向量;上述图神经网络的更新,可以得到每一个节点的隐藏状态,表述为:其中,其中,为上述构建的图结构;MPN(
·
)表示图神经网络的更新方式。4.根据权利要求1所述的一种基于流模型的抗体序列结构协同设计方法,其特征在于,所述步骤S4具体包括:
经过流模型变换预测新点的氨基酸类型,得到第t+1个氨基酸的隐藏状态对其进行16层流模型变换:其中,预测的氨基酸类型为独热编码;σ
k
,μ
k
为第k层流模型变换的可学习参数。5.根据权利要求1所述的一种基于流模型的抗体序列结构协同设计方法,其特征在于,所述步骤S5具体包括:将s
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。