一种基于图神经网络的中和抗体设计方法技术

技术编号:37859326 阅读:8 留言:0更新日期:2023-06-15 20:49
一种基于图神经网络的中和抗体设计方法,包括以下步骤:1)构建数据集;2)将重链序列图形化表示;3)捕获框架序列信息;4)满足治疗性抗体的约束条件;5)搭建图神经网络模型;6)设置参数:邻近节点个数K、丢弃率和迭代次数,使用Adam Optimizer方法对网络权重进行优化,设定初始学习率,使用交叉熵CrossEntropyLoss作为损失函数;7)中和作用优化。本发明专利技术在设计能够中和SARS

【技术实现步骤摘要】
一种基于图神经网络的中和抗体设计方法


[0001]本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于图神经网络的中和抗体设计方法。

技术介绍

[0002]抗体是免疫系统用来识别与中和病原体的Y形蛋白质,又称为免疫球蛋白。由于其强大的特异性,抗体在治疗应用和生物学研究中显示出巨大的潜力:每种类型的抗体通常与一种独特的蛋白质结合,这种蛋白质被称为抗原。通常的计算抗体设计方法是从抗体和抗体

抗原复合物的建模开始的。选择抗体序列进行抗原结合实验测试,但这类方法往往需要对整体结构进行建模,运算量大、耗费时间长。抗体的结合特异性在很大程度上是由互补决定区CDR决定的,因此,基于抗体与抗原特异性结合位点CDR的抗体设计被提出。这种方式将抗体的计算设计简化为抗体CDR的建模与设计,并且设计的抗体需要满足结合亲和力、稳定性和可合成性约束的要求。因此,抗体设计的关键问题是确定与特定抗原结合的CDR序列。
[0003]CDR序列生成的关键问题是如何对序列及其3D结构之间的关系进行建模。生成没有相应结构的序列会导致抗体的性能不佳,而用预先给定的3D主干结构生成序列无法设计出最优抗体,因为所需抗体的结构很少是已知的。因此,开发共同设计序列和结构的模型是至关重要的。其次,只考虑在给定抗体语境序列的情况下对CDR序列的条件分布进行建模是不够的,CDR序列与其语境序列之间的结构性相互作用对序列的生成至关重要,并且需要考虑靶抗原和轻链之间的空间相互作用。抗体的设计需要结合抗体自身属性,传统上基于物理的方法专注于结合能最小化,而随着研究的深入,抗体设计的目标还包括亲和力、自然度以及对SARS

CoV

2病毒的中和作用。
[0004]综上所述,当前大多深度学习的方法将抗体设计表述为以结构为条件的序列生成任务,这导致设计出的抗体在序列复杂度和氨基酸回收率上表现不佳,从而导致无法增强SARS

CoV

2病毒抗体的中和能力。

技术实现思路

[0005]针对以上的技术问题,本专利技术提出了一种基于图神经网络的中和抗体设计方法,将抗体

抗原复合物作为输入,并将抗体设计表述为条件图翻译问题。在迭代地改进其预测的全局结构的同时,不断精调生成的CDR序列。这不仅减少了抗体序列的复杂度,而且提高了生成抗体与原始抗体的结构相似度,以及中和抗体的中和能力。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种基于图神经网络的中和抗体设计方法,所述方法包括以下步骤:
[0008]1)构建数据集,过程如下:
[0009]1.1)从SabDab结构抗体数据库中下载n个复合物结构并删除其他缺少抗原的结构,构建数据集DATA1,所有选定的复合物在IMGT抗体编号系统下重新编号,采用BLOSUM替
换矩阵计算序列相似度,以设定百分比为上限,使用MMseqs2对所有抗体重链的互补决定区CDR

H3序列进行聚类,并按照设定比例划分训练集、验证集和测试集;
[0010]1.2)从CoVAbDab数据库中下载m个冠状病毒抗体重链序列,并从中挑出能够中和冠状病毒(SARS

CoV

1or SARS

CoV

2)的序列,构建数据集DATRA2。按照相同方法对CDR

H3序列聚类并以相同的比例划分训练集、验证集和测试集;
[0011]2)将重链序列图形化表示;
[0012]3)捕获框架序列信息;
[0013]4)满足治疗性抗体的约束条件:
[0014]4.1)CDR

H3序列的净电荷必须在

2.0到2.0之间。
[0015]4.2)不能含有易于糖基化的N

X

S/T基序;
[0016]5)搭建图神经网络模型;
[0017]6)设置参数:邻近节点个数K、丢弃率和迭代次数,使用Adam Optimizer方法对网络权重进行优化,设定初始学习率,使用交叉熵CrossEntropyLoss作为损失函数;
[0018]7)中和作用优化:将中和优化任务表示为一个优化问题,设ξ是中和作用的指示器,中和作用优化目的是学习条件生成模型P
θ
(s

|b
l,r
(s))以最大化抗体的中和
[0019]概率,公式如下:
[0020][0021]使用数据集DATA2,对于训练集中的每条抗体重链序列,使用步骤5)构建的网络模型生成20条新的CDR

H3序列,并作为中和预测器的输入,如果新生成的序列s

满足所有的步骤4)所描述的CDR序列约束条件,则中和分数等于否则分数与原始序列相同;如果生成的序列s

被预测为中和抗体,则将该序列加入到训练集中,最后,从中抽取了一批中和抗体序列,最小化其序列预测损失来更新模型参数,迭代设定次数,每次迭代时,使用验证集和测试集中的重链序列验证和测试当下模型的性能。
[0022]进一步,所述步骤2)中,节点特征为边特征为对于残基i,采用两种角度作为节点特征v
i
:相邻边构成的平面角α
i
,β
i
,γ
i
和相邻平面构成的二面角ψ
i
,ω
i
,其中,构成平面角的原子如下:α
i
:N
i


i

C
i
,β
i
:C
i

N
i


i
,γ
i
:Cα
i

C
i

N
i
;构成二面角的平面如下:C
i
‑1‑
N
i


i
和N
i


i

C
i
;ψ
i
:N
i


i

C
i
和Cα
i

C
i

N
i+1
;ω
i
:Cα
i

C
i

N
i+1
和C
i

N
i+1


i+1
使用以下公式构建残基i的局部坐标系
[0023][0024]对于残基j指向残基i的边,使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的中和抗体设计方法,其特征在于:所述方法包括以下步骤:1)构建数据集,过程如下:1.1)从SabDab结构抗体数据库中下载n个复合物结构并删除其他缺少抗原的结构,构建数据集DATA1,所有选定的复合物在IMGT抗体编号系统下重新编号,采用BLOSUM替换矩阵计算序列相似度,以设定百分比为上限,使用MMseqs2对所有抗体重链的互补决定区CDR

H3序列进行聚类,并按照设定比例划分训练集、验证集和测试集;1.2)从CoVAbDab数据库中下载m个冠状病毒抗体重链序列,并从中挑出能够中和冠状病毒(SARS

CoV

1or SARS

CoV

2)的序列,构建数据集DATA2,按照相同方法对CDR

H3序列聚类并以相同的比例划分训练集、验证集和测试集;2)将重链序列图形化表示;3)捕获框架序列信息;4)满足治疗性抗体的约束条件:4.1)CDR

H3序列的净电荷必须在

2.0到2.0之间;4.2)不能含有易于糖基化的N

X

S/T基序;5)搭建图神经网络模型;6)设置参数:邻近节点个数K、丢弃率和迭代次数,使用Adam Optimizer方法对网络权重进行优化,设定初始学习率,使用交叉熵CrossEntropyLoss作为损失函数;7)中和作用优化:将中和优化任务表示为一个优化问题,设ξ是中和作用的指示器,中和作用优化目的是学习条件生成模型P
θ
(s

|b
l,r
(s))以最大化抗体的中和概率,公式如下:使用数据集DATA2,对于训练集中的每条抗体重链序列,使用步骤5构建的网络模型生成20条新的CDR

H3序列,并作为中和预测器的输入,如果新生成的序列满足所有的步骤4)所描述的CDR序列约束条件,则中和分数等于否则分数与原始序列相同;如果生成的序列s

被预测为中和抗体,则将该序列加入到训练集中,最后,从中抽取了一批中和抗体序列,最小化其序列预测损失来更新模型参数,设定迭代次数,每次迭代时,使用验证集和测试集中的重链序列验证和测试当下模型的性能。2.如权利要求1所述的一种基于图神经网络的中和抗体设计方法,其特征在于:所述步骤2)中,节点特征为边特征为对于残基i,采用两种角度作为节点特征υ
i
:相邻边构成的平面角α
i
,β
i
,γ
i
和相邻平面构成的二面角ψ
i
,ω
i
,其中,构成平面角的原子如下:α
i
:N
i


i

C
i
,β
i
:C
i

N
i


i
,γ
i
:Cα
i

C
i

N
i
;构成二面角的平面如下:C
i
‑1‑
N
i


i
和N
i


i

C
i
;ψ
i
:N
i


i

C
i
和Cα
i

C
i

N
i+1
;ω
i
:Cα
i

C
i

N
i+1
和C
i

N
i+1

【专利技术属性】
技术研发人员:张贵军费自强刘栋柴瑞峰韩天煜周晓根
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1