【技术实现步骤摘要】
一种基于图神经网络的中和抗体设计方法
[0001]本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于图神经网络的中和抗体设计方法。
技术介绍
[0002]抗体是免疫系统用来识别与中和病原体的Y形蛋白质,又称为免疫球蛋白。由于其强大的特异性,抗体在治疗应用和生物学研究中显示出巨大的潜力:每种类型的抗体通常与一种独特的蛋白质结合,这种蛋白质被称为抗原。通常的计算抗体设计方法是从抗体和抗体
‑
抗原复合物的建模开始的。选择抗体序列进行抗原结合实验测试,但这类方法往往需要对整体结构进行建模,运算量大、耗费时间长。抗体的结合特异性在很大程度上是由互补决定区CDR决定的,因此,基于抗体与抗原特异性结合位点CDR的抗体设计被提出。这种方式将抗体的计算设计简化为抗体CDR的建模与设计,并且设计的抗体需要满足结合亲和力、稳定性和可合成性约束的要求。因此,抗体设计的关键问题是确定与特定抗原结合的CDR序列。
[0003]CDR序列生成的关键问题是如何对序列及其3D结构之间的关系进行建模。生成没有相应结构的序列会导致抗体的性能不佳,而用预先给定的3D主干结构生成序列无法设计出最优抗体,因为所需抗体的结构很少是已知的。因此,开发共同设计序列和结构的模型是至关重要的。其次,只考虑在给定抗体语境序列的情况下对CDR序列的条件分布进行建模是不够的,CDR序列与其语境序列之间的结构性相互作用对序列的生成至关重要,并且需要考虑靶抗原和轻链之间的空间相互作用。抗体的设计需要结合抗体自身属性,传统上基于物理的方法专注于 ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络的中和抗体设计方法,其特征在于:所述方法包括以下步骤:1)构建数据集,过程如下:1.1)从SabDab结构抗体数据库中下载n个复合物结构并删除其他缺少抗原的结构,构建数据集DATA1,所有选定的复合物在IMGT抗体编号系统下重新编号,采用BLOSUM替换矩阵计算序列相似度,以设定百分比为上限,使用MMseqs2对所有抗体重链的互补决定区CDR
‑
H3序列进行聚类,并按照设定比例划分训练集、验证集和测试集;1.2)从CoVAbDab数据库中下载m个冠状病毒抗体重链序列,并从中挑出能够中和冠状病毒(SARS
‑
CoV
‑
1or SARS
‑
CoV
‑
2)的序列,构建数据集DATA2,按照相同方法对CDR
‑
H3序列聚类并以相同的比例划分训练集、验证集和测试集;2)将重链序列图形化表示;3)捕获框架序列信息;4)满足治疗性抗体的约束条件:4.1)CDR
‑
H3序列的净电荷必须在
‑
2.0到2.0之间;4.2)不能含有易于糖基化的N
‑
X
‑
S/T基序;5)搭建图神经网络模型;6)设置参数:邻近节点个数K、丢弃率和迭代次数,使用Adam Optimizer方法对网络权重进行优化,设定初始学习率,使用交叉熵CrossEntropyLoss作为损失函数;7)中和作用优化:将中和优化任务表示为一个优化问题,设ξ是中和作用的指示器,中和作用优化目的是学习条件生成模型P
θ
(s
′
|b
l,r
(s))以最大化抗体的中和概率,公式如下:使用数据集DATA2,对于训练集中的每条抗体重链序列,使用步骤5构建的网络模型生成20条新的CDR
‑
H3序列,并作为中和预测器的输入,如果新生成的序列满足所有的步骤4)所描述的CDR序列约束条件,则中和分数等于否则分数与原始序列相同;如果生成的序列s
′
被预测为中和抗体,则将该序列加入到训练集中,最后,从中抽取了一批中和抗体序列,最小化其序列预测损失来更新模型参数,设定迭代次数,每次迭代时,使用验证集和测试集中的重链序列验证和测试当下模型的性能。2.如权利要求1所述的一种基于图神经网络的中和抗体设计方法,其特征在于:所述步骤2)中,节点特征为边特征为对于残基i,采用两种角度作为节点特征υ
i
:相邻边构成的平面角α
i
,β
i
,γ
i
和相邻平面构成的二面角ψ
i
,ω
i
,其中,构成平面角的原子如下:α
i
:N
i
‑
Cα
i
‑
C
i
,β
i
:C
i
‑
N
i
‑
Cα
i
,γ
i
:Cα
i
‑
C
i
‑
N
i
;构成二面角的平面如下:C
i
‑1‑
N
i
‑
Cα
i
和N
i
‑
Cα
i
‑
C
i
;ψ
i
:N
i
‑
Cα
i
‑
C
i
和Cα
i
‑
C
i
‑
N
i+1
;ω
i
:Cα
i
‑
C
i
‑
N
i+1
和C
i
‑
N
i+1
‑
【专利技术属性】
技术研发人员:张贵军,费自强,刘栋,柴瑞峰,韩天煜,周晓根,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。