一种基于深度学习的抗体结构生成方法技术

技术编号：37717100 阅读：12 留言：0更新日期：2023-06-02 00:13

本发明专利技术属于生物信息技术领域，具体涉及一种基于深度学习的抗体结构生成方法，该方法包括：获取待预测的序列数据，对该数据进行预处理；采用PCA方法对预处理后的特征序列进行分解降维处理，分解降维处理的过程包括计算序列特征的协方差矩阵，并计算出协方差矩阵的特征值；对特征值进行排序，根据排序后的特征值筛选出对应的特征向量，将筛选出的特征作为分解降维后的序列特征；将分解降维后的序列数据输入到训练好的改进神经网络模型中，得到抗体结构预测结果；本发明专利技术针对抗体结构，对每一个氨基酸提取所有重原子信息作为标签使用，能够更精确的表达抗体的空间结构。精确的表达抗体的空间结构。精确的表达抗体的空间结构。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的抗体结构生成方法

[0001]本专利技术属于生物信息
，具体涉及一种基于深度学习的抗体结构生成方法。

技术介绍

[0002]抗体(Antibody)是在体液免疫中起关键作用的蛋白质。抗体的结构由两条重(H)和两条轻(L)多肽链组成。它们的主要功能是以高亲和力和特异性结合外来入侵者，抗体的产生是为了介导针对外来病原体的免疫反应，作为适应免疫的一部分。随着人工智能(Artificial Intelligence，AI)技术，特别是深度学习(Deep Learning，DL)技术的发展和抗体结构数据的积累，基于深度学习的抗体结构预测已经取得了巨大的进展。在药物发现和蛋白质工程中，一个主要目的是设计一种能够作为治疗药物发挥有用功能的抗体，这要求对抗体结构进行解析，传统方法对抗体进行解析，费时，费力，且非常昂贵。在计算机视觉和自然语言处理等领域取得成果的推动下，近年来深度学习技术在抗体领域得到了广泛的应用。
[0003]一个抗体单体由两条重链(H)和两条轻链(L)组成，重链和轻链结合在一起，形成“Y”形结构。它们具有一个NH2末端可变区或抗原结合片段(Fab)和一个COOH恒定区或可结晶片段(Fc)，结构的不同部分具有不同的功能。可变区决定了抗体的独特型，并且对病原体抗原具有亲和力。恒定区执行其他免疫相关功能，例如补体结合、巨噬细胞结合，研究中可用同位素标记该抗体。
[0004]抗体的抗原结合位点存在于Fab区，主要由六个互补决定区(CDR)组成：重链和轻链各三个。由于抗体合成过程中产生...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的抗体结构生成方法，其特征在于，包括：获取待预测的序列数据，对该数据进行预处理；将预处理后的序列数据输入到训练好的改进神经网络模型中，得到预测的抗体结构；根据预测的抗体结构构建抗体；改进神经网络模型维改进的ResNet
‑
RCCA模型；对改进神经网络模型进行训练的过程包括：S1：获取原始抗体数据集，其中原始抗体数据为抗体的序列信息，包括抗体一级结构、抗体二级结构以及抗体三级结构；S2：将原始抗体数据集中的抗体序列信息转化为矩阵数据，并将矩阵数据作为序列特征；获取抗体结构的原子坐标信息，并将该信息作为结构标签；S3：采用PCA方法对序列特征进行分解降维处理；S4：将结构标签和分解降维后的序列特征输入到改进后的ResNet
‑
RCCA模型中，得到抗体结构预测结果；S5：根据抗体结构预测结果计算模型的损失函数，不断调整模型参数，方损失函数最小时完成模型训练。2.根据权利要求1所述的一种基于深度学习的抗体结构生成方法，其特征在于，将原始抗体数据集中的抗体序列信息转化为矩阵数据的过程包括：将抗体序列信息输入到预训练的蛋白质语义模型ESM
‑
1B中，得到具有抗体序列信息的矩阵数据，其中蛋白质语义模型ESM
‑
1B为以蛋白质序列作为输入，经过超参数优化训练的高模型容量的Transformer模型。3.根据权利要求1所述的一种基于深度学习的抗体结构生成方法，其特征在于，采用PCA方法对序列特征进行分解降维处理的过程包括：计算序列特征的协方差矩阵，并对协方差矩阵做特征值分解，求得其特征值和特征向量，并将特征值从大到小排序；根据排序后的特征值筛选出对应的特征向量，将筛选出的特征作为分解降维后的序列特征。4.根据权利要求1所述的一种基于深度学习的抗体结构生成方法，其特征在于，改进后的...

【专利技术属性】
技术研发人员：周文，舒坤贤，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人