一种基于集成学习的抗原抗体结合亲和力预测方法和系统技术方案

技术编号：41130957 阅读：2 留言：0更新日期：2024-04-30 18:00

本发明专利技术公开了一种基于集成学习的抗原抗体结合亲和力预测方法，包括：获取多个待预测结合亲和力的抗原‑抗体复合物，每个复合物具有多个序列，所有抗原‑抗体复合物的所有序列构成序列集合；将多个抗原‑抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT，以获取每个抗原‑抗体复合物的多个序列对应的全局语义特征，该抗原‑抗体复合物的所有序列对应的所有全局语义特征构成该抗原‑抗体复合物的全局语义特征集合；为每个抗原‑抗体复合物构建残基特征矩阵，所有残基特征矩阵构成残基特征矩阵集合；将全局语义特征集合和残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中，以获取每对抗原抗体结合亲和力的预测值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物医药，更具体地，涉及一种基于集成学习的抗原抗体结合亲和力预测方法和系统。

技术介绍

1、抗原抗体结合亲和力预测对于新药研发、免疫诊断和治疗、生物工程和蛋白工程以及疾病研究和治疗等领域具有重要意义。抗原抗体的结合机制是一种高度特异性的蛋白质相互作用，通常使用结合亲和力来衡量这种相互作用的强度和有效性。准确预测抗原抗体的结合亲和力有助于研究人员理解疾病机理、研究疾病标志物并开发相应的治疗策略。例如在癌症治疗中，利用抗原抗体结合亲和力来设计和筛选具有更强抗肿瘤活性的抗体药物。

2、由于抗原抗体的结合取决于抗体的互补决定区和抗原的表位之间的互补性相互作用，而传统测量方法的实验要求严苛且成本高昂，新兴生物信息技术的发展为抗原抗体结合亲和力的预测提供了新的途径。目前关于抗原-抗体结合亲和力预测的研究主要包括两种方法，一种是基于能量函数的方法，其使用分子对接预测抗原与抗体的最佳结合模式，然后通过分子力学力场和能量评分函数来计算结合亲和力；另一种是基于经典机器学习的方法，其通过对抗原与抗体相互作用的界面建模来预测结合亲和力。

3、然而，上述两种方法均存在一些不可忽略的缺陷：

4、第一、这两种方法预测亲和力均需要用到抗原与抗体的结构信息，然而，现有的抗原和抗体的结构数据相对较少，导致模型容易出现过拟合问题，尤其是基于能量函数的方法对抗原和抗体的结构高度依赖，极易受到蛋白质结构动态变化的干扰，因此这些方法在未见过的数据集上的预测效果均不佳，即泛化性较差。

5、第二、这两种方法均忽略了

6、第三、基于经典机器学习的方法只从界面氨基酸中提取特征，而忽略了非界面氨基酸对抗原和抗体的结合同样具有影响，导致模型的预测精度较低。

技术实现思路

1、针对现有技术的以上缺陷或改进需求，本专利技术提供了一种基于集成学习的抗原抗体结合亲和力预测方法和系统，其目的在于，解决现有基于能量函数的方法和基于经典机器学习的方法由于依赖抗原和抗体的结构信息，导致抗原抗体结合亲和力预测模型难以泛化的技术问题；以及现有基于能量函数的方法和基于经典机器学习的方法由于忽略了抗原和抗体序列中蕴含的语义信息，导致抗原抗体结合亲和力预测模型无法学习到序列的保守区域、远程相互作用等重要信息的技术问题；以及现有基于经典机器学习的方法由于只处理界面氨基酸信息而忽略了非界面氨基酸对结合同样具有影响，导致抗原抗体结合亲和力预测模型精度不高的技术问题。

2、为实现上述目的，按照本专利技术的一个方面，提供了一种基于集成学习的抗原抗体结合亲和力预测方法，包括：

3、(1)获取多个待预测结合亲和力的抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合。

4、(2)将步骤(1)获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinbert，以获取每个抗原-抗体复合物的多个序列对应的全局语义特征，该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合，其中每条序列对应的全局语义特征以一个768维的向量表示；

5、(3)为步骤(1)获取的每个抗原-抗体复合物构建残基特征矩阵，所有残基特征矩阵构成残基特征矩阵集合；

6、(4)将步骤(2)中获取的全局语义特征集合、以及步骤(3)中获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中，以获取每对抗原抗体结合亲和力的预测值。

7、优选地，步骤(1)具体为，首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(其是以fasta格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；然后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

8、优选地，步骤(3)具体为，首先，从aaindex数据库中获取表示20种氨基酸性质的特征，其中每种氨基酸有103个特征；然后，针对每种特征而言，对该特征对应的20种氨基酸的特征值进行最大值最小值归一化处理，以获取归一化后的特征；随后，针对步骤(1)获取的每个抗原-抗体复合物的序列集合中的每条序列而言，将其所有位点对应的所有归一化后的特征进行拼接，以获取该序列的残基特征矩阵；最后，将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接并规整到同一大小，以获取该抗原-抗体复合物的残基特征矩阵，所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。

9、对于第i个抗原-抗体复合物而言，将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接，以获取该抗原-抗体复合物的残基特征矩阵，这一过程为：

10、mi＝[ali，ahi，agi]

11、其中，i∈[1，步骤(1)获取的抗原-抗体复合物总数]，表示第i个抗原-抗体复合物的残基特征矩阵，分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原链序列的残基特征矩阵，pi、qi、ri分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原序列所含氨基酸的个数，ni表示第i个抗原-抗体复合物所含氨基酸个数的总和，且有ni＝pi+qi+ri。然后将该残基特征矩阵规整到固定大小(对于ni＜512的特征矩阵，使用零填充将其填充到大小为512×103，对于ni＞512的特征矩阵，将其裁剪到大小为512×103)；最终每个抗原-抗体复合物的残基特征矩阵大小均为512×103。

12、优选地，抗原抗体结合亲和力预测模型包含依次连接的卷积模块、多层感知机模块、以及集成部分；

13、卷积模块包括依次连接的特征融合部分、二维卷积层、两个一维卷积层、最大池化层和全连接层，每个部分的具体结构为：

14、特征融合部分的输入是每个抗原-抗体复合物包含的所有序列的全局语义特征，即3个768维的向量，其首先对抗体轻、重链序列的全局语义特征在第一、二个维度上进行升维，然后对抗原序列的全局语义特征在第一、三个维度上进行升维，随后分别对抗体轻链序列和抗原序列、抗体重链序列和抗原序列进行取绝对值、相乘的融合操作，得到4个大小为1×768×768的张量，其后对这4个张量进行拼接，输出是大小为4×768×768的抗原-抗体复合物的语义特征张量；

15、二维卷积层的输入为特征融合部分输出的大小为4×768×768的语义特征张量，其对该语义特征张量先后进行卷积压缩和激活处理，输出大小为1×768×768的中间特征张量；

16、第一个一维卷积层的输入为二维卷积层输出的大小为1×768×768的中间特征张量，其对该中间特征张量先后进行卷积降本文档来自技高网...

【技术保护点】

1.一种基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，步骤(1)具体为，首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(其是以FASTA格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；然后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

3.根据权利要求1或2所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

4.根据权利要求1至3中任意一项所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

5.根据权利要求4所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，抗原抗体结合亲和力预测模型是通过以下步骤训练获取的：

6.根据权利要求5所述的基于集成学习的抗

7.根据权利要求6所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，步骤(4-2)具体为，首先，对于第i个抗原-抗体复合物，从全局语义特征集合中获取其抗体轻、重链序列和抗原序列；然后，将其抗体轻链序列的全局语义特征在第1个维度和第2个维度上进行升维，得到大小为1×1×768的张量Ali；随后将其抗原序列的全局语义特征在第1个维度和第3个维度上进行升维，得到大小为1×768×1的张量Agi；其后将Ali和Agi依次进行取差值绝对值和相乘计算，得到和两个中间特征张量，这一过程具体为：

8.根据权利要求7所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

9.根据权利要求8所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

10.一种基于集成学习的抗原抗体结合亲和力预测系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，步骤(1)具体为，首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(其是以fasta格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；然后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

3.根据权利要求1或2所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

4.根据权利要求1至3中任意一项所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

5.根据权利要求4所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，抗原抗体结合亲和力预测模型是通过以下步骤训练获取的：

6.根据权利要求5所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，步骤(4-1)中获取多个抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合这一过程具体为，首先，从开源的结构抗体数据库sabdab中下载多个标注了结合亲和力标签的原始抗原-抗体复合物数据条目；然后，从这些原始抗原-抗体复合物数据条目中筛选出由蛋白质或多肽组...

【专利技术属性】
技术研发人员：李明慧，什瑶，胡胜山，郭培金，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人