一种设计人源化抗体序列的方法技术

技术编号：39639473 阅读：4 留言：0更新日期：2023-12-09 11:02

本说明书实施例提供一种设计人源化抗体序列的方法，该方法包括确定初始抗体的可变区和

全部详细技术资料下载

【技术实现步骤摘要】
一种设计人源化抗体序列的方法
交叉引用
[0001]本专利技术要求
2022
年9月9日提交的申请号为
202211101597.X
的中国专利申请的优先权，其全部内容通过引用并入本文
。

[0002]本说明书涉及抗体工程领域，特别涉及一种设计人源化抗体序列的方法
。

技术介绍

[0003]抗体可以特异性识别抗原，广泛应用于生物制药和免疫治疗领域，例如癌症治疗
、
免疫调节疾病治疗和传染病治疗等
。
抗体的安全性是影响抗体应用的最重要的因素之一
。
非人源抗体的免疫原性不仅造成抗体药安全性下降，同时刺激机体产生中和抗体，导致抗体活性丧失
。
因此，在实际应用中，可以对非人源抗体进行人源化处理来改造抗体序列，使其更加接近人类的抗体序列，从而降低抗体的免疫原性，提升抗体药物的安全性
。
具体地，抗体人源化是指通过将非人源的抗体的部分序列用人源的抗体序列进行替换，使其序列更像人源抗体序列且免疫原性下降或消除的过程
。
目前，抗体人源化主要包括如下方法：嵌合法
、CDR
移植
、SDR
移植
、
重铺法
、
基于
CDR
或
SDR
移植的生殖细胞谱系人源化等
。
传统的抗体人源化处理主要依靠人工操作，例如基于经验的理性设计和回复突变位点分析
。r/>这样的方式非常依赖于研究者的经验和知识水平，且设计出来的人源化抗体序列的成功率有限，若获得的人源化抗体的亲和力不满足要求，还需重新进行分析和设计人源化抗体序列，会耗费大量时间和精力
。
因此，有必要提供一种更高效的设计人源化抗体序列的方法
。

技术实现思路

[0004]本说明书一个或多个实施例提供一种设计人源化抗体序列的方法
。
所述方法包括：对初始抗体的序列进行分析，以确定所述初始抗体的可变区和
CDR
区；基于所述初始抗体的所述可变区的序列，从含有多个人源可变区序列的数据库中获取人源可变区序列模板；将所述人源可变区序列模板中的
CDR
区的序列替换为所述初始抗体的
CDR
区的序列，以获得目标可变区序列模板；基于所述目标可变区序列模板，使用遗传算法执行迭代模拟进化，确定多个候选可变区序列；基于所述多个候选可变区序列，确定多个候选人源化抗体序列和
/
或多个候选人源化抗体功能片段序列；从所述多个候选人源化抗体序列和
/
或多个候选人源化抗体功能片段序列中确定一个或多个目标人源化抗体序列和
/
或目标人源化抗体功能片段序列
。
[0005]在一些实施例中，所述基于所述目标可变区序列模板，使用遗传算法执行迭代模拟进化，确定多个候选可变区序列包括：基于所述目标可变区序列模板，按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变，得到多个初始可变区序列；使用训练后的深度森林模型预测所述多个初始可变区序列中每个初始可变区序列的人源化概率；基于所述多个初始可变区序列和所述人源化概率，使用所述遗传算法执行迭代模拟进化，确
定多个候选可变区序列
。
[0006]在一些实施例中，所述基于所述多个初始可变区序列和所述人源化概率，使用所述遗传算法执行迭代模拟进化，确定多个候选可变区序列包括：对于所述多个初始可变区序列中的每个初始可变区序列，确定所述初始可变区序列与所述目标可变区序列模板之间的距离，并基于所述初始可变区序列与所述目标可变区序列模板之间的距离和所述初始可变区序列的人源化概率，确定所述初始可变区序列的个体适应度；基于所述多个初始可变区序列和所述个体适应度，执行迭代模拟进化，确定多个候选可变区序列
。
[0007]在一些实施例中，所述个体适应度是使用
NGSA
‑
II
算法或其衍生算法而确定的
。
[0008]在一些实施例中，所述目标可变区序列模板包括目标重链可变区序列模板和目标轻链可变区序列模板，并且所述多个候选可变区序列包括多个候选重链可变区序列和多个候选轻链可变区序列
。
[0009]在一些实施例中，所述基于所述目标可变区序列模板，按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变，得到多个初始可变区序列包括：基于所述目标可变区序列模板中对应于第一可变区的第一可变区序列模板，按照所述预设突变概率对所述第一可变区序列模板的骨架区执行模拟突变，获得对应于所述第一可变区的多个初始群体，其中所述多个初始群体中的每个初始群体包括对应于所述第一可变区的所述多个初始可变区序列，所述第一可变区为重链可变区或轻链可变区
。
[0010]在一些实施例中，所述迭代模拟进化中的每个模拟进化操作包括：基于所述对应于所述第一可变区的所述多个初始可变区序列中每个初始可变区序列的所述个体适应度，从所述多个初始可变区序列中选定多个初始可变区序列作为多个第一序列；保留所述多个初始群体中的所述多个第一序列，去掉所述多个初始群体中未被选定的初始可变区序列，以获得多个第一群体；在所述多个第一群体之间执行模拟迁移，获得多个第二群体，所述多个第二群体中每个第二群体包括多个第二序列；对所述多个第二群体中的所述多个第二序列执行模拟交叉和模拟变异，得到多个第三群体，所述多个第三群体中的每个第三群体包括多个第三序列；从所述多个第三序列中确定一个或多个第一候选可变区序列
。
[0011]在一些实施例中，所述迭代模拟进化的终止条件包括以下条件中的至少一项：所述迭代模拟进化的总轮数大于或等于第一阈值；所述迭代模拟进化得到的第一候选可变区序列的总数大于或等于第二阈值；本轮模拟进化操作得到的所述一个或多个第一候选可变区序列的多样性小于或等于第三阈值；本轮模拟进化操作中得到的第一候选可变区序列与上一轮模拟进化操作中得到的第一候选可变区序列的平均相似度大于或等于第四阈值
。
[0012]在一些实施例中，所述第一可变区序列模板包括第一模板和
/
或第二模板，其中所述第一模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的骨架区的序列相似度最高的人源可变区序列，第二模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的全序列的相似度最高的人源可变区序列
。
[0013]在一些实施例中，所述第一可变区序列模板包括第一模板和第二模板；所述多个初始群体包括基于所述第一模板执行模拟突变获得的多个第一初始群体和基于所述第二模板执行模拟突变获得的多个第二初始群体；所述多个第一群体包括从所述第一初始群体中保留所述第一序列而获得的多个第一保留群体，以及从所述第二初始群体中保留所述第
一序列而获得的多个第二本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种设计人源化抗体序列的方法，其特征在于，所述方法包括：对初始抗体的序列进行分析，以确定所述初始抗体的可变区和
CDR
区；基于所述初始抗体的所述可变区的序列，从含有多个人源可变区序列的数据库中获取人源可变区序列模板；将所述人源可变区序列模板中的
CDR
区的序列替换为所述初始抗体的
CDR
区的序列，以获得目标可变区序列模板；基于所述目标可变区序列模板，使用遗传算法执行迭代模拟进化，确定多个候选可变区序列；基于所述多个候选可变区序列，确定多个候选人源化抗体序列和
/
或多个候选人源化抗体功能片段序列；从所述多个候选人源化抗体序列和
/
或多个候选人源化抗体功能片段序列中确定一个或多个目标人源化抗体序列和
/
或目标人源化抗体功能片段序列
。2.
如权利要求1所述的方法，其特征在于，所述基于所述目标可变区序列模板，使用遗传算法执行迭代模拟进化，确定多个候选可变区序列包括：基于所述目标可变区序列模板，按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变，得到多个初始可变区序列；使用训练后的深度森林模型预测所述多个初始可变区序列中每个初始可变区序列的人源化概率；基于所述多个初始可变区序列和所述人源化概率，使用所述遗传算法执行迭代模拟进化，确定多个候选可变区序列
。3.
如权利要求2所述的方法，其特征在于，所述基于所述多个初始可变区序列和所述人源化概率，使用所述遗传算法执行迭代模拟进化，确定多个候选可变区序列包括：对于所述多个初始可变区序列中的每个初始可变区序列，确定所述初始可变区序列与所述目标可变区序列模板之间的距离，并基于所述初始可变区序列与所述目标可变区序列模板之间的距离和所述初始可变区序列的人源化概率，确定所述初始可变区序列的个体适应度；基于所述多个初始可变区序列和所述个体适应度，执行迭代模拟进化，确定多个候选可变区序列
。4.
如权利要求3所述的方法，其特征在于，所述个体适应度是使用
NGSA
‑
II
算法或其衍生算法而确定的
。5.
如权利要求3所述的方法，其特征在于，所述目标可变区序列模板包括目标重链可变区序列模板和目标轻链可变区序列模板，并且所述多个候选可变区序列包括多个候选重链可变区序列和多个候选轻链可变区序列
。6.
如权利要求5所述的方法，其特征在于，所述基于所述目标可变区序列模板，按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变，得到多个初始可变区序列包括：基于所述目标可变区序列模板中对应于第一可变区的第一可变区序列模板，按照所述预设突变概率对所述第一可变区序列模板的骨架区执行模拟突变，获得对应于所述第一可变区的多个初始群体，其中所述多个初始群体中的每个初始群体包括对应于所述第一可变
区的所述多个初始可变区序列，所述第一可变区为重链可变区或轻链可变区
。7.
如权利要求6所述的方法，其特征在于，所述迭代模拟进化中的每个模拟进化操作包括：基于所述对应于所述第一可变区的所述多个初始可变区序列中每个初始可变区序列的所述个体适应度，从所述多个初始可变区序列中选定多个初始可变区序列作为多个第一序列；保留所述多个初始群体中的所述多个第一序列，去掉所述多个初始群体中未被选定的初始可变区序列，以获得多个第一群体；在所述多个第一群体之间执行模拟迁移，获得多个第二群体，所述多个第二群体中每个第二群体包括多个第二序列；对所述多个第二群体中的所述多个第二序列执行模拟交叉和模拟变异，得到多个第三群体，所述多个第三群体中的每个第三群体包括多个第三序列；从所述多个第三序列中确定一个或多个第一候选可变区序列
。8.
如权利要求7所述的方法，其特征在于，所述迭代模拟进化的终止条件包括以下条件中的至少一项：所述迭代模拟进化的总轮数大于或等于第一阈值；所述迭代模拟进化得到的第一候选可变区序列的总数大于或等于第二阈值；本轮模拟进化操作得到的所述一个或多个第一候选可变区序列的多样性小于或等于第三阈值；本轮模拟进化操作中得到的第一候选可变区序列与上一轮模拟进化操作中得到的第一候选可变区序列的平均相似度大于或等于第四阈值
。9.
如权利要求7所述的方法，其特征在于，所述第一可变区序列模板包括第一模板和
/
或第二模板，其中所述第一模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的骨架区的序列相似度最高的人源可变区序列，第二模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的全序列的相似度最高的人源可变区序列
。10.
如权利要求9所述的方法，其特征在于：所述第一可变区序列模板包括第一模板和第二模板；所述多个初始群体包括基于所述第一模板执行模拟突变获得的多个第一初始群体和基于所述第二模板执行模拟突变获得的多个第二初始群体；所述多个第一群体包括从所述第一初始群体中保留所述第一序列而获得的多个第一保留群体，以及从所述第二初始群体中保留所述第一序列而获得的多个第二保留群体
。11.
如权利要求
10
所述的方法，其特征在于，所述在所述多个第一群体之间执行模拟迁移，获得多个第二群体，包括：在所述多个第一保留群体之间执行模拟迁移
、
在所述多个第二保留群体之间执行模拟迁移以及在所述第一保留群体和所述第二保留群体之间执行模拟迁移，得到所述多个第二群体
。12.
如权利要求2所述的方法，其特征在于，所述训练后的深度森林模型是通过以下步骤得到的：
获取对应于所述第一可变区的多个训练样本，其中所述多个训练样本中的每个训练样本包括人源或非人源可变区序列及标签，所述标签指示所述样本可变区序列是人源或者非人源，所述样本可变区序列经过长度标准化处理；使用所述多个训练样本，对初始深度森林模型进行训练，得到训练后的深度森林模型
。13.
如权利要求5所述的方法，其特征在于，所述基于所述多个候选可变区序列，确定多个候选人源化抗体序列和
/
或多个候选人源化抗体功能片段序列，包括：从所述多个候选重链可变区序列中确定多个选定的候选重链可变区序列；从所述多个候选轻链可变区序列中确定多个选定的候选轻链可变区序列；基于所述多个选定的候选重链可变区序列和多个选定的候选轻链可变区序列，确定所述多个候选人源化抗体序列和
/
或多个候选人源化抗体功能片段序列
。14.
如权利要求1所述的方法，其特征在于，所述对所述初始抗体的序列进行序列分析，以确定所述初始抗体的序列中的可变区和
CDR
区，包括：对所述初始抗体的序列进行序列分析，以确定所述初始抗体的重链可变区
、
轻链可变区
、
重链
CDR
区和轻链
CDR
区；对所述重链可变区的序列进行长度标准化处理；对所述轻链可变区的序列进行长度标准化处理
。15.
一种设计人源化抗体序列的方法，其特征在于，所述方法包括：对初始抗体的序列进行分析，以确定所述初始抗体的可变区和
CDR
区；基于所述初始抗体的所述可变区的序列，从含有多个人源可变区序列的数据库中获取人源可变区序列模板；将所述人源可变区序列模板中的
CDR
区的序列替换为所述初始抗体的
CDR
区的序列，以获得目标可变区序列模板；基于所述目标可变区序列模板，基于预设突变概率，对所述目标可变区序列模板的骨架区执行模拟突变，获得多个初始可变区序列；使用训练后的深度森林模型，对所述多个初始可变区序列中每个初始可变区序列的人源化概率进行预测；基于所述多个初始可变区序列和所述人源化概率，确定多个候选人源化抗体序列和
/
或多个候选人源化抗体功能片段序列；从所述多个候选人源化抗体序列或其功能片段中确定一个或多个目标人源化抗体序列和
/
或目标人源化抗体功能...

【专利技术属性】
技术研发人员：樊隆，贺玉卓，郝小虎，李根，丁莉丹，
申请(专利权)人：上海金斯康生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人