用于对抗体进行分类的系统和方法技术方案

技术编号：31612946 阅读：48 留言：0更新日期：2021-12-29 18:44

本公开描述了用于作出预测以对如抗体等结合蛋白的一种或多种性质，例如抗体对抗原的亲和力或特异性进行分类的系统和方法。所述系统可以包含一个或多个机器学习模型，所述机器学习模型可以推断氨基酸序列与功能之间的复杂关系。所述系统可以利用通过两步单位点和组合深度突变扫描方法生成的高质量训练数据进行训练。然后，经过训练的模型可以对在计算机中生成的新变体序列进行预测。本公开描述了由所提供的系统和方法生成的氨基酸序列，以及所生成的序列用于产生用于治疗和诊断用途的蛋白质的用途。白质的用途。白质的用途。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于对抗体进行分类的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求于2019年4月9日提交的美国临时专利申请第62/831,663号的优先权，所述美国临时专利申请通过引用以其全文并入本文。

技术介绍

[0003]在抗体药物发现中，噬菌体或酵母展示文库的筛选是鉴定治疗性抗体的标准实践，并且通常会产生许多潜在的前导变体候选物。然而，与前导候选物优化相关的时间和成本通常占据药物临床前发现和开发周期的大部分。这主要是因为抗体分子的前导优化通常包含并行处理多个参数，包含表达水平、粘度、药代动力学、溶解度和免疫原性。一旦发现前导候选物，通常需要另外的工程化。几乎所有治疗性抗体都需要在哺乳动物细胞中表达为全长IgG，这一事实也意味着剩余的开发和优化步骤必须在此背景下进行。由于哺乳动物细胞缺乏稳定复制质粒的能力，所以此最后一个发展阶段是在低通量下完成的，因为必须实施详尽的克隆、转染和纯化策略来筛选最大范围为约103个抗体分子的文库。这可能导致仅筛选微小的变化(例如，单点突变)。查询蛋白质序列空间的这么一小部分还意味着解决一个开发问题经常会导致另一个问题的出现或甚至完全降低抗原结合性，从而使多参数优化具有挑战性。

技术实现思路

[0004]本文提供了用于对结合蛋白的氨基酸序列进行分类的系统和方法，所述结合蛋白包含例如与抗原结合的抗体或与配体结合的受体。在一些实施例中，本文提供的方法将定向进化与机器学习相组合以基于输入氨基酸序列开发新蛋白质。在一些实施例中，所提供的方法可以鉴定改善所述结合蛋白的一种或多种性质的...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，其包括：提供表示抗原结合分子的抗原结合部分的输入氨基酸序列；生成包括第一多个变体序列的第一训练数据集，所述第一多个变体序列中的每个变体序列在所述抗原结合分子的所述输入氨基酸序列中包括单位点突变；生成包括第二多个序列的第二训练数据集，所述第二多个序列中的每个序列在基于包括所述第一多个变体序列的所述第一训练数据集的富集评分的位置处包括多个变体；向包括第一机器学习模型的分类引擎提供所述第二训练数据集，以生成用于所述第一机器学习模型的多个权重和偏差；由所述分类引擎基于用于所述第一机器学习模型的所述多个权重和偏差来确定提出的氨基酸序列与抗原的第一亲和力结合评分；以及基于满足阈值的所述第一亲和力结合评分选择所述提出的氨基酸序列以用于表达。2.根据权利要求1所述的方法，其中所述抗原结合分子包括抗体或其抗原结合片段。3.根据权利要求1所述的方法，其中所述抗原结合分子包括嵌合抗原受体。4.根据权利要求1到3中任一项所述的方法，其包括：由所述分类引擎使用所述分类引擎的第二机器学习模型确定所述提出的氨基酸序列的第二亲和力结合评分；以及基于满足所述阈值的所述第一亲和力结合评分和所述第二亲和力结合评分选择所述提出的氨基酸序列以用于表达。5.根据权利要求1到4中任一项所述的方法，其包括：由所述分类引擎确定多个提出的氨基酸序列中的每个氨基酸序列的亲和力结合评分；由候选物选择引擎确定用于所述多个提出的氨基酸序列中的每个氨基酸序列的一个或多个参数；以及由所述候选物选择引擎基于所述亲和力结合评分和用于所述多个提出的氨基酸序列中的每个氨基酸序列的所述一个或多个参数从所述多个提出的氨基酸序列中选择候选物变体。6.根据权利要求5所述的方法，其中所述候选物选择引擎仅选择以预定置信度或概率水平分类的变体。7.根据权利要求6所述的方法，其中所述预定置信度或概率水平高于0.5。8.根据权利要求5到7中任一项所述的方法，其中所述候选物选择引擎基于满足一个或多个另外的参数中的至少一个参数的阈值的所述提出的氨基酸序列来选择变体。9.根据权利要求5所述的方法，其中所述候选物选择引擎基于满足一个或多个另外的参数中的每个参数的阈值的所述提出的氨基酸序列来选择变体。10.根据权利要求9所述的方法，其中所述阈值中的一个或多个阈值是值阈值。11.根据权利要求9或10所述的方法，其中所述阈值中的一个或多个阈值是可变阈值或相对阈值。12.根据权利要求9到11中任一项所述的方法，其中所述另外的参数中的一个或多个参数的所述阈值是前5％或前10％中的参数值。13.根据权利要求9到12中任一项所述的方法，其中所述另外的参数中的一个或多个参数的所述阈值基于高于所述一个或多个参数的平均值的多个标准偏差。
14.根据权利要求5到13中任一项所述的方法，其中所述一个或多个参数包括粘度值、溶解度值、稳定性值、药代动力学值和/或免疫原性值。15.根据权利要求5到14中任一项所述的方法，其中所述一个或多个参数包括莱文斯坦(Levenshtein)距离值。16.根据权利要求5到15中任一项所述的方法，其中所述一个或多个参数包括电荷值。17.根据权利要求16所述的方法，其中所述电荷值是可变片段(Fv)电荷值。18.根据权利要求17所述的方法，其中所述Fv电荷值介于约0与约6.2之间。19.根据权利要求16所述的方法，其中所述电荷值是可变片段电荷对称参数(FvCSP)值。20.根据权利要求19所述的方法，其中所述FvCSP值大于0。21.根据权利要求5到20中任一项所述的方法，其中所述一个或多个参数包括疏水性指数值。22.根据权利要求21所述的方法，其中所述疏水性指数总和值小于4.0。23.根据权利要求5到22中任一项所述的方法，其中所述一个或多个参数包括蛋白质溶解度评分。24.根据权利要求23所述的方法，其中所述蛋白质溶解度评分是CamSol评分。25.根据权利要求23或24所述的方法，其中所述蛋白质溶解度评分大于0.5。26.根据权利要求25所述的方法，其中所述蛋白质溶解度评分大于1。27.根据权利要求5到26中任一项所述的方法，其中所述一个或多个参数包括最小亲和力等级。28.根据权利要求5到27中任一项所述的方法，其中所述一个或多个参数包括平均亲和力等级。29.根据权利要求5到28中任一项所述的方法，其中所述一个或多个参数包括与制造不利因素(manufacturing liability)相关联的序列基序。30.根据权利要求29所述的方法，其中所述一个或多个参数包括n
‑
糖基化位点。31.根据权利要求29或30所述的方法，其中所述一个或多个参数包括脱酰胺位点。32.根据权利要求29到31中任一项所述的方法，其中所述一个或多个参数包括异构化位点。33.根据权利要求29到32中任一项所述的方法，其中所述一个或多个参数包括n
‑
糖基化甲硫氨酸氧化位点。34.根据权利要求29到33中任一项所述的方法，其中所述一个或多个参数包括色氨酸氧化位点。35.根据权利要求29到34中任一项所述的方法，其中所述一个或多个参数包括配对或未配对的半胱氨酸残基。36.根据权利要求5到35中任一项所述的方法，其中所述一个或多个参数包括基于蛋白质结构的度量。37.根据权利要求36所述的方法，其中所述一个或多个参数包括溶剂可及表面积(SASA)。38.根据权利要求36或37所述的方法，其中所述一个或多个参数包括贴片正电荷
(PPC)。39.根据权利要求38所述的方法，其中所述PPC值小于1。40.根据权利要求36到39中任一项所述的方法，其中所述一个或多个参数包括贴片负电荷(PNC)。41.根据权利要求40所述的方法，其中所述PNC值小于1.5。42.根据权利要求36到41中任一项所述的方法，其中所述一个或多个参数包括贴片表面疏水性(PSH)。43.根据权利要求42所述的方法，其中所述PSH值介于约100与约150之间。44.根据权利要求36到43中任一项所述的方法，其中所述一个或多个参数包括表面Fv电荷对称参数(SFvCSP)。45.根据权利要求44所述的方法，其中所述SFvCSP值大于0。46.根据权利要求5到45中任一项所述的方法，其中所述候选物选择引擎计算所述候选物变体与MHCII类分子的结合的亲和力结合评分。47.根据权利要求46所述的方法，其中所述MHC II类分子包括MHC II类同种型HLA
‑
DR、HLA
‑
DP和HLA
‑
DQ。48.根据权利要求46或47所述的方法，其中所述候选物变体与MHCII分子结合的亲和力结合等级是NetNHCII等级％。49.根据权利要求48所述的方法，其中所述NetMHCII等级％的阈值大于10％。50.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括递归神经网络(RNN)。51.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括卷积神经网络(CNN)。52.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括标准人工神经网络(ANN)。53.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括支持向量机(SVM)。54.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括随机森林系综(RF)。55.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括逻辑回归模型(LR)。56.根据权利要求2和4到55中任一项所述的方法，其中所述输入氨基酸序列是所述抗体的互补决定区(CDR)的一部分。57.根据权利要求56所述的方法，其中所述输入氨基酸序列包括CDRH3序列。58.根据权利要求56或57所述的方法，其中所述输入氨基酸序列包括CDRH1序列。59.根据权利要求56到58中任一项所述的方法，其中所述输入氨基酸序列包括CDRH2序列。60.根据权利要求56到59中任一项所述的方法，其中所述输入氨基酸序列包括CDRL1序列。61.根据权利要求56到60中任一项所述的方法，其中所述输入氨基酸序列包括CDRL2序
列。62.根据权利要求56到61中任一项所述的方法，其中所述输入氨基酸序列包括CDRL3序列。63.根据权利要求2和4到62中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的框架结构域或所述框架结构域内的区。64.根据权利要求63所述的方法，其中所述输入氨基酸序列包括所述抗体的FR1、FR2、FR3或FR4。65.根据权利要求2和4到64中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的恒定结构域或具有恒定结构域的区。66.根据权利要求2和4到65中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的全长重链序列。67.根据权利要求2和4到66中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的全长轻链序列。68.根据权利要求2和4到67中任一项所述的方法，其中所述抗体是治疗性抗体。69.根据权利要求68所述的方法，其中所述治疗性抗体选自阿昔单抗(abciximab)(Reopro)；阿达木单抗(adalimumab)(修美乐(Humira)，Amjevita)；阿法赛特(alefacept)(阿密凡夫(Amevive))；阿仑单抗(alemtuzumab)(坎帕斯(Campath))；巴利昔单抗(basiliximab)(舒莱(Simulect))；贝利木单抗(belimumab)(本利斯塔(Benlysta))；贝洛托舒单抗(bezlotoxumab)(Zinplava)；康纳单抗(canakinumab)(易来力(Ilaris))；赛妥珠单抗聚乙二醇(certolizumab pegol)(希...

【专利技术属性】
技术研发人员：D，
申请(专利权)人：ETH苏黎世公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人