用于对抗体进行分类的系统和方法技术方案

技术编号:31612946 阅读:48 留言:0更新日期:2021-12-29 18:44
本公开描述了用于作出预测以对如抗体等结合蛋白的一种或多种性质,例如抗体对抗原的亲和力或特异性进行分类的系统和方法。所述系统可以包含一个或多个机器学习模型,所述机器学习模型可以推断氨基酸序列与功能之间的复杂关系。所述系统可以利用通过两步单位点和组合深度突变扫描方法生成的高质量训练数据进行训练。然后,经过训练的模型可以对在计算机中生成的新变体序列进行预测。本公开描述了由所提供的系统和方法生成的氨基酸序列,以及所生成的序列用于产生用于治疗和诊断用途的蛋白质的用途。白质的用途。白质的用途。

【技术实现步骤摘要】
【国外来华专利技术】用于对抗体进行分类的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求于2019年4月9日提交的美国临时专利申请第62/831,663号的优先权,所述美国临时专利申请通过引用以其全文并入本文。

技术介绍

[0003]在抗体药物发现中,噬菌体或酵母展示文库的筛选是鉴定治疗性抗体的标准实践,并且通常会产生许多潜在的前导变体候选物。然而,与前导候选物优化相关的时间和成本通常占据药物临床前发现和开发周期的大部分。这主要是因为抗体分子的前导优化通常包含并行处理多个参数,包含表达水平、粘度、药代动力学、溶解度和免疫原性。一旦发现前导候选物,通常需要另外的工程化。几乎所有治疗性抗体都需要在哺乳动物细胞中表达为全长IgG,这一事实也意味着剩余的开发和优化步骤必须在此背景下进行。由于哺乳动物细胞缺乏稳定复制质粒的能力,所以此最后一个发展阶段是在低通量下完成的,因为必须实施详尽的克隆、转染和纯化策略来筛选最大范围为约103个抗体分子的文库。这可能导致仅筛选微小的变化(例如,单点突变)。查询蛋白质序列空间的这么一小部分还意味着解决一个开发问题经常会导致另一个问题的出现或甚至完全降低抗原结合性,从而使多参数优化具有挑战性。

技术实现思路

[0004]本文提供了用于对结合蛋白的氨基酸序列进行分类的系统和方法,所述结合蛋白包含例如与抗原结合的抗体或与配体结合的受体。在一些实施例中,本文提供的方法将定向进化与机器学习相组合以基于输入氨基酸序列开发新蛋白质。在一些实施例中,所提供的方法可以鉴定改善所述结合蛋白的一种或多种性质的氨基酸序列,例如,抗体与抗原或两种或更多种抗原(例如,多特异性)结合的亲和力或特异性的增加。
[0005]根据本公开的至少一个方面,一种方法可以包含提供表示结合蛋白的一部分的输入氨基酸序列。在一些实施例中,所述部分是抗体的抗原结合部分。在一些实施例中,所述部分影响所述结合蛋白的一种或多种性质(例如抗原结合亲和力)。所述方法可以包含生成包括第一多个变体序列的第一训练数据集。所述第一多个序列中的每个序列可以在所述结合蛋白(例如,抗体)的所述输入氨基酸序列中包含单位点突变。所述方法可以包含生成包括第二多个序列的第二训练数据集。所述第二多个序列中的每个序列可以在基于包括所述第一多个序列的所述第一训练数据集的富集评分的位置处包含多个变体。所述方法可以包含向包括第一机器学习模型的分类引擎提供所述第二训练数据集以生成用于所述第一机器学习模型的多个参数。所述方法可以包含由所述分类引擎基于用于所述第一机器学习模型的所述多个参数确定提出的氨基酸序列与抗原的第一亲和力结合评分。在一些实施例中,所述参数包括所述第一学习模型的权重和偏差。所述方法可以包含基于满足阈值的所述第一亲和力结合评分选择所述提出的氨基酸序列以用于进一步分析和验证和/或表达。在一些实施例中,所述提出的氨基酸序列的进一步分析和验证基于与所述提出的氨基酸序
列的可开发性和/或治疗潜力相关的一个或多个参数。
[0006]所述方法可以包含由所述分类引擎使用所述分类引擎的第二机器学习模型确定所述提出的氨基酸序列的第二亲和力结合评分。所述方法可以包含基于满足所述阈值的所述第一亲和力结合评分和所述第二亲和力结合评分选择所述提出的氨基酸序列以用于表达。所述方法可以包含由所述分类引擎确定多个提出的氨基酸序列中的每个氨基酸序列的亲和力结合评分。所述方法可以包含由候选物选择引擎确定用于所述多个提出的氨基酸序列中的每个氨基酸序列的一个或多个参数。所述方法可以包含由所述候选物选择引擎基于所述亲和力结合评分和用于所述多个提出的氨基酸序列中的每个氨基酸序列的所述一个或多个参数从所述多个提出的氨基酸序列中选择候选物变体。所述一个或多个参数可以包含基于蛋白质序列的度量,如莱文斯坦(Levenshtein)距离值、电荷值、疏水性指数值、CamSol评分、最小亲和力等级或平均亲和力等级。所述基于蛋白质序列的度量还可以包含与制造不利因素(manufacturing liability)相关联的序列基序,如n

糖基化位点、脱酰胺位点、异构化位点、甲硫氨酸氧化、色氨酸氧化和配对或未配对的半胱氨酸残基。所述一个或多个参数还可以包含基于蛋白质结构的度量,如溶剂可及表面积(SASA)、贴片正电荷(PPC)、贴片负电荷(PNC)、贴片表面疏水性(PSH)和表面Fv电荷对称参数(SFvCSP)。
[0007]所述第一机器学习模型可以包含递归神经网络(RNN)、卷积神经网络(CNN)、标准人工神经网络(ANN)、支持向量机(SVM)、随机森林系综(RF)或逻辑回归(LR)模型。所述输入氨基酸序列可以是所述抗体的互补决定区(CDR)的一部分。所述输入氨基酸序列可以是针对其期望改进所述抗体的一种或多种性质的CDRH1、CDRH2、CDRH3、CDRL1、CDRL2、CDRL3、所述抗体的框架域内的区(例如,FR1、FR2、FR3、FR4)或所述抗体的恒定结构域内的区(例如,CH1、CH2、CH3)或其任何组合。所述输入氨基酸序列可以是全长重链或全长轻链。所述输入氨基酸序列可以是包括抗体的一个或多个部分的重组序列。所述抗体可以是治疗性抗体。所述第一训练数据集可以通过深度突变扫描生成。所述深度突变扫描可以包含生成变体序列的第一文库,其中每个变体序列在相对于所述输入氨基酸序列的单个氨基酸位置处被修饰。所述第一文库可以包含表示所述输入氨基酸序列的每个氨基酸位置的变体序列。
[0008]所述第一文库可以包含表示所述输入氨基酸序列的每个位置处的所有20个氨基酸的变体序列。变体序列的所述第一文库可以通过编码所述输入氨基酸序列的核酸序列的诱变生成。变体序列的所述第一文库可以通过诱变和将突变序列引入到合适的表达系统中来生成。诱变方法可以包含任何合适的方法,如易错PCR、重组诱变、丙氨酸扫描诱变、结构引导诱变或同源定向修复(HDR)。所述表达系统可以是例如哺乳动物、酵母、细菌或噬菌体表达系统。变体序列的所述第一文库可以通过哺乳动物细胞中的高通量诱变生成。变体序列的所述第一文库可以通过CRISPR/Cas9介导的同源定向修复(HDR)生成。所述深度突变扫描可以包含生成多种抗体,所述抗体可以包含变体序列的所述第一文库。所述深度突变扫描可以包含筛选所述多个抗体和用于结合到抗原的变体序列的所述第一文库并确定被选择用于结合到所述抗原的变体的序列和频率,从而获得所述第一训练数据集。
[0009]所述第二训练数据集可以通过深度突变扫描引导的组合诱变生成。所述深度突变扫描引导的组合诱变可以包含生成变体序列的第二文库,其中每个变体序列基于所述第一训练数据集在两个或更多个氨基酸位置处被修饰。变体序列的所述第二文库可以通过哺乳动物细胞中的高通量诱变生成。变体序列的所述第二文库通过CRISPR/Cas9介导的同源定
向修复(HDR)生成。所述深度突变扫描引导的组合诱变可以包含生成包括变体序列的所述第二文库的多个抗体。所述组合深度突变扫描可以包含筛选可以包含用于结合到所述抗原的变体序列的所述第二文库的所述多个抗体并确定被本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,其包括:提供表示抗原结合分子的抗原结合部分的输入氨基酸序列;生成包括第一多个变体序列的第一训练数据集,所述第一多个变体序列中的每个变体序列在所述抗原结合分子的所述输入氨基酸序列中包括单位点突变;生成包括第二多个序列的第二训练数据集,所述第二多个序列中的每个序列在基于包括所述第一多个变体序列的所述第一训练数据集的富集评分的位置处包括多个变体;向包括第一机器学习模型的分类引擎提供所述第二训练数据集,以生成用于所述第一机器学习模型的多个权重和偏差;由所述分类引擎基于用于所述第一机器学习模型的所述多个权重和偏差来确定提出的氨基酸序列与抗原的第一亲和力结合评分;以及基于满足阈值的所述第一亲和力结合评分选择所述提出的氨基酸序列以用于表达。2.根据权利要求1所述的方法,其中所述抗原结合分子包括抗体或其抗原结合片段。3.根据权利要求1所述的方法,其中所述抗原结合分子包括嵌合抗原受体。4.根据权利要求1到3中任一项所述的方法,其包括:由所述分类引擎使用所述分类引擎的第二机器学习模型确定所述提出的氨基酸序列的第二亲和力结合评分;以及基于满足所述阈值的所述第一亲和力结合评分和所述第二亲和力结合评分选择所述提出的氨基酸序列以用于表达。5.根据权利要求1到4中任一项所述的方法,其包括:由所述分类引擎确定多个提出的氨基酸序列中的每个氨基酸序列的亲和力结合评分;由候选物选择引擎确定用于所述多个提出的氨基酸序列中的每个氨基酸序列的一个或多个参数;以及由所述候选物选择引擎基于所述亲和力结合评分和用于所述多个提出的氨基酸序列中的每个氨基酸序列的所述一个或多个参数从所述多个提出的氨基酸序列中选择候选物变体。6.根据权利要求5所述的方法,其中所述候选物选择引擎仅选择以预定置信度或概率水平分类的变体。7.根据权利要求6所述的方法,其中所述预定置信度或概率水平高于0.5。8.根据权利要求5到7中任一项所述的方法,其中所述候选物选择引擎基于满足一个或多个另外的参数中的至少一个参数的阈值的所述提出的氨基酸序列来选择变体。9.根据权利要求5所述的方法,其中所述候选物选择引擎基于满足一个或多个另外的参数中的每个参数的阈值的所述提出的氨基酸序列来选择变体。10.根据权利要求9所述的方法,其中所述阈值中的一个或多个阈值是值阈值。11.根据权利要求9或10所述的方法,其中所述阈值中的一个或多个阈值是可变阈值或相对阈值。12.根据权利要求9到11中任一项所述的方法,其中所述另外的参数中的一个或多个参数的所述阈值是前5%或前10%中的参数值。13.根据权利要求9到12中任一项所述的方法,其中所述另外的参数中的一个或多个参数的所述阈值基于高于所述一个或多个参数的平均值的多个标准偏差。
14.根据权利要求5到13中任一项所述的方法,其中所述一个或多个参数包括粘度值、溶解度值、稳定性值、药代动力学值和/或免疫原性值。15.根据权利要求5到14中任一项所述的方法,其中所述一个或多个参数包括莱文斯坦(Levenshtein)距离值。16.根据权利要求5到15中任一项所述的方法,其中所述一个或多个参数包括电荷值。17.根据权利要求16所述的方法,其中所述电荷值是可变片段(Fv)电荷值。18.根据权利要求17所述的方法,其中所述Fv电荷值介于约0与约6.2之间。19.根据权利要求16所述的方法,其中所述电荷值是可变片段电荷对称参数(FvCSP)值。20.根据权利要求19所述的方法,其中所述FvCSP值大于0。21.根据权利要求5到20中任一项所述的方法,其中所述一个或多个参数包括疏水性指数值。22.根据权利要求21所述的方法,其中所述疏水性指数总和值小于4.0。23.根据权利要求5到22中任一项所述的方法,其中所述一个或多个参数包括蛋白质溶解度评分。24.根据权利要求23所述的方法,其中所述蛋白质溶解度评分是CamSol评分。25.根据权利要求23或24所述的方法,其中所述蛋白质溶解度评分大于0.5。26.根据权利要求25所述的方法,其中所述蛋白质溶解度评分大于1。27.根据权利要求5到26中任一项所述的方法,其中所述一个或多个参数包括最小亲和力等级。28.根据权利要求5到27中任一项所述的方法,其中所述一个或多个参数包括平均亲和力等级。29.根据权利要求5到28中任一项所述的方法,其中所述一个或多个参数包括与制造不利因素(manufacturing liability)相关联的序列基序。30.根据权利要求29所述的方法,其中所述一个或多个参数包括n

糖基化位点。31.根据权利要求29或30所述的方法,其中所述一个或多个参数包括脱酰胺位点。32.根据权利要求29到31中任一项所述的方法,其中所述一个或多个参数包括异构化位点。33.根据权利要求29到32中任一项所述的方法,其中所述一个或多个参数包括n

糖基化甲硫氨酸氧化位点。34.根据权利要求29到33中任一项所述的方法,其中所述一个或多个参数包括色氨酸氧化位点。35.根据权利要求29到34中任一项所述的方法,其中所述一个或多个参数包括配对或未配对的半胱氨酸残基。36.根据权利要求5到35中任一项所述的方法,其中所述一个或多个参数包括基于蛋白质结构的度量。37.根据权利要求36所述的方法,其中所述一个或多个参数包括溶剂可及表面积(SASA)。38.根据权利要求36或37所述的方法,其中所述一个或多个参数包括贴片正电荷
(PPC)。39.根据权利要求38所述的方法,其中所述PPC值小于1。40.根据权利要求36到39中任一项所述的方法,其中所述一个或多个参数包括贴片负电荷(PNC)。41.根据权利要求40所述的方法,其中所述PNC值小于1.5。42.根据权利要求36到41中任一项所述的方法,其中所述一个或多个参数包括贴片表面疏水性(PSH)。43.根据权利要求42所述的方法,其中所述PSH值介于约100与约150之间。44.根据权利要求36到43中任一项所述的方法,其中所述一个或多个参数包括表面Fv电荷对称参数(SFvCSP)。45.根据权利要求44所述的方法,其中所述SFvCSP值大于0。46.根据权利要求5到45中任一项所述的方法,其中所述候选物选择引擎计算所述候选物变体与MHCII类分子的结合的亲和力结合评分。47.根据权利要求46所述的方法,其中所述MHC II类分子包括MHC II类同种型HLA

DR、HLA

DP和HLA

DQ。48.根据权利要求46或47所述的方法,其中所述候选物变体与MHCII分子结合的亲和力结合等级是NetNHCII等级%。49.根据权利要求48所述的方法,其中所述NetMHCII等级%的阈值大于10%。50.根据权利要求1到49中任一项所述的方法,其中所述第一机器学习模型包括递归神经网络(RNN)。51.根据权利要求1到49中任一项所述的方法,其中所述第一机器学习模型包括卷积神经网络(CNN)。52.根据权利要求1到49中任一项所述的方法,其中所述第一机器学习模型包括标准人工神经网络(ANN)。53.根据权利要求1到49中任一项所述的方法,其中所述第一机器学习模型包括支持向量机(SVM)。54.根据权利要求1到49中任一项所述的方法,其中所述第一机器学习模型包括随机森林系综(RF)。55.根据权利要求1到49中任一项所述的方法,其中所述第一机器学习模型包括逻辑回归模型(LR)。56.根据权利要求2和4到55中任一项所述的方法,其中所述输入氨基酸序列是所述抗体的互补决定区(CDR)的一部分。57.根据权利要求56所述的方法,其中所述输入氨基酸序列包括CDRH3序列。58.根据权利要求56或57所述的方法,其中所述输入氨基酸序列包括CDRH1序列。59.根据权利要求56到58中任一项所述的方法,其中所述输入氨基酸序列包括CDRH2序列。60.根据权利要求56到59中任一项所述的方法,其中所述输入氨基酸序列包括CDRL1序列。61.根据权利要求56到60中任一项所述的方法,其中所述输入氨基酸序列包括CDRL2序
列。62.根据权利要求56到61中任一项所述的方法,其中所述输入氨基酸序列包括CDRL3序列。63.根据权利要求2和4到62中任一项所述的方法,其中所述输入氨基酸序列包括所述抗体的框架结构域或所述框架结构域内的区。64.根据权利要求63所述的方法,其中所述输入氨基酸序列包括所述抗体的FR1、FR2、FR3或FR4。65.根据权利要求2和4到64中任一项所述的方法,其中所述输入氨基酸序列包括所述抗体的恒定结构域或具有恒定结构域的区。66.根据权利要求2和4到65中任一项所述的方法,其中所述输入氨基酸序列包括所述抗体的全长重链序列。67.根据权利要求2和4到66中任一项所述的方法,其中所述输入氨基酸序列包括所述抗体的全长轻链序列。68.根据权利要求2和4到67中任一项所述的方法,其中所述抗体是治疗性抗体。69.根据权利要求68所述的方法,其中所述治疗性抗体选自阿昔单抗(abciximab)(Reopro);阿达木单抗(adalimumab)(修美乐(Humira),Amjevita);阿法赛特(alefacept)(阿密凡夫(Amevive));阿仑单抗(alemtuzumab)(坎帕斯(Campath));巴利昔单抗(basiliximab)(舒莱(Simulect));贝利木单抗(belimumab)(本利斯塔(Benlysta));贝洛托舒单抗(bezlotoxumab)(Zinplava);康纳单抗(canakinumab)(易来力(Ilaris));赛妥珠单抗聚乙二醇(certolizumab pegol)(希...

【专利技术属性】
技术研发人员:D
申请(专利权)人:ETH苏黎世公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1