用于预测HLAII类特异性表位及表征CD4+T细胞的方法和系统技术方案

技术编号:30262684 阅读:22 留言:0更新日期:2021-10-09 21:09
本公开提供了制备个性化癌症疫苗的方法。本公开还提供了一种训练机器学习HLA

【技术实现步骤摘要】
【国外来华专利技术】用于预测HLA II类特异性表位及表征CD4+ T细胞的方法和系统
交叉引用
[0001]本申请要求2018年12月21日提交的第62/783,914号美国临时申请、2019年3月29日提交的第62/826,827号美国临时申请、2019年5月31日提交的第62/855,379号美国临时申请和2019年8月23日提交的第62/891,101号美国临时申请的权益,所述临时申请中的每一个均通过引用整体并入本文。

技术介绍

[0002]主要组织相容性复合物(MHC)是编码人类白细胞抗原(HLA)基因的基因复合物。HLA基因被表达为在人类细胞表面上展示给循环T细胞的蛋白质异二聚体。HLA基因是高度多态性的,允许其微调适应性免疫系统。适应性免疫应答部分地取决于T细胞鉴别并消除展示与人类白细胞抗原(HLA)异二聚体结合的疾病相关肽抗原的细胞的能力。
[0003]在人类中,内源性和外源性蛋白质可以被蛋白酶体以及被胞质和内体/溶酶体蛋白酶和肽酶加工成肽,并由MHC基因编码的两类细胞表面蛋白质呈递。这些细胞表面蛋白质被称为人类白细胞抗原(HLA I类和II类),与它们结合并引发免疫应答的一组肽被称为HLA表位。HLA表位是使免疫系统能够探测到危险信号如病原体感染和自身转化的关键成分。CD4+ T细胞识别展示在抗原呈递细胞(APC)如树突细胞和巨噬细胞上的II类MHC(HLA

DR、HLA

DQ和HLA

DP)表位。HLA II类配体的内源性加工和呈递是一个复杂的过程,涉及多种分子伴侣和酶的子集,它们尚未全部充分表征。HLA II类肽呈递激活辅助性T细胞,随后促进B细胞分化和抗体产生以及CTL应答。活化的辅助性T细胞还分泌激活并诱导其他T细胞分化的细胞因子和趋化因子。
[0004]了解每种HLA II类异二聚体的肽结合偏好是成功预测哪些癌症或肿瘤特异性抗原可能引发癌症或肿瘤特异性T细胞应答的关键。对鉴定和分离特定HLA II类关联肽(例如,新抗原肽)的方法存在需求。这样的方法和分离的分子可用于例如开发治疗剂,包括但不限于基于免疫的治疗剂。

技术实现思路

[0005]本文描述的方法和组合物可用于广泛的应用中。例如,本文描述的方法和组合物可以用来鉴定免疫原性抗原肽,并且可以用来开发药物,如个性化药物,以及抗原特异性T细胞的分离和表征。
[0006]CD4+ T细胞应答可具有抗肿瘤活性。可以在不使用II类预测的情况下显示高CD4+ T细胞响应率(例如,NeoVax研究中60%的SLP表位(NT

001中的49%,参见Ott等人,Nature,2017年7月13日;547(7662):217

221),以及Biontech研究中48%的mRNA表位,参见Sahin等人,Nature,2017年7月13日;547(7662):222

226)。可能不清楚这些表位是否通常(由肿瘤或吞噬性DC)天然呈递。可能希望通过改进对真正呈递的HLA II类结合表位的鉴定,将高CD4+ T响应率转化为治疗效果。
[0007]基因表达、酶切和途径/定位偏好的作用可能尚未得到强有力的量化。可能尚不清楚是自噬(肿瘤细胞的HLA II类呈递)还是吞噬作用(APC对肿瘤表位的HLA II类呈递)是更相关的途径,尽管大多数现有MS数据可能被推定来源于自噬。NetMHCIIpan可能是当前的预测标准,但可能认为其并不准确。在三个HLA II类基因座(DR、DP和DQ)中,可能仅HLA

DR的某些常见等位基因存在数据。
[0008]可能有不同的数据生成方法来学习HLA II类呈递的规则,包括现场标准和提议的方法。现场标准可包括亲和力测量,这可能是NetMHCIIpan预测器的基础,提供低通量并且需要放射性试剂,并且它省略了处理的作用。提议的方法可包括质谱法,其中来自细胞系/组织/肿瘤的数据可以帮助确定自噬的处理规则,而单等位基因MS可以允许确定等位基因特异性结合规则(假设多等位基因MS数据对于有效学习而言过于复杂(Bassani

Sternberg.MCP.2018))。
[0009]可能有不同的方法来验证新的HLA II类预测器:保留的MS数据的验证,这可能是默认设置;疫苗研究的回顾(例如NT

001),其中免疫监测数据可以评估APC上的疫苗肽负载,而不是肿瘤呈递,并且数据可以在许多不同的等位基因中稀疏地扩展;生化亲和力测量,其可被配置为获得不一致预测的肽的测量值(仅用于2

3个等位基因);T细胞诱导,其可被配置为测试Neon偏好的和NetMHCIIpan偏好的表位诱导离体T细胞应答的速率。
[0010]对于通过T细胞诱导进行的验证,默认方法可包括评估来自TCGA的预测不一致的neoORF,其中诱导材料可包括健康供体APC和T细胞,并且诱导和读出可以通过SLP(约15聚体肽)。随机肽可产生高反应率,而SLP可能无法充分解决处理问题。可能的解决方案可包括通过mRNA进行的诱导。
[0011]本文公开的方法可包括生成LC

MS/MS单等位基因数据,用于训练用于表位预测的等位基因特异性机器学习方法。此类方法可包括使用一组质量度量来提高LC

MS/MS数据质量,以严格去除增加预测模型性能的假阳性;从HLA

配体组LC

MS/MS数据集鉴定等位基因特异性HLA II类结合核心;利用机器学习算法改进HLA II类配体和表位预测;并且/或者鉴定影响HLA II类

配体呈递并改善HLA II类表位预测的生物变量,如基因表达、可切割性、基因偏好、细胞定位和二级结构。
[0012]本文提供了一种方法,其包括:(a)使用机器学习HLA肽呈递预测模型处理多个候选肽序列的氨基酸信息,以生成多个呈递预测,其中所述多个候选肽序列中的每个候选肽序列由受试者的基因组或外显子组编码,其中所述多个呈递预测包括针对所述多个候选肽序列中的每一个的HLA呈递预测,其中每个HLA呈递预测指示由所述受试者的细胞的II类HLA等位基因编码的一种或多种蛋白质能够呈递所述多个候选肽序列中的给定候选肽序列的可能性,其中使用包含训练肽序列的序列信息的训练数据训练所述机器学习HLA肽呈递预测模型,所述训练肽通过质谱法被鉴定为将由在训练细胞中表达的HLA蛋白呈递;以及(b)至少基于所述多个呈递预测,将所述多个肽序列中的肽序列鉴定为由所述受试者细胞的II类HLA等位基因所编码的一种或多种蛋白质中的至少一种来呈递;其中根据呈递阳性预测值(PPV)确定方法,所述机器学习HLA肽呈递预测模型具有至少0.07的PPV。
[0013]本文提供了一种方法,其包括:(a)使用机器学习HLA肽结合预测模型处理由受试者的基因组或外显子组编码的多个肽序列的氨基酸信息,以生成多个结合预测,其中所述多个结合预测包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,其包括:(a)使用机器学习HLA肽呈递预测模型处理多个候选肽序列的氨基酸信息,以生成多个呈递预测,其中所述多个候选肽序列中的每个候选肽序列由受试者的基因组或外显子组或受试者中的病原体或病毒编码,其中所述多个呈递预测包括针对所述多个候选肽序列中的每一个的HLA呈递预测,其中每个HLA呈递预测指示由所述受试者的细胞的II类HLA等位基因编码的一种或多种蛋白质能够呈递所述多个候选肽序列中的给定候选肽序列的可能性,其中使用包含训练肽序列的序列信息的训练数据训练所述机器学习HLA肽呈递预测模型,所述训练肽通过质谱法被鉴定为将由在训练细胞中表达的HLA蛋白呈递;以及(b)至少基于所述多个呈递预测,将所述多个肽序列中的肽序列鉴定为由所述受试者细胞的II类HLA等位基因所编码的一种或多种蛋白质中的至少一种来呈递;其中根据呈递阳性预测值(PPV)确定方法,所述机器学习HLA肽呈递预测模型具有至少0.07的PPV。2.一种方法,其包括:(a)使用机器学习HLA肽结合预测模型处理由受试者的基因组或外显子组编码的多个肽序列的氨基酸信息,以生成多个结合预测,其中所述多个结合预测包括对于所述多个候选肽序列中的每一个的HLA结合预测,每个结合预测指示由所述受试者的细胞的II类HLA等位基因编码的一种或多种蛋白质与所述多个候选肽序列中的给定候选肽序列结合的可能性,其中使用训练数据训练所述机器学习HLA肽结合预测模型,所述训练数据包含经鉴定与HLA II类蛋白或HLA II类蛋白类似物结合的肽序列的序列信息;以及(b)至少基于所述多个结合预测,鉴定所述多个肽序列中的肽序列,该肽序列与所述受试者细胞的II类HLA等位基因所编码的一种或多种蛋白质中的至少一种相结合的概率大于阈值结合预测概率值;其中根据结合阳性预测值(PPV)确定方法,所述机器学习HLA肽结合预测模型具有至少0.1的PPV。3.根据权利要求2所述的方法,其中使用包含训练肽序列的序列信息的训练数据训练所述机器学习HLA肽呈递预测模型,所述训练肽通过质谱法被鉴定为将由在训练细胞中表达的HLA蛋白所呈递。4.根据前述权利要求中任一项所述的方法,其中所述方法包括基于所述呈递预测,对被鉴定为由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质中的至少一种所呈递的至少两种肽进行排名。5.根据前述权利要求中任一项所述的方法,其中所述方法包括从所述两种或更多种排名的肽中选择一种或多种肽。6.根据前述权利要求中任一项所述的方法,其中所述方法包括从所述多种肽中选择一种或多种肽,所述肽被鉴定为由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质中的至少一种所呈递。7.根据前述权利要求中任一项所述的方法,其中所述方法包括从基于所述呈递预测排名的两种或更多种肽中选择一种或多种肽。8.根据前述权利要求中任一项所述的方法,其中当处理多个测试肽序列的氨基酸信息
以生成多个测试呈递预测,每个测试呈递预测指示由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质能够呈递所述多个测试肽序列中的给定测试肽序列的可能性时,所述机器学习HLA肽呈递预测模型具有至少0.07的阳性预测值(PPV),其中所述多个测试肽序列包含至少500个测试肽序列,所述序列包含(i)至少一个通过质谱法被鉴定为将由细胞中表达的HLA蛋白所呈递的命中肽序列,和(ii)至少499个包含在由生物体基因组编码的蛋白质内的诱饵肽序列,其中所述生物体和受试者是同一物种,其中所述多个测试肽序列中所述至少一个命中肽序列与所述至少499个诱饵肽序列之比为1:499,并且根据机器学习HLA肽呈递预测模型,排名靠前的百分比的所述多个测试肽序列被预测为将由在细胞中表达的HLA蛋白所呈递。9.根据前述权利要求中任一项所述的方法,其中当处理多个测试肽序列的氨基酸信息以生成多个测试结合预测,每个测试结合预测指示由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质与所述多个测试肽序列中的给定测试肽序列结合的可能性时,所述机器学习HLA肽呈递预测模型具有至少0.1的阳性预测值(PPV),其中所述多个测试肽序列包含至少20个测试肽序列,所述序列包含(i)至少一个通过质谱法被鉴定为将由细胞中表达的HLA蛋白所呈递的命中肽序列,和(ii)至少19个包含在蛋白质内的诱饵肽序列,所述蛋白质包含至少一个通过质谱法被鉴定为将由细胞中表达的HLA蛋白如细胞(例如,单等位基因细胞)中表达的单个HLA蛋白所呈递的肽序列,其中所述多个测试肽序列中所述至少一个命中肽序列与所述至少19个诱饵肽序列之比为1:19,并且根据机器学习HLA肽呈递预测模型,排名靠前的百分比的所述多个测试肽序列被预测为将与在细胞中表达的HLA蛋白结合。10.根据前述权利要求中任一项所述的方法,其中所述至少一个命中肽序列与所述诱饵肽序列之间不存在氨基酸序列重叠。11.根据权利要求1

10中任一项所述的方法,其中所述机器学习HLA肽呈递预测模型的阳性预测值(PPV)为至少0.08、0.09、0.1、0.11、0.12、0.13、0.14、0.15、0.16、0.17、0.18、0.19、0.2、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29、0.3、0.31、0.32、0.33、0.34、0.35、0.36、0.37、0.38、0.39、0.4、0.41、0.42、0.43、0.44、0.45、0.46、0.47、0.48、0.49、0.5、0.51、0.52、0.53、0.54、0.55、0.56、0.57、0.58、0.59、0.6、0.61、0.62、0.63、0.64、0.65、0.66、0.67、0.68、0.69、0.7、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79、0.8、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.9、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99。12.根据权利要求1和3

11中任一项所述的方法,其中所述至少一个命中肽序列包含至少5、10、20、50或100个命中肽序列。13.根据权利要求1和3

12中任一项所述的方法,其中所述至少499个诱饵肽序列包含至少2500、5000、10000、25000、50000或100000 个诱饵肽序列。14.根据权利要求1和3

13中任一项所述的方法,其中所述至少500个测试肽序列包含至少2500、5000、10000、25000、50000或100000个测试肽序列。15.根据权利要求1和3

14中任一项所述的方法,其中所述排名靠前的百分比是前0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1.00%或2.00%。16.根据权利要求2

11中任一项所述的方法,其中所述至少一个命中肽序列包含至少
5、10、20、50或100个命中肽序列。17.根据权利要求2

11和16中任一项所述的方法,其中所述至少19个诱饵肽序列包含至少500、1000、2000、5000或10000个诱饵肽序列。18.根据权利要求2

11、16和17中任一项所述的方法,其中所述至少20个测试肽序列或其中所述至少500个测试肽序列包含至少500、1000、2000、5000或10000个测试肽序列。19.根据权利要求2

11和16

18中任一项所述的方法,其中所述排名靠前的百分比是前5%、6%、7%、8%、9%、10%、15%或20%。20.根据前述权利要求中任一项所述的方法,其中对于由表11的相应HLA等位基因编码的蛋白质,PPV大于表11的第2列的PPV。21.根据前述权利要求中任一项所述的方法,其中对于由HLA II类等位基因编码的蛋白质,PPV大于表16的第2列的PPV。22.根据前述权利要求中任一项所述的方法,其中所述受试者是单个受试者。23.根据前述权利要求中任一项所述的方法,其中所述细胞是表达由受试者细胞的II类HLA等位基因编码的单一蛋白质的细胞。24.根据权利要求1

23中任一项所述的方法,其中所述细胞是单等位基因HLA细胞,或表达具有亲和标签的HLA等位基因的细胞。25.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列与癌症相关。26.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列被受试者的癌细胞过表达。27.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列被受试者的癌细胞过表达。28.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列是癌细胞特异性肽。29.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列是癌细胞特异性肽。30.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列被受试者的癌细胞表达。31.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列不由受试者的非癌细胞编码。32.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列不由受试者的非癌细胞编码。33.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列不被受试者的非癌细胞表达。34.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列不被受试者的非癌细胞表达。35.根据前述权利要求中任一项所述的方法,其中所述方法包括获得所述受试者的所述多个肽序列。36.根据前述权利要求中任一项所述的方法,其中所述方法包括获得所述受试者的多
个多核苷酸序列。37.根据前述权利要求中任一项所述的方法,其中所述方法包括获得所述受试者的多个多核苷酸序列,所述多核苷酸序列编码由受试者的基因组或外显子组编码的多个肽序列。38.根据前述权利要求中任一项所述的方法,其中所述方法包括通过计算机处理器获得所述受试者的多个多核苷酸序列,所述多核苷酸序列编码由受试者的基因组或外显子组编码的多个肽序列。39.根据前述权利要求中任一项所述的方法,其中所述方法包括通过基因组或外显子组测序获得所述受试者的多个多核苷酸序列。40.根据前述权利要求中任一项所述的方法,其中所述方法包括通过全基因组测序或全外显子组测序获得所述受试者的多个多核苷酸序列。41.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括向所述受试者施用包含所选择的肽序列子集中的一种或多种肽序列的组合物。42.根据前述权利要求中任一项所述的方法,其中所述HLA II类蛋白包括HLA

DR、HLA

DQ或HLA

DP蛋白。43.根据前述权利要求中任一项所述的方法,其中所述HLA II类蛋白选自:HLA

DPB1*01:01/HLA

DPA1*01:03、HLA

DPB1*02:01/HLA

DPA1*01:03、HLA

DPB1*03:01/HLA

DPA1*01:03、HLA

DPB1*04:01/HLA

DPA1*01:03、HLA

DPB1*04:02/HLA

DPA1*01:03、HLA

DPB1*06:01/HLA

DPA1*01:03、HLA

DQB1*02:01/HLA

DQA1*05:01、HLA

DQB1*02:02/HLA

DQA1*02:01、HLA

DQB1*06:02/HLA

DQA1*01:02、HLA

DQB1*06:04/HLA

DQA1*01:02、HLA

DRB1*01:01、HLA

DRB1*01:02、HLA

DRB1*03:01、HLA

DRB1*03:02、HLA

DRB1*04:01、HLA

DRB1*04:02、HLA

DRB1*04:03、HLA

DRB1*04:04、HLA

DRB1*04:05、HLA

DRB1*04:07、HLA

DRB1*07:01、HLA

DRB1*08:01、HLA

DRB1*08:02、HLA

DRB1*08:03、HLA

DRB1*08:04、HLA

DRB1*09:01、HLA

DRB1*10:01、HLA

DRB1*11:01、HLA

DRB1*11:02、HLA

DRB1*11:04、HLA

DRB1*12:01、HLA

DRB1*12:02、HLA

DRB1*13:01、HLA

DRB1*13:02、HLA

DRB1*13:03、HLA

DRB1*14:01、HLA

DRB1*15:01、HLA

DRB1*15:02、HLA

DRB1*15:03、HLA

DRB1*16:01、HLA

DRB3*01:01、HLA

DRB3*02:02、HLA

DRB3*03:01、HLA

DRB4*01:01和HLA

DRB5*01:01;选自下组的HLA

DR蛋白:DPA*01:03/DPB*04:01、DRB1*01:01、DRB1*01:02、DRB1*03:01、DRB1*04:01、DRB1*04:02、DRB1*04:04、DRB1*04:05、DRB1*07:01、DRB1*08:01、DRB1*08:02、DRB1*08:03、DRB1*09:01、DRB1*11:01、DRB1*11:02、DRB1*11:04、DRB1*12:01、DRB1*13:01、DRB1*13...

【专利技术属性】
技术研发人员:迈克尔
申请(专利权)人:百欧恩泰美国公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1