【技术实现步骤摘要】
【国外来华专利技术】用于预测HLA II类特异性表位及表征CD4+ T细胞的方法和系统
交叉引用
[0001]本申请要求2018年12月21日提交的第62/783,914号美国临时申请、2019年3月29日提交的第62/826,827号美国临时申请、2019年5月31日提交的第62/855,379号美国临时申请和2019年8月23日提交的第62/891,101号美国临时申请的权益,所述临时申请中的每一个均通过引用整体并入本文。
技术介绍
[0002]主要组织相容性复合物(MHC)是编码人类白细胞抗原(HLA)基因的基因复合物。HLA基因被表达为在人类细胞表面上展示给循环T细胞的蛋白质异二聚体。HLA基因是高度多态性的,允许其微调适应性免疫系统。适应性免疫应答部分地取决于T细胞鉴别并消除展示与人类白细胞抗原(HLA)异二聚体结合的疾病相关肽抗原的细胞的能力。
[0003]在人类中,内源性和外源性蛋白质可以被蛋白酶体以及被胞质和内体/溶酶体蛋白酶和肽酶加工成肽,并由MHC基因编码的两类细胞表面蛋白质呈递。这些细胞表面蛋白质被称为人类白细胞抗原(HLA I类和II类),与它们结合并引发免疫应答的一组肽被称为HLA表位。HLA表位是使免疫系统能够探测到危险信号如病原体感染和自身转化的关键成分。CD4+ T细胞识别展示在抗原呈递细胞(APC)如树突细胞和巨噬细胞上的II类MHC(HLA
‑
DR、HLA
‑
DQ和HLA
‑
DP)表位。HLA II类配体的内源性加工和呈递是一个复杂的过程,涉及多种分 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,其包括:(a)使用机器学习HLA肽呈递预测模型处理多个候选肽序列的氨基酸信息,以生成多个呈递预测,其中所述多个候选肽序列中的每个候选肽序列由受试者的基因组或外显子组或受试者中的病原体或病毒编码,其中所述多个呈递预测包括针对所述多个候选肽序列中的每一个的HLA呈递预测,其中每个HLA呈递预测指示由所述受试者的细胞的II类HLA等位基因编码的一种或多种蛋白质能够呈递所述多个候选肽序列中的给定候选肽序列的可能性,其中使用包含训练肽序列的序列信息的训练数据训练所述机器学习HLA肽呈递预测模型,所述训练肽通过质谱法被鉴定为将由在训练细胞中表达的HLA蛋白呈递;以及(b)至少基于所述多个呈递预测,将所述多个肽序列中的肽序列鉴定为由所述受试者细胞的II类HLA等位基因所编码的一种或多种蛋白质中的至少一种来呈递;其中根据呈递阳性预测值(PPV)确定方法,所述机器学习HLA肽呈递预测模型具有至少0.07的PPV。2.一种方法,其包括:(a)使用机器学习HLA肽结合预测模型处理由受试者的基因组或外显子组编码的多个肽序列的氨基酸信息,以生成多个结合预测,其中所述多个结合预测包括对于所述多个候选肽序列中的每一个的HLA结合预测,每个结合预测指示由所述受试者的细胞的II类HLA等位基因编码的一种或多种蛋白质与所述多个候选肽序列中的给定候选肽序列结合的可能性,其中使用训练数据训练所述机器学习HLA肽结合预测模型,所述训练数据包含经鉴定与HLA II类蛋白或HLA II类蛋白类似物结合的肽序列的序列信息;以及(b)至少基于所述多个结合预测,鉴定所述多个肽序列中的肽序列,该肽序列与所述受试者细胞的II类HLA等位基因所编码的一种或多种蛋白质中的至少一种相结合的概率大于阈值结合预测概率值;其中根据结合阳性预测值(PPV)确定方法,所述机器学习HLA肽结合预测模型具有至少0.1的PPV。3.根据权利要求2所述的方法,其中使用包含训练肽序列的序列信息的训练数据训练所述机器学习HLA肽呈递预测模型,所述训练肽通过质谱法被鉴定为将由在训练细胞中表达的HLA蛋白所呈递。4.根据前述权利要求中任一项所述的方法,其中所述方法包括基于所述呈递预测,对被鉴定为由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质中的至少一种所呈递的至少两种肽进行排名。5.根据前述权利要求中任一项所述的方法,其中所述方法包括从所述两种或更多种排名的肽中选择一种或多种肽。6.根据前述权利要求中任一项所述的方法,其中所述方法包括从所述多种肽中选择一种或多种肽,所述肽被鉴定为由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质中的至少一种所呈递。7.根据前述权利要求中任一项所述的方法,其中所述方法包括从基于所述呈递预测排名的两种或更多种肽中选择一种或多种肽。8.根据前述权利要求中任一项所述的方法,其中当处理多个测试肽序列的氨基酸信息
以生成多个测试呈递预测,每个测试呈递预测指示由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质能够呈递所述多个测试肽序列中的给定测试肽序列的可能性时,所述机器学习HLA肽呈递预测模型具有至少0.07的阳性预测值(PPV),其中所述多个测试肽序列包含至少500个测试肽序列,所述序列包含(i)至少一个通过质谱法被鉴定为将由细胞中表达的HLA蛋白所呈递的命中肽序列,和(ii)至少499个包含在由生物体基因组编码的蛋白质内的诱饵肽序列,其中所述生物体和受试者是同一物种,其中所述多个测试肽序列中所述至少一个命中肽序列与所述至少499个诱饵肽序列之比为1:499,并且根据机器学习HLA肽呈递预测模型,排名靠前的百分比的所述多个测试肽序列被预测为将由在细胞中表达的HLA蛋白所呈递。9.根据前述权利要求中任一项所述的方法,其中当处理多个测试肽序列的氨基酸信息以生成多个测试结合预测,每个测试结合预测指示由所述受试者细胞的II类HLA等位基因编码的一种或多种蛋白质与所述多个测试肽序列中的给定测试肽序列结合的可能性时,所述机器学习HLA肽呈递预测模型具有至少0.1的阳性预测值(PPV),其中所述多个测试肽序列包含至少20个测试肽序列,所述序列包含(i)至少一个通过质谱法被鉴定为将由细胞中表达的HLA蛋白所呈递的命中肽序列,和(ii)至少19个包含在蛋白质内的诱饵肽序列,所述蛋白质包含至少一个通过质谱法被鉴定为将由细胞中表达的HLA蛋白如细胞(例如,单等位基因细胞)中表达的单个HLA蛋白所呈递的肽序列,其中所述多个测试肽序列中所述至少一个命中肽序列与所述至少19个诱饵肽序列之比为1:19,并且根据机器学习HLA肽呈递预测模型,排名靠前的百分比的所述多个测试肽序列被预测为将与在细胞中表达的HLA蛋白结合。10.根据前述权利要求中任一项所述的方法,其中所述至少一个命中肽序列与所述诱饵肽序列之间不存在氨基酸序列重叠。11.根据权利要求1
‑
10中任一项所述的方法,其中所述机器学习HLA肽呈递预测模型的阳性预测值(PPV)为至少0.08、0.09、0.1、0.11、0.12、0.13、0.14、0.15、0.16、0.17、0.18、0.19、0.2、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29、0.3、0.31、0.32、0.33、0.34、0.35、0.36、0.37、0.38、0.39、0.4、0.41、0.42、0.43、0.44、0.45、0.46、0.47、0.48、0.49、0.5、0.51、0.52、0.53、0.54、0.55、0.56、0.57、0.58、0.59、0.6、0.61、0.62、0.63、0.64、0.65、0.66、0.67、0.68、0.69、0.7、0.71、0.72、0.73、0.74、0.75、0.76、0.77、0.78、0.79、0.8、0.81、0.82、0.83、0.84、0.85、0.86、0.87、0.88、0.89、0.9、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99。12.根据权利要求1和3
‑
11中任一项所述的方法,其中所述至少一个命中肽序列包含至少5、10、20、50或100个命中肽序列。13.根据权利要求1和3
‑
12中任一项所述的方法,其中所述至少499个诱饵肽序列包含至少2500、5000、10000、25000、50000或100000 个诱饵肽序列。14.根据权利要求1和3
‑
13中任一项所述的方法,其中所述至少500个测试肽序列包含至少2500、5000、10000、25000、50000或100000个测试肽序列。15.根据权利要求1和3
‑
14中任一项所述的方法,其中所述排名靠前的百分比是前0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1.00%或2.00%。16.根据权利要求2
‑
11中任一项所述的方法,其中所述至少一个命中肽序列包含至少
5、10、20、50或100个命中肽序列。17.根据权利要求2
‑
11和16中任一项所述的方法,其中所述至少19个诱饵肽序列包含至少500、1000、2000、5000或10000个诱饵肽序列。18.根据权利要求2
‑
11、16和17中任一项所述的方法,其中所述至少20个测试肽序列或其中所述至少500个测试肽序列包含至少500、1000、2000、5000或10000个测试肽序列。19.根据权利要求2
‑
11和16
‑
18中任一项所述的方法,其中所述排名靠前的百分比是前5%、6%、7%、8%、9%、10%、15%或20%。20.根据前述权利要求中任一项所述的方法,其中对于由表11的相应HLA等位基因编码的蛋白质,PPV大于表11的第2列的PPV。21.根据前述权利要求中任一项所述的方法,其中对于由HLA II类等位基因编码的蛋白质,PPV大于表16的第2列的PPV。22.根据前述权利要求中任一项所述的方法,其中所述受试者是单个受试者。23.根据前述权利要求中任一项所述的方法,其中所述细胞是表达由受试者细胞的II类HLA等位基因编码的单一蛋白质的细胞。24.根据权利要求1
‑
23中任一项所述的方法,其中所述细胞是单等位基因HLA细胞,或表达具有亲和标签的HLA等位基因的细胞。25.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列与癌症相关。26.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列被受试者的癌细胞过表达。27.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列被受试者的癌细胞过表达。28.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列是癌细胞特异性肽。29.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列是癌细胞特异性肽。30.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列被受试者的癌细胞表达。31.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列不由受试者的非癌细胞编码。32.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列不由受试者的非癌细胞编码。33.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的至少一个肽序列不被受试者的非癌细胞表达。34.根据前述权利要求中任一项所述的方法,其中所述多个肽序列中的每个肽序列不被受试者的非癌细胞表达。35.根据前述权利要求中任一项所述的方法,其中所述方法包括获得所述受试者的所述多个肽序列。36.根据前述权利要求中任一项所述的方法,其中所述方法包括获得所述受试者的多
个多核苷酸序列。37.根据前述权利要求中任一项所述的方法,其中所述方法包括获得所述受试者的多个多核苷酸序列,所述多核苷酸序列编码由受试者的基因组或外显子组编码的多个肽序列。38.根据前述权利要求中任一项所述的方法,其中所述方法包括通过计算机处理器获得所述受试者的多个多核苷酸序列,所述多核苷酸序列编码由受试者的基因组或外显子组编码的多个肽序列。39.根据前述权利要求中任一项所述的方法,其中所述方法包括通过基因组或外显子组测序获得所述受试者的多个多核苷酸序列。40.根据前述权利要求中任一项所述的方法,其中所述方法包括通过全基因组测序或全外显子组测序获得所述受试者的多个多核苷酸序列。41.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括向所述受试者施用包含所选择的肽序列子集中的一种或多种肽序列的组合物。42.根据前述权利要求中任一项所述的方法,其中所述HLA II类蛋白包括HLA
‑
DR、HLA
‑
DQ或HLA
‑
DP蛋白。43.根据前述权利要求中任一项所述的方法,其中所述HLA II类蛋白选自:HLA
‑
DPB1*01:01/HLA
‑
DPA1*01:03、HLA
‑
DPB1*02:01/HLA
‑
DPA1*01:03、HLA
‑
DPB1*03:01/HLA
‑
DPA1*01:03、HLA
‑
DPB1*04:01/HLA
‑
DPA1*01:03、HLA
‑
DPB1*04:02/HLA
‑
DPA1*01:03、HLA
‑
DPB1*06:01/HLA
‑
DPA1*01:03、HLA
‑
DQB1*02:01/HLA
‑
DQA1*05:01、HLA
‑
DQB1*02:02/HLA
‑
DQA1*02:01、HLA
‑
DQB1*06:02/HLA
‑
DQA1*01:02、HLA
‑
DQB1*06:04/HLA
‑
DQA1*01:02、HLA
‑
DRB1*01:01、HLA
‑
DRB1*01:02、HLA
‑
DRB1*03:01、HLA
‑
DRB1*03:02、HLA
‑
DRB1*04:01、HLA
‑
DRB1*04:02、HLA
‑
DRB1*04:03、HLA
‑
DRB1*04:04、HLA
‑
DRB1*04:05、HLA
‑
DRB1*04:07、HLA
‑
DRB1*07:01、HLA
‑
DRB1*08:01、HLA
‑
DRB1*08:02、HLA
‑
DRB1*08:03、HLA
‑
DRB1*08:04、HLA
‑
DRB1*09:01、HLA
‑
DRB1*10:01、HLA
‑
DRB1*11:01、HLA
‑
DRB1*11:02、HLA
‑
DRB1*11:04、HLA
‑
DRB1*12:01、HLA
‑
DRB1*12:02、HLA
‑
DRB1*13:01、HLA
‑
DRB1*13:02、HLA
‑
DRB1*13:03、HLA
‑
DRB1*14:01、HLA
‑
DRB1*15:01、HLA
‑
DRB1*15:02、HLA
‑
DRB1*15:03、HLA
‑
DRB1*16:01、HLA
‑
DRB3*01:01、HLA
‑
DRB3*02:02、HLA
‑
DRB3*03:01、HLA
‑
DRB4*01:01和HLA
‑
DRB5*01:01;选自下组的HLA
‑
DR蛋白:DPA*01:03/DPB*04:01、DRB1*01:01、DRB1*01:02、DRB1*03:01、DRB1*04:01、DRB1*04:02、DRB1*04:04、DRB1*04:05、DRB1*07:01、DRB1*08:01、DRB1*08:02、DRB1*08:03、DRB1*09:01、DRB1*11:01、DRB1*11:02、DRB1*11:04、DRB1*12:01、DRB1*13:01、DRB1*13...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。