【技术实现步骤摘要】
【国外来华专利技术】基于注意力的神经网络用以预测肽结合、呈递和免疫原性
[0001]相关申请的交叉引用
[0002]本申请要求2020年7月17日提交的标题为“基于注意力的神经网络用以预测肽结合、呈递和免疫原性”的美国临时申请第63/053,307号的优先权,并与在同一日期提交的标题为“基于注意力的神经网络用以预测肽结合、呈递和免疫原性”的美国专利申请第___号(代理人案卷号:59868.23US01)相关,两者均通过引用以其全文并入本文。
[0003]本公开总体上涉及使用机器学习模型(例如,包括注意力机制)来生成与以下内容相关联的预测:目标肽(例如,突变肽)是否将经历与免疫蛋白复合物(IPC)的靶相互作用(例如,与MHC分子结合、由MHC分子呈递、与TCR结合等);与此类靶相互作用相关联的亲和力;和/或肽触发免疫应答的能力。本公开进一步涉及包括基于此类预测选择的用于治疗的某些突变肽(或相关联的前体或序列)的组合物和使用这些突变肽的方法。
技术介绍
[0004]新抗原疫苗是用于提供个体化癌症治疗的一种相对较新的方法。新抗原是肿瘤 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,其包括:访问表征肽集的肽序列集,已通过处理来自受试者的疾病样品而识别所述肽序列集中的每个肽序列;访问针对所述受试者的免疫蛋白质复合体(IPC)识别的免疫蛋白质复合体(IPC)序列;使用基于注意力的机器学习模型的初始注意力子系统中的第一注意力块来处理表示所述肽序列集的肽表示集,并且使用所述初始注意力子系统中的第二注意力块来处理表示所述免疫蛋白质复合体(IPC)序列的IPC表示以生成输出,其中所述输出包括针对对应的肽
‑
IPC组合的相互作用预测、相互作用亲和力预测或免疫原性预测中的至少一者;以及基于所述输出生成报告。2.根据权利要求1所述的方法,其中所述肽序列集中的至少一个肽序列包含变体编码序列,所述变体编码序列相对于对应的参考序列包含变体。3.根据权利要求1或权利要求2所述的方法,其中所述处理包括:接收针对所述肽序列集中的对应的肽序列的所述肽表示集中的肽表示;以及经由所述第一注意力块将所述肽表示转换为经转换的肽表示,其中所述第一注意力块包括注意力子块集,其中所述注意力子块集中的每个注意力子块包括自注意力层。4.根据权利要求1至3中任一项所述的方法,其中所述处理包括:接收所述IPC表示;以及经由所述第二注意力块将所述IPC表示转换为经转换的IPC表示,其中所述第二注意力块包括注意力子块集,其中所述注意力子块集中的每个注意力子块包括自注意力层。5.根据权利要求1至4中任一项所述的方法,其中所述肽表示的至少一部分对应于所述肽序列中的单体,并且所述IPC表示的至少一部分对应于所述IPC序列中的单体;并且其中所述处理包括:使用所述第一注意力块和第一权重集基于所述肽表示来生成经转换的肽表示;使用所述第二注意力块和第二权重集基于所述IPC表示来生成经转换的IPC表示;以及使用所述经转换的肽表示和经转换的MHC表示来生成合成表示。6.根据权利要求1至5中任一项所述的方法,其进一步包括:嵌入所述肽序列集中的肽序列,以生成针对所述肽序列的经嵌入的肽表示;以及按位置编码针对所述肽序列的所述经嵌入的肽表示,以生成表示所述肽序列的所述肽表示集中的肽表示。7.根据权利要求1至6中任一项所述的方法,其中:所述第一注意力块包括注意力子块集;并且所述注意力子块集中的每个注意力子块包括神经网络,所述神经网络包含至少一个自注意力层。8.根据权利要求1至7中任一项所述的方法,其中:所述第二注意力块包括注意力子块集;并且所述注意力子块集中的每个注意力子块包括神经网络,所述神经网络包含至少一个自注意力层。9.根据权利要求1至8中任一项所述的方法,其中:所述第一注意力块包括第一多个注意力子块;
所述第二注意力块包括第二多个注意力子块;并且所述第一注意力子块集和所述第二注意力子块集中的每个注意力子块包括神经网络,所述神经网络包含至少一个自注意力层。10.根据权利要求1至9中任一项所述的方法,其中:所述肽表示集中的肽表示形成使用所述第一注意力块处理的聚合表示的第一部分;并且所述聚合表示的第二部分表示N
‑
侧翼序列或C
‑
侧翼序列中的至少一者。11.根据权利要求1至10中任一项所述的方法,其中:所述肽序列集中的肽序列形成聚合序列的第一部分;并且所述聚合序列的第二部分包括N
‑
侧翼序列或C
‑
侧翼序列中的至少一者;并且所述基于注意力的机器学习模型包括接收和处理所述聚合序列以形成聚合表示的表示块,所述聚合表示包括所述肽表示集中的对应于所述肽序列的肽表示,其中所述聚合表示由所述第一注意力块处理。12.根据权利要求1至11中任一项所述的方法,其进一步包括:嵌入所述IPC序列以生成所述IPC序列的经嵌入的IPC表示;以及按位置编码所述IPC序列的所述经嵌入的IPC表示,以生成所述IPC表示。13.根据权利要求1至12中任一项所述的方法,其中所述基于注意力的机器学习模型包括多个自注意力层,并且针对所述多个自注意力层中的每一个,包括对应下游前馈神经网络。14.根据权利要求1至13中任一项所述的方法,其中:所述第一注意力块包括被配置为接收和处理所述肽表示集中的肽表示以生成经转换的肽表示的第一神经网络;并且所述第二注意力块包括被配置为接收和处理所述IPC表示以生成经转换的IPC表示的第二神经网络;并且其中所述第一神经网络和所述第二神经网络中的每一者包含至少一个自注意力层;并且其中所述基于注意力的机器学习模型被配置为使用所述经转换的肽表示和所述经转换的IPC表示来生成合成表示。15.根据权利要求1至14中任一项所述的方法,其中所述基于注意力的机器学习模型进一步包括:合成注意力块,其包括被配置为接收和处理所述合成表示的神经网络,其中所述神经网络包括自注意力层。16.根据权利要求1至15中任一项所述的方法,其中所述基于注意力的机器学习模型进一步包括:合成注意力块,其包括注意力子块集,其中所述注意力子块集中的每个注意力子块包括包含至少一个自注意力层的神经网络。17.根据权利要求1至16中任一项所述的方法,其中所述IPC包含主要组织相容性复合体(MHC)并且对应的肽
‑
IPC组合包括所述肽集中的肽和所述MHC,并且其中:针对所述对应的肽
‑
IPC组合的所述相互作用亲和力预测预测所述肽与所述MHC之间的
结合亲和力;并且针对所述对应的肽
‑
IPC组合的所述相互作用预测预测所述MHC是否将在细胞表面呈递所述肽。18.根据权利要求1至17中任一项所述的方法,其中使用训练数据集训练所述基于注意力的机器学习模型,所述训练数据集包括多个训练肽序列和训练MHC序列集的实验相互作用亲和力数据或实验相互作用数据中的至少一者。19.根据权利要求1至18中任一项所述的方法,其中所述IPC为T细胞受体(TCR),并且对应的肽
‑
IPC对包括所述肽集中的肽以及所述TCR或所述TCR和主要组织相容性复合体(MHC),并且其中:针对对应的肽
‑
IPC组合的所述免疫原性预测预测所述肽相对于所述TCR的免疫原性;并且使用训练数据集训练所述基于注意力的机器学习模型,所述训练数据集包括多个训练肽序列和训练TCR序列集的实验免疫原性数据。20.根据权利要求1至19中任一项所述的方法,其中所述训练数据集包括多个训练数据元素,所述多个训练数据元素中的至少一个训练数据元素包括以下中的至少一项:训练肽序列,其表征不包括在所述肽集中的训练肽;训练IPC序列,其表征不同于所述IPC的训练IPC;以及基于实验的结果,其识别所述训练肽与所述训练IPC之间的相互作用亲和力指示,其中使用基于测定或生物传感器的方法检测所述相互作用亲和力指示。21.根据权利要求1至20中任一项所述的方法,其中所述训练数据集包括多个训练数据元素,所述多个训练数据元素中的至少一个训练数据元素包括以下中的至少一项:训练肽序列,其表征不包括在所述肽集中的训练肽;训练MHC序列,其表征不同于所述IPC的训练MHC;以及基于实验的结果,其包括识别所述训练肽是否由所述训练MHC在细胞表面呈递的相互作用指示,其中使用免疫沉淀或质谱中的至少一者确定所述相互作用指示。22.根据权利要求1至21中任一项所述的方法,其进一步包括:在处理步骤之前,使用训练数据集训练所述基于注意力的机器学习模型,所述训练数据集包括针对多个肽
‑
IPC组合的结合亲和力、相互作用指示或免疫原性指示中的至少一者,其中所述训练数据集包括多个训练主要组织相容性复合体(MHC)序列或多个训练T细胞受体(TCR)序列中的至少一者以及多个训练肽序列。23.根据权利要求1至22中任一项所述的方法,其中所述处理包括:使用所述第一注意力块处理所述肽表示集并且使用所述第二注意力块处理所述IPC表示,以生成针对肽
‑
IPC组合集的合成表示集;处理所述合成表示集以生成结果集;选取所述肽
‑
IPC组合集中的子集,其中所述子集中的每个肽
‑
IPC组合与所述肽
‑
IPC组合集中的其余子集相比更可能发生选取的相互作用集,其中所述报告识别所述子集内的每种肽。24.根据权利要求1至23中任一项所述的方法,其中:
使用所述肽集中的每种肽形成肽
‑
IPC组合集;并且所述基于注意力的机器学习模型被配置为生成针对所述肽
‑
IPC组合集中的每个肽
‑
IPC组合的所述免疫原性预测,针对所述肽
‑
IPC组合集中的肽
‑
IPC组合的所述免疫原性预测为对所述肽
‑
IPC组合中肽的肿瘤特异性免疫原性的预测。25.根据权利要求1至24中任一项所述的方法,其中所述报告从所述肽集中识别相对于所述肽集的其余部分具有增强的肿瘤特异性免疫原性的肽子集。26.根据权利要求1至25中任一项所述的方法,其中:所述IPC为主要组织相容性复合体(MHC);使用所述肽集中的每种肽形成肽
‑
MHC组合集;并且所述基于注意力的机器学习模型被配置为生成针对所述肽
‑
MHC组合集中的每个肽
‑
MHC组合的所述相互作用预测,针对所述肽
‑
MHC组合集中的肽
‑
MHC组合的相互作用预测为对所述肽
‑
MHC组合中的肽是否由所述MHC在细胞表面呈递的预测。27.根据权利要求26所述的方法,其中所述报告从所述肽集中识别相对于所述肽集的其余部分具有增强的由所述MHC呈递的可能性的肽子集。28.根据权利要求1至27中任一项所述的方法,其中:所述肽序列集中的肽序列为表征突变肽的变体编码序列,所述变体编码序列包含:第一部分,其识别在所述突变肽的N末端的序列;以及第二部分,其识别所述突变肽的表位的序列;并且所述处理包括:使用所述初始注意力子系统的第一自注意力层处理所述变体编码序列的所述第一部分的第一表示;使用所述初始注意力子系统的第二自注意力层处理所述变体编码序列的所述第二部分的第二表示。29.根据权利要求28所述的方法,其中所述第一表示和所述第二表示在所述第一注意力块内处理。30.根据权利要求1至29中任一项所述的方法,其中所述基于注意力的机器学习模型包括一个或多个转换器编码器,其中所述一个或多个转换器编码器中的每一个包括自注意力层。31.根据权利要求1至30中任一项所述的方法,其中所述IPC序列和所述肽序列集中的每个肽序列包括有序的氨基酸标识符集。32.根据权利要求1至31中任一项所述的方法,其中使用所述疾病样品识别所述IPC序列。33.根据权利要求1至32中任一项所述的方法,其中使用来自所述受试者的生物学样品识别所述IPC序列。34.根据权利要求1至33中任一项所述的方法,其中所述疾病样品包括癌细胞。35.根据权利要求1至34中任一项所述的方法,其中:所述受试者的所述IPC包括主要组织相容性复合体(MHC);所述IPC序列包括MHC序列;并且所述IPC表示包括MHC表示。
36.根据权利要求35所述的方法,其中所述MHC包括MHC I类分子。37.根据权利要求35所述的方法,其中所述MHC包括MHC II类分子。38.根据权利要求1至35中任一项所述的方法,其中:所述受试者的所述IPC包括T细胞受体(TCR);所述IPC序列包括TCR序列;并且所述IPC表示包括TCR表示。39.根据权利要求1至38中任一项所述的方法,其中所述疾病样品包括组织。40.根据权利要求1至39中任一项所述的方法,其中所述肽集中的至少一种肽为新抗原。41.根据权利要求1至40中任一项所述的方法,其中所述肽序列集中的至少一个肽序列为来源于所述疾病样品的基因组序列。42.根据权利要求1至41中任一项所述的方法,其中所述变体编码序列集中的至少一个中的每个变体编码序列基于所述疾病样品的RNA序列。43.根据权利要求1至42中任一项所述的方法,其中:所述对应的肽
‑
IPC组合包括来自所述肽集的肽和所述IPC;所述IPC为主要组织相容性复合体(MHC);所述相互作用亲和力预测为对所述肽与所述MHC之间的结合的结合亲和力的预测;并且所述相互作用预测为对所述肽由所述MHC在细胞表面呈递的预测。44.根据权利要求1至43中任一项所述的方法,其进一步包括:接收由用户输入的输入数据,所述输入数据对应于所述受试者;其中响应于接收所述输入数据,经由从数据存储中检索来访问所述肽序列集和所述IPC序列;并且其中所述报告从所述肽集中识别肽的子集,以包括在个体化疫苗中来治疗所述受试者的医学病况。45.根据权利要求44所述的方法,其进一步包括:为所述受试者生成包括所述个体化疫苗的治疗建议。46.根据权利要求1至45中任一项所述的方法,其进一步包括:接收由用户输入的输入数据,所述输入数据对应于所述受试者;其中响应于接收所述输入数据,经由从数据存储中检索来访问所述肽序列集和所述IPC序列;并且基于所述报告确定用于包括在个体化疫苗中的治疗肽集;以及启动有助于制造包括所述治疗肽集的所述个体化疫苗的操作。47.根据权利要求46所述的方法,其中所述启动所述操作包括:生成触发所述个体化疫苗的所述制造中涉及的计算机化过程的警示。48.根据权利要求1至47中任一项所述的方法,其中所述处理包括:从所述基于注意力的机器学习模型中的嵌入块接收包含多个元素的表示,其中所述表示为表示所述肽序列集中的肽序列的所述肽表示集中的肽表示或表示所述IPC序列的所述IPC表示;并且
其中多元素数据集中的每个元素对应于所述肽序列或所述IPC序列中的单体;针对所述多个元素中的每个元素,分别基于与所述基于注意力的机器学习模型的自注意力层相关联的键权重集、值权重集和查询权重集来确定键向量、值向量和查询向量;执行所述多个元素的转换以形成多个经修改的元素,其中使用针对所述多个元素生成的注意力分数和针对所述多个元素中的每个元素确定的所述值向量来执行所述转换;以及基于所述多个经修改的元素生成所述输出。49.根据权利要求48所述的方法,其中针对所述多个元素中的选取的元素执行所述转换包括:使用所述元素的所述键向量和所述查询向量来确定所述选取的元素的注意力分数,其中所述多个元素的除所述选取的元素以外的其余部分形成其余元素集;使用所述其余元素的键向量和所述选取的元素的所述查询向量来确定所述其余元素集中的每个其余元素的附加注意力分数,以形成附加注意力分数集;以及使用所述注意力分数、所述附加注意力分数集和所述多个元素中的每个元素的所述值向量来生成经修改的元素。50.根据权利要求1至49中任一项所述的方法,其进一步包括:在显示系统上的图形用户界面上显示所述报告。51.根据权利要求1至50中任一项所述的方法,其中所述处理在第一计算平台上执行并且进一步包括:通过包括有线通信链路或无线通信链路中的至少一者的通信链路集将所述报告发送到第二计算平台。52.根据权利要求1至51中任一项所述的方法,其进一步包括:基于所述报告确定包括所述肽集中的至少一种肽作为免疫疗法的靶标。53.根据权利要求52所述的方法,其中所述免疫疗法选自由以下项组成的组:T细胞疗法、个人化癌症疗法、抗原特异性免疫疗法、抗原依赖性免疫疗法、疫苗和自然杀伤(NK)细胞疗法。54.根据权利要求1至53中任一项所述的方法,其进一步包括:基于所述报告确定排除所述肽集中的至少一种肽作为免疫疗...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。