用于预测表面呈递肽的机器学习技术制造技术

技术编号:38527792 阅读:9 留言:0更新日期:2023-08-19 17:03
本公开内容提供了使用结合和表面呈递特性预测表面呈递肽的方法。所述方法可以包括访问训练的机器学习模型,所述训练的机器学习模型被配置为产生输出,所述输出指示一个或多个表达水平与一种或多种肽呈递度量根据表达与呈递之间的群体

【技术实现步骤摘要】
【国外来华专利技术】用于预测表面呈递肽的机器学习技术
相关申请的交叉引用
[0001]本申请要求2020年6月18日提交的标题为“用于癌症免疫治疗的复合生物标志物(Composite Biomarkers for Immunotherapy for Cancer)”的美国临时申请第63/040,943号和2020年11月7日提交的标题为“用于预测表面呈递肽的机器学习技术(Machine

Learning Techniques For Predicting surface

presenting peptides)”的美国临时申请第63/111,007号的优先权,其全部内容出于所有目的通过引用以其整体并入本文。专利技术背景
[0002]癌症包括突变,其可以是体细胞的和肿瘤特异性的。免疫系统通过鉴定衍生自这些突变的肽来检测这些基于癌症的突变。当肽结合由主要组织相容性复合物(MHC)基因编码的蛋白质并且被呈递在细胞表面上时,可以通过免疫系统来鉴定所述肽。例如,对应于突变基因的肽能够结合特定的MHC分子(例如,人白细胞抗原(HLA)蛋白)并且被呈递在细胞表面上。预测在肿瘤细胞表面上表达的肽可以告知精确的癌症治疗和诊断的发展。例如,可以鉴定对应于这些肽的基因组变体以分析复杂系统对某些癌症免疫疗法的反应和抗性。作为另一个实例,可以分析肿瘤细胞表面上呈递的肽以产生个性化免疫肿瘤学(I

O)疗法和/或新抗原癌症疫苗。
[0003]用于预测在肿瘤细胞表面上表达的这种肽(也称为“新抗原”)的技术需要深入分析许多技术因素,包括但不限于肽测序数据的质量、成对肿瘤和正常样品的可用性、HLA分型和其它肽特性的鉴定。例如,可以基于将结合MHC分子并且被呈递在细胞表面上的肽的预测来鉴定新抗原。为了鉴定新抗原,确定由体细胞变体编码的肽和鉴定结合肽的HLA分子仅仅是非常复杂的过程中的初始步骤。这是因为从序列数据中鉴定的每个肽可以是或可以不是:由蛋白酶体加工的;被运输用于MHC结合;被呈递在肿瘤细胞表面上;以及最终被免疫系统识别。由于这种复杂的过程,许多与HLA分子(例如)结合的肽可能不在细胞表面上表达。
[0004]此外,可鉴定MHC分子的一个或多个结合基序以确定给定肽是否将结合MHC分子。尽管一些MHC分子(例如HLA

A分子)的结合基序是已知的,但仍有许多MHC分子的结合基序有待鉴定。例如,由于实验数据的可用性有限,因此MHC II类分子的结合基序是相对未知的。在没有该信息的情况下,很难确定肽是否将结合相应的MHC分子。常规技术已经尝试通过使用已知的MHC结合基序训练机器学习模型来预测肽是否将结合各种类型的MHC分子之一来解决这个问题。然而,即使当鉴定这样的肽时,它们中的一些也可能不被呈递在细胞表面上。换句话说,常规技术可以鉴定MHC结合肽,但是它们中只有一小部分可以被成功地呈递在细胞表面上。由于当MHC结合肽被呈递在细胞表面上时,触发免疫系统应答,因此单独鉴定MHC结合肽不能提供关于免疫系统如何应答肿瘤细胞、外源蛋白等的所有细节。
[0005]因此,用于预测MHC结合肽的常规技术不能解决肽是否实际上被呈递在细胞表面上并且在细胞表面上表达。常规的技术也不能鉴定指示给定肽被呈递在细胞表面上的特性。因此,需要准确预测这样的肽,其与它们相应的MHC分子结合并且被呈递在细胞表面上。

技术实现思路

[0006]在一些实施方案中,提供了预测表面呈递肽的方法。所述方法可以包括访问训练的机器学习模型,所述模型使用训练数据集进行训练,对于由所述训练数据集鉴定的多个肽中的每个肽,所述训练数据集包括:结合并呈递所述肽的主要组织相容性复合物(MHC)分子的蛋白质特性;一个或多个表达水平,其代表编码所述肽的基因的表达水平;以及一种或多种肽呈递度量,其代表被检测为由MHC分子呈递的肽的量。机器学习模型可以被配置为产生输出,所述输出指示一个或多个表达水平与一种或多种肽呈递度量根据表达与呈递之间的群体

水平关系而关联的程度。
[0007]所述方法还可以包括访问对应于对象的生物样品的基因组和转录组数据。所述基因组和转录组数据可以从所述生物样品中鉴定一种或多种MHC分子,并且对于从细胞系或组织样品中鉴定的肽集合中的每个肽,所述基因组和转录组数据包括代表所述肽的一个或多个值。所述一个或多个值可以基于所述组织样品的处理来测定。所述方法还可以包括使用机器学习模型、从所述生物样品中鉴定的一种或多种MHC分子以及代表所述肽的一个或多个值测定所述肽集合中的每个肽的得分。所述方法可以包括基于所述得分产生结果并输出所述结果。
[0008]本公开内容的一些实施方案包括包含一个或多个数据处理器的系统。在一些实施方案中,所述系统包括非暂时性计算机可读存储介质,其含有在所述一个或多个数据处理器上执行时使得所述一个或多个数据处理器执行本文所公开的一个或多个方法的部分或全部和/或一个或多个过程的部分或全部的指令。本公开内容的一些实施方案包括有形地包含在非暂时性机器可读存储介质中的计算机程序产品,其包括被配置为使一个或多个数据处理器执行本文公开的一个或多个方法的部分或全部和/或一个或多个过程的部分或全部的指令。
[0009]所使用的术语和表述被用作描述性术语而不是限制性术语,并且使用这样的术语和表述并不旨在排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本专利技术的范围内可以进行各种修改。因此,应当理解,尽管已经通过实施方案和可选特征具体公开了所要求保护的本专利技术,但是本领域技术人员可以对本文公开的概念进行修改和变化,并且这些修改和变化被认为在由所附权利要求限定的本专利技术的范围内。附图简述
[0010]结合附图描述本公开内容:
[0011]图1说明了结合MHC分子并且被呈递在细胞表面上的肽的示意图。
[0012]图2说明了显示响应基因治疗的可以在细胞表面上呈递的肽的示意图。
[0013]图3说明了根据一些实施方案鉴定可用于训练机器学习模型的单等位基因免疫肽组学(immunopeptidomics)数据的示意图。
[0014]图4显示了根据一些实施方案对应于MHC结合肽的等位基因多样性数据。
[0015]图5显示了根据一些实施方案,从组织和细胞系样品中鉴定的用于训练用于预测表面呈递肽的机器学习模型的源多样性数据。
[0016]图6显示了根据一些实施方案,基于基因表达水平的预期肽计数与实际观察到的肽计数之间的比较数据的图。
[0017]图7显示了根据一些实施方案,用于确定用于训练机器学习模型的基因倾向得分
的过程。
[0018]图8显示了根据一些实施方案,基因内一个或多个区域的预期肽计数与针对所述区域的实际观察到的肽计数之间的比较数据的图。
[0019]图9显示了根据一些实施方案,用于确定用于训练机器学习模型的热点得分的过程。
[0020]图10显示了根据一些实施方案,结合模型和呈递模型所使用的特征的实例。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.方法,其包括:访问机器学习模型,其中所述机器学习模型:使用训练数据集来训练,对于由所述训练数据集鉴定的多个肽中的每个肽,所述训练数据集包括:结合并呈递所述肽的主要组织相容性复合物(MHC)分子的蛋白质特性;一个或多个表达水平,其代表编码所述肽的基因的表达水平;以及一种或多种肽呈递度量,其代表被检测为已经由所述MHC分子呈递的肽的量;被配置为产生输出,所述输出指示所述一个或多个表达水平与所述一种或多种肽呈递度量根据表达与呈递之间的群体

水平关系而关联的程度;访问对应于对象的组织样品的基因组和转录组数据,其中所述基因组和转录组数据从所述生物样品中鉴定一种或多种MHC分子,并且对于从所述组织样品中鉴定的肽集合中的每个肽,所述基因组和转录组数据包括代表所述肽的一个或多个值,基于所述组织样品的处理已经确定所述一个或多个值中的至少一个;对于所述肽集合中的每个肽,使用所述机器学习模型、从所述生物样品中鉴定的一种或多种MHC分子以及代表所述肽的一个或多个值测定得分;基于所述得分生成结果;以及输出所述结果。2.如权利要求1所述的方法,其还包括:基于所述得分选择所述肽集合的不完全子集,其中所述不完全子集的鉴定以以下方式进行:相对于通过所述群体

水平关系所预期的概率,偏向于选择与预测更可能呈递的得分相关的肽,其中所述结果包括所述肽集合的不完全子集。3.如权利要求1所述的方法,其还包括:基于所述得分选择所述肽集合的不完全子集,其中所述不完全子集的鉴定以偏向于选择与空间中的区域相关的肽的方式进行,所述区域与所述训练数据集中的异常肽相关,对于所述异常肽,表达水平和肽呈递量度以偏离所述群体

水平关系的方式关联。4.如权利要求1所述的方法,其中对于所述肽集合的一个或多个中的每个肽,所述结果包括所述肽的鉴定和所述得分。5.如权利要求1所述的方法,其中对于所述肽集合中的每个肽,基于所述肽的氨基酸序列、所述肽是否结合所述MHC分子的一个或多个结合袋的指示、所述肽在所述组织样品中的表达水平和/或所述肽的长度产生代表所述肽的一个或多个值。6.如权利要求1所述的方法,其中所述训练数据集来源于对应于来源于单等位基因细胞系的肽的单等位基因数据和/或对应于来源于其它组织样品的肽的多等位基因数据。7.如权利要求1所述的方法,其中对应于所述肽...

【专利技术属性】
技术研发人员:查尔斯
申请(专利权)人:佩索纳里斯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1