一种确定微生物来源的肿瘤新抗原表位的方法及装置制造方法及图纸

技术编号:38356212 阅读:10 留言:0更新日期:2023-08-05 17:27
本申请涉及一种确定微生物来源的肿瘤新抗原表位的方法、装置、计算设备、计算机可读储存介质和计算机程序产品,其可基于已知的微生物蛋白序列或宏基因组预测的微生物蛋白序列,预测、筛选可被宿主免疫系统识别的蛋白片段,并实现快速、高效、高准确性地确定新抗原表位。高准确性地确定新抗原表位。高准确性地确定新抗原表位。

【技术实现步骤摘要】
一种确定微生物来源的肿瘤新抗原表位的方法及装置


[0001]本公开内容涉及生物信息学和肿瘤免疫治疗的
,更具体地说,涉及确定微生物来源的肿瘤新抗原表位的方法、装置、计算设备、计算机可读储存介质和计算机程序产品。

技术介绍

[0002]肿瘤特异性抗原,又称肿瘤新抗原,是一种仅产生于肿瘤细胞的抗原,它可以与人类白细胞抗原(HLA)结合,进而被CD4+、CD8+T细胞识别,激活机体的抗肿瘤免疫反应(Zhang,Z.,et al.,Neoantigen:A New Breakthrough in Tumor Immunotherapy.Front Immunol,2021.12:p.672356.)。新抗原的来源很多,包括单核苷酸变异(SNVs)、插入/缺失(INDELs)、转录本剪接变异、基因融合等。新抗原不存在于正常的组织细胞中,因此绕过了中枢性耐受,可以避免对非肿瘤组织造成脱靶损伤,成为肿瘤免疫治疗的新靶点,且具备构建癌症疫苗的理想条件,拥有广泛的治疗前景和临床应用价值。
[0003]已有研究表明,广泛存在微生物,例如细菌,侵入肿瘤,入侵肿瘤细胞的细菌的蛋白片段可以呈现在肿瘤细胞表面,并被免疫系统识别。进而激活免疫细胞,增强免疫细胞对肿瘤细胞的识别,杀伤肿瘤细胞。Kalaora S,et al.Identification of bacteria

derived HLA

bound peptides in melanoma.Nature.2021Apr;592(7852):138

143.提出呈现在肿瘤细胞上的细菌肽可以作为免疫疗法的潜在目标,为细菌影响免疫系统的激活和治疗反应的机制提供了方向。该团队对黑色素瘤中肿瘤内细菌进行鉴定,获得这些细菌基因组图谱,使用16S rRNA基因测序和HLA肽组学(HLA peptidomics)鉴定够被免疫系统识别的细菌的肽序列,最终鉴定出黑色素瘤细胞表面的由HLA蛋白复合物呈递的来自41种不同细菌的近300种肽。细菌来源的肽中有许多是同一患者的不同转移瘤或不同患者的肿瘤所共有的,因此还具有产生免疫激活的强大能力。
[0004]基于高通量测序(NGS)的宏基因组测序,可在种水平准确鉴定微生物种类、预测微生物基因组当中的基因和基因表达的蛋白,将有助于确定微生物来源的肿瘤新抗原表位。

技术实现思路

[0005]本公开内容的第一方面提出了一种确定微生物来源的肿瘤新抗原表位的方法,所述方法包括:获取宏基因组测序数据,所述宏基因组测序数据包含将肿瘤相关样本和非肿瘤相关样本中的细菌DNA高通量测序后的测序数据;基于所述宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于所述组装的基因组序列,预测基因组中的编码基因;基于预测的编码基因和/或所述宏基因组测序数据,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;确定所述肿瘤相关样本中显著性富集的细菌;获取细菌已知物种判断结果,所述细菌已知物种判断结果指示所述显著性富集的细菌是否为已知物种;基于所述显著性富集的细菌,通过已知基因组数据库,确定已知物种的细菌的基因组或蛋白序列;或者基于所述显著性富集的细菌,根据所述预测的编码基因,确定未知物种的细菌
的蛋白序列;预测所述已知物种的细菌的蛋白序列中的肽段或所述未知物种的细菌的蛋白序列中的肽段与MHC的结合亲和力,筛选与MHC可结合的已知物种的细菌的蛋白序列中的肽段或未知物种的细菌的蛋白序列中的肽段,进而确定可结合MHC的肽段;以及基于所述可结合MHC的肽段,确定所述可结合MHC的肽段的免疫原性、与宿主相似度和MHC分型数量,并且基于所述免疫原性、与宿主相似度和MHC分型数量筛选肽段,进而确定肿瘤新抗原表位。
[0006]可选地,在上述方面的一个实施方案中,所述肿瘤相关样本为供体肿瘤组织样本或者肿瘤患者粪便样本。
[0007]可选地,在上述方面的一个实施方案中,所述非肿瘤相关样本为供体癌旁组织样本、正常组织样本或者健康人群的粪便样本。
[0008]可选地,在上述方面的一个实施方案中,所述方法还包括:在基于所述宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于所述组装的基因组序列,预测基因组中的编码基因之前,对所述宏基因组测序数据进行质量控制,进而获取质量控制后的宏基因组测序数据。
[0009]可选地,在上述方面的一个实施方案中,所述质量控制的标准为:末端碱基质量大于Q20,N碱基数量小于5,序列长度大于等于100bp。
[0010]可选地,在上述方面的一个实施方案中,基于预测的编码基因和/或所述宏基因组测序数据,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度包括:基于所述预测的编码基因,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;或者基于所述宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;或者基于所述预测的编码基因,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;基于所述宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;和选取基于预测的编码基因确定细菌种类和丰度以及使用物种注释软件确定细菌种类和丰度的结果中均包含的细菌种类作为确定的肿瘤相关样本和非肿瘤相关样本中的细菌种类,并确定其相应的细菌丰度。
[0011]可选地,在上述方面的一个实施方案中,所述组装的基因组序列的长度大于等于90bp。
[0012]可选地,在上述方面的一个实施方案中,基于所述预测的编码基因,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度包括:将所述预测的编码基因与已知数据库中的序列进行序列比对以预测细菌种类,并确定同分类水平的细菌丰度。
[0013]可选地,在上述方面的一个实施方案中,进行序列比对的输入序列为所述预测的编码基因翻译后的蛋白序列。
[0014]可选地,在上述方面的一个实施方案中,基于所述宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于所述组装的基因组序列,预测基因组中的编码基因包括:基于质量控制后的宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于组装的基因组序列,预测基因组中的编码基因。
[0015]可选地,在上述方面的一个实施方案中,基于所述宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度包括:基于质量控制后的宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度。
[0016]可选地,在上述方面的一个实施方案中,确定所述肿瘤相关样本中显著性富集的细菌包括:通过Wilcoxon秩和检验确定显著性富集的细菌。
[0017]可选地,在上述方面的一个实施方案中,显著性富集的细菌的筛选标准为:肿瘤相关样本中的细菌丰度大于等于非肿瘤相关样本中细菌丰度的2倍,统计检验p

值小于等于0.05。...

【技术保护点】

【技术特征摘要】
1.一种确定微生物来源的肿瘤新抗原表位的方法,所述方法包括:获取宏基因组测序数据,所述宏基因组测序数据包含将肿瘤相关样本和非肿瘤相关样本中的细菌DNA高通量测序后的测序数据;基于所述宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于所述组装的基因组序列,预测基因组中的编码基因;基于预测的编码基因和/或所述宏基因组测序数据,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;确定所述肿瘤相关样本中显著性富集的细菌;获取细菌已知物种判断结果,所述细菌已知物种判断结果指示所述显著性富集的细菌是否为已知物种;基于所述显著性富集的细菌,通过已知基因组数据库,确定已知物种的细菌的基因组或蛋白序列;或者基于所述显著性富集的细菌,根据所述预测的编码基因,确定未知物种的细菌的蛋白序列;预测所述已知物种的细菌的蛋白序列中的肽段或所述未知物种的细菌的蛋白序列中的肽段与MHC的结合亲和力,筛选与MHC可结合的已知物种的细菌的蛋白序列中的肽段或未知物种的细菌的蛋白序列中的肽段,进而确定可结合MHC的肽段;以及基于所述可结合MHC的肽段,确定所述可结合MHC的肽段的免疫原性、与宿主相似度和MHC分型数量,并且基于所述免疫原性、与宿主相似度和MHC分型数量筛选肽段,进而确定肿瘤新抗原表位。2.根据权利要求1所述的方法,其中所述肿瘤相关样本为供体肿瘤组织样本或者肿瘤患者粪便样本,和/或所述非肿瘤相关样本为供体癌旁组织样本、正常组织样本或者健康人群的粪便样本。3.根据权利要求1或2所述的方法,所述方法还包括:在基于所述宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于所述组装的基因组序列,预测基因组中的编码基因之前,对所述宏基因组测序数据进行质量控制,进而获取质量控制后的宏基因组测序数据;优选地,所述质量控制的标准为:末端碱基质量大于Q20,N碱基数量小于5,序列长度大于等于100bp。4.根据权利要求1

3中任一项所述的方法,其中基于预测的编码基因和/或所述宏基因组测序数据,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度包括:基于所述预测的编码基因,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;或者基于所述宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;或者基于所述预测的编码基因,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;基于所述宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度;和
选取基于预测的编码基因确定细菌种类和丰度以及使用物种注释软件确定细菌种类和丰度的结果中均包含的细菌种类作为确定的肿瘤相关样本和非肿瘤相关样本中的细菌种类,并确定其相应的细菌丰度。5.根据权利要求1

4中任一项所述的方法,其中所述组装的基因组序列的长度大于等于90bp。6.根据权利要求4或5所述的方法,其中基于所述预测的编码基因,确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度包括:将所述预测的编码基因与已知数据库中的序列进行序列比对以预测细菌种类,并确定同分类水平的细菌丰度,优选地,进行序列比对的输入序列为所述预测的编码基因翻译后的蛋白序列。7.根据权利要求4

6中任一项所述的方法,其中基于所述宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于所述组装的基因组序列,预测基因组中的编码基因包括:基于质量控制后的宏基因组测序数据,进行宏基因组组装,获取组装的基因组序列,并基于组装的基因组序列,预测基因组中的编码基因;和/或基于所述宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度包括:基于质量控制后的宏基因组测序数据,使用物种注释软件确定所述肿瘤相关样本和非肿瘤相关样本中的细菌种类和丰度。8.根据权利要求1

7中任一项所述的方法,其中确定所述肿瘤相关样本中显著性富集的细菌包括:通过Wilcoxon秩和检验确定显著性富集的细菌;优选地,显著性富集的细菌的筛选标准为:肿瘤相关样本中的细菌丰度大于等于非肿瘤相关样本中细菌丰度的2倍,统计检验p

值小于等于0.05。9.根据权利要求1

8中任一项所述的方法,其中所述MHC为中国人群高频HLA。10.根据权利要求1

9中任一项所述的方法,其中筛选与MHC可结合的已知物种的细菌的蛋白序列中的肽段或未知物种的细菌的蛋白序列中的肽段的筛选标准为:亲和力排序前0.5%,亲和力大于0并且小于等于500nM。11.根据权利要求1

10中任一项所述的方法,其中基于所述可结合MHC的肽段,确定所述可结合MHC的肽段的免疫原性包括:基于深度神经网络建立的深度学习模型和所述可结合MHC的肽段,确定所述可结合MHC的肽段的免疫原性,优选地,基于所述可结合MHC的肽段,确定所述可结合MHC的肽段的免疫原性还包括根据深度学习模型打分,分值越高免疫原性越高;和/或基于所述可结合MHC的肽段,确定所述可结合MHC的肽段与宿主相似度包括:将所述可结合MHC的肽段与所述肿瘤相关样本和非肿瘤相关样本所来源的宿主的蛋白序列进行序列比对,确定所述可结合MHC的肽段与宿主相似度,优选地,基于所述可结合MHC的肽段,确定所述可结合MHC的肽段与宿主相似度还包括引入可结合MHC的肽段与宿主蛋白序列相似度打分,分值为序列比对的输出结果,分值越高与宿主相似度越高;和/或
基于所述可结合MHC的肽段,确定所述可结合MHC的肽段的MHC分型数量包括:统计所述可结合MHC的肽段可能...

【专利技术属性】
技术研发人员:于建东蔡毅骅陈庚李航文
申请(专利权)人:斯微上海生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1