一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法及系统技术方案

技术编号:33084329 阅读:15 留言:0更新日期:2022-04-15 10:44
本发明专利技术公开了一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法。本发明专利技术公开的肿瘤新生抗原检测方法,能够快速高效地检测出表达量高并且能够与HLA高亲和力且稳定结合的肿瘤新生抗原。本发明专利技术还公开了一种预测TCR

【技术实现步骤摘要】
一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法及系统
[0001]本申请以申请日为2020年12月04日,申请号为202011398320.9的专利技术专利申请为优先权基础。


[0002]本专利技术属于肿瘤新生抗原检测领域以及蛋白质三维结构预测领域,具体涉及一种基于组学检测的肿瘤新生抗原检测方法以及TCR

pMHC蛋白质三维结构预测的肿瘤新生抗原筛选方法。

技术介绍

[0003]肿瘤新生抗原(neoantigen),又称肿瘤特异性抗原(tumor

specific antigen,缩写TSA),是指肿瘤细胞所特有的能够与主要组织相容性复合物(major histocompatibility complex,缩写MHC)以及T细胞受体(T cell receptor,TCR)特异性结合的多肽片段。上世纪的研究表明,肿瘤细胞能够特异性的表达一些短肽,这些短肽能够被MHC结合并呈递,这些短肽即为肿瘤新生抗原。到了上世纪90年代,Boon等人发现肿瘤新生抗原能够被CD8+或CD4+的T细胞识别,并且,TCR、肿瘤新生抗原和MHC是通过形成三元复合物来发挥免疫效应的。
[0004]近些年,以CAR

T与免疫检查点抑制剂为代表的免疫疗法在肿瘤治疗中取得了很好的疗效,同样作为免疫疗法,基于癌症病人所特有的肿瘤新生抗原开发的个性化肿瘤疫苗在近几年也取得了较大的进展。2016年,Rosenberg研究团队在《新英格兰医学杂志》上发表重要成果,他们针对KRAS基因G12D突变设计肿瘤新生抗原,并将表达这些肿瘤抗原的淋巴细胞回输给癌症病人,使得病人的症状得到了缓解。Catherine J.Wu研究团队分别于2017和2019年在《nature》杂志上发表文章,报道了他们基于肿瘤新生抗原制备的肿瘤疫苗治疗黑色素瘤和恶性胶质瘤的研究成果。其中,在接受肿瘤疫苗治疗的黑色素瘤患者中出现了癌症不再复发的例子,虽然,接受肿瘤疫苗治疗的恶性胶质瘤患者全都死于并发疾病,但是,其中一些患者的存活时间得到了有效的延长,这些都说明个性化肿瘤疫苗对抑制肿瘤的发展具有很好的临床效果。
[0005]最近十年,随着高通量测序和机器学习在生物医学中的广泛应用,极大的提升了检测肿瘤新生抗原的效率以及准确性。到目前为止,多个筛选肿瘤新生抗原的计算机流程已经被开发出来,包括:pVACseq、MuPeXI、Tlminer、OpenVax、NeoEpiScope、EpiSeq和CloudNeo等。但是,这些计算机流程都只能够预测抗原肽与MHC的结合亲和力,并没有涉及pMHC(抗原肽与MHC形成的复合物)与TCR的结合。由于每一个人的TCR基因都存在基因重排的情况,使得每个人体内都存在成千上万的TCR,导致TCR和pMHC没有一种固定的结合模式,因此,基于蛋白质序列的机器学习方法并不适用于TCR与pMHC的亲和力预测。
[0006]目前市场上还没有出现能够预测TCR与pMHC结合亲和力及构象稳定性的肿瘤新生抗原检测方法;同时在筛选过程中,对抗原肽疏水性、氨基酸突变位点、抗原肽长度和氨基
酸分布规律等特征挖掘利用尚不充分。

技术实现思路

[0007]为克服上述现有技术中存在的缺陷,本专利技术创新提出了一种基于第二代基因组测序的肿瘤新生抗原检测方法,所述方法可以预测抗原肽与MHC的亲和力,还可以预测T细胞受体

肿瘤新生抗原

主要组织相容性复合物(TCR

pMHC)蛋白质复合物的三维结构,并对预测出的TCR

pMHC蛋白质结构进行打分,从蛋白质三维结构的层面评估TCR与pMHC的结合亲和力和/或构象稳定性,有助于从多角度检测肿瘤新生抗原。
[0008]本专利技术提供了一整套的肿瘤新生抗原检测及筛选方法,即一种基于分子组学技术以及TCR

pMHC三维结构预测的肿瘤新生抗原检测筛选方法,该方法可以通过预测出的TCR

pMHC的三维结构评估TCR与pMHC的结合亲和力,首次将TCR与pMHC结合亲和力和/或构象稳定性预测纳入肿瘤新生抗原的检测流程当中。
[0009]为了实现上述目的,本专利技术采用了以下的技术方案:
[0010]本专利技术提供了一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法,基于全基因组和/或全外显子和/或转录组测序数据进行,该方法包括以下步骤:
[0011](1)HLA分子分型步骤。在进行肿瘤新生抗原检测之前,首先需要确定HLA(human leukocyte antigen,人类白细胞抗原,是MHC在人体中的表达产物)的类型。本专利技术使用HLA分子分型软件预测最有可能的6种HLA分子类型,覆盖MHC I和MHC II主要亚型,参考HLA类型频率分布数据库,从6种HLA分子中挑选出1或2种在当地人群(患者所属特征人群)中出现频率最高的HLA,作为最终预测出的HLA分子。在本专利技术的一种实施方式中,基于全基因组和/或全外显子,具体采用了HLA分子分型软件如HLAminer和/或Polysolver预测HLA的类型。
[0012](2)肿瘤体细胞基因变异注释步骤。使用全基因组和/或全外显子测序技术可以检测人体的肿瘤体细胞基因变异进行注释,包括:点突变、插入缺失突变和融合基因变异,需要将这些基因变异在染色体上注释出来,所述注释结果的获得由转录组基因表达量检测进行辅助验证确定其表达。在本专利技术的一种实现方式中,具体采用了VEP(Variant Effect Prediction)的方法进行注释。
[0013](3)基因变异肽段翻译步骤。将变异核酸序列翻译成氨基酸序列,将包含基因变异的氨基酸序列截短为8

17个氨基酸长度的肽段,以9肽作为默认优先参数,11肽次之。在本专利技术的一种实现方式中,截取长度为n(n=8

13)个氨基酸的变异抗原肽。对于氨基酸点突变,以点突变为中心分别向前后各延伸(n

1)个氨基酸,从变异氨基酸序列中截取(2n

1)个氨基酸长度的肽段,使用长度为n的滑动窗口,将(2n

1)个氨基酸长度的肽段截短为n个氨基酸长度的突变抗原肽;在本专利技术的一种实现方式中,插入突变的长度为m个氨基酸,对于插入突变,向插入片段前后各延伸(n

1)个氨基酸,从变异氨基酸序列中截取(m+2n

2)个氨基酸长度的肽段,使用长度为n的滑动窗口,将(m+2n

2)个氨基酸长度的肽段截短为n个氨基酸长度的突变抗原肽;对于缺失突变,以缺失位点为中心分别向前后各延伸(n

1)个氨基酸,从变异氨基酸序列中截取(2n

2)个氨基酸长度的肽段,使用长度为n的滑动窗口,将(2n

2)个氨基酸长度的肽段截短为n个氨基酸长度的突变抗原肽;对于融合基因变异,以融合位点为中心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法,其特征在于,所述方法基于全基因组和/或全外显子和/或转录组测序数据,包括以下步骤:步骤(1):HLA分子分型步骤:基于全基因组和/或全外显子数据进行,预测HLA分子类型;步骤(2):肿瘤体细胞基因变异注释;步骤(3):基因变异肽段翻译,得到变异抗原肽;步骤(4):所述抗原肽与HLA分子的亲和力预测;步骤(5):基于转录组测序数据进行抗原肽基因表达量检测;步骤(6):基于所述步骤(4)的亲和力预测结果以及所述步骤(5)的抗原肽基因表达量检测结果,并纳入抗原肽疏水性评估和氨基酸突变位点范式,综合定量抗原肽筛选;步骤(7):通过步骤(6)的抗原肽筛选结果,进行抗原肽结构稳定性预测筛选。2.如权利要求1所述的方法,其特征在于,所述方法适用于点突变、插入缺失突变和融合基因变异的肿瘤新生抗原筛选。3.如权利要求1所述的方法,其特征在于,所述步骤(1)中,进行HLA分子分型的方法包括:预测6种HLA分子类型,所述HLA分子类型覆盖MHC I和MHC II的主要亚型;参考HLA类型频率分布数据库,从6种HLA分子中挑选出1或2种在患者所属特征人群中出现频率最高的HLA,作为最终预测出的HLA分子;使用HLA分子分型软件,包括:HLAminer和/或Polysolver预测HLA分子类型。4.如权利要求1所述的方法,其特征在于,所述步骤(2)中,对于使用全基因组和/或全外显子测序技术检测出的肿瘤体细胞基因变异进行注释,包括:点突变、插入缺失突变和融合基因变异,将这些基因变异在染色体上注释出来,注释结果的获得由转录组基因表达量检测进行辅助验证确定其表达。5.如权利要求1所述的方法,其特征在于,所述步骤(3)中,将变异核酸序列翻译成氨基酸序列,将包含基因变异的氨基酸序列截短为8

17个氨基酸长度的肽段,截取长度为n,n=8

17个氨基酸的变异抗原肽;对于氨基酸点突变,以点突变为中心分别向前后各延伸n

1个氨基酸,从变异氨基酸序列中截取2n

1个氨基酸长度的肽段,使用长度为n的滑动窗口,将2n

1个氨基酸长度的肽段截短为n个氨基酸长度的突变抗原肽;插入突变的长度为m个氨基酸,对于插入突变,向插入片段前后各延伸n

1个氨基酸,从变异氨基酸序列中截取m+2n

2个氨基酸长度的肽段,使用长度为n的滑动窗口,将m+2n

2个氨基酸长度的肽段截短为n个氨基酸长度的突变抗原肽;对于缺失突变,以缺失位点为中心分别向前后各延伸n

1个氨基酸,从变异氨基酸序列中截取2n

2个氨基酸长度的肽段,使用长度为n的滑动窗口,将2n

2个氨基酸长度的肽段截短为n个氨基酸长度的突变抗原肽;对于融合基因变异,以融合位点为中心分别向前后各延伸n

1个氨基酸,从变异氨基酸序列中截取2n

2个氨基酸长度的肽段,使用长度为n的滑动窗口,将2n

2个氨基酸长度的肽段截短为n个氨基酸长度的变异抗原肽。6.如权利要求5所述的方法,其特征在于,所述氨基酸序列参考预测HLA分子分型匹配情况进行处理;MHC I和/或MHC II分型至少确保1种;和/或,MHC I相关分型截短为9肽、10肽或11肽,和/或,MHC II相关分型截短为13肽、14肽、15
肽或16肽。7.如权利要求1所述的方法,其特征在于,所述步骤(4)中,单独或综合使用软件包括netMHCpan和/或MetaMHCpan和/或PSSMHCpan,预测HLA与抗原肽的亲和力。8.如权利要求1所述的方法,其特征在于,所述步骤(5)中,基于转录组测序数据,采用基因表达量计算软件计算抗原肽所在基因的表达量,代表抗原肽的表达量,采用软件包括HTSeq和/或Salmon,计算抗原肽所在基因的read counts和/或TPM和/或FPKM和/或RPKM作为衡量抗原肽表达量高低的度量值。9.如权利要求1所述的方法,其特征在于,所述步骤(6)中,进行综合定量抗原肽筛选时,使用抗原肽的亲和力阈值和表达量阈值作为筛选依据;在筛选步骤中,同时纳入抗原肽疏水性评估和氨基酸突变位点范式,在抗原肽亲和力和表达值评分相近的情况下,依据抗原肽疏水性评估和氨基酸突变位点范式进行筛选。10.如权利要求9所述的方法,其特征在于,抗原肽筛选中,使用抗原肽的亲和力阈值和表达量阈值作为筛选依据,进一步筛选具有较高表达量且亲和力高的抗原肽;并在抗原肽亲和力和表达量评分相近的情况下,进一步筛选到其中疏水性整体较弱和/或突变位点符合固定范式的抗原肽,其中疏水性通过评分或疏水残基比例进行评估;和/或,所述突变位点范式重点考虑2号位和3号位氨基酸。11.如权利要求1所述的方法,其特征在于,所述步骤(7)中,进行抗原肽结构稳定性预测筛选时,在步骤(1)~(6)筛选后保留的抗原肽中,根据抗原肽长度和氨基酸分布规律进行稳定性估算;同时,使用抗原肽结构稳定性预测软件预测抗原肽的蛋白结构稳定性,确保在细胞内不被降解并进一步被MHC与TCR结合;采用软件NetMHCstab预测筛选抗原肽的结构稳定性,所述筛选包括:保留稳定性强的抗原肽。12.如权利要求11所述的方法,其特征在于,在筛选后剩余抗原肽中,针对HLA

A、HLA

B、HLA

C分子结合的抗原肽,综合评分相近情况下,保留9肽和/或10肽;针对HLA

DP、HLA

DQ、HLA

DR分子结合的抗原肽,综合评分相近情况下,保留15肽和/或16肽;进而,同等条件下保留M(Met)、W(Trp)、C(Cys)、G(Gly)、T(Thr)这五种氨基酸相对含量较低的抗原肽。13.如权利要求1所述的方法,其特征在于,进一步包括步骤(8):基于肿瘤免疫微环境的免疫细胞类型预测;和/或,所述步骤(8)中,基于转录组数据使用免疫细胞类型预测软件预测肿瘤免疫微环境中的免疫细胞和基质细胞的类型及比例。14.如权利要求1所述的方法,其特征在于,进一步包括步骤(9):抗原肽的质谱验证,使用质谱方法验证检测到的肿瘤新生抗原在人体中是否真实存在;和/或,所述步骤(9)中,提取癌症病人的样本,包括组织和/或血液,离体样本,进行质谱分析,使用质谱数据库搜索工具,针对质谱鉴定到的肽段,从包含突变的定制蛋白质数据库中搜索与之匹配的多肽;或,采用公共数据库中...

【专利技术属性】
技术研发人员:戴文韬刘继翔李园园顾婷婷
申请(专利权)人:上海朴岱生物科技合伙企业有限合伙
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1