基于二代测序的肿瘤新生抗原检测方法、装置和存储介质制造方法及图纸

技术编号:19448263 阅读:586 留言:0更新日期:2018-11-14 17:13
本申请公开了一种基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。本申请的肿瘤新生抗原检测方法包括,变异检测步骤、MHC分子鉴定步骤、变异注释步骤、突变肽段预测步骤、突变肽段MHC/II型亲和力预测步骤、抗原表达丰度检测步骤、克隆性分析步骤和候选肿瘤新生抗原综合打分排序步骤;其中,新生抗原综合打分排序步骤包括按照公式一,根据MHC亲和力、抗原表达丰度和克隆性对新生抗原进行打分排序。本申请的肿瘤新生抗原检测方法,直接以二代测序的比对文件为基础进行突变和MHC检测,并且从MHC I/II型亲和力、抗原表达丰度、克隆性三个维度对候选肿瘤新生抗原进行打分,从而筛选出高质量的肿瘤新生抗原,为基于肿瘤新生抗原的免疫治疗奠定了基础。

【技术实现步骤摘要】
基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
本申请涉及肿瘤新生抗原检测领域,特别是涉及一种基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。
技术介绍
肿瘤特异性抗原(tumor-specificantigens,缩写TSAs)是指肿瘤细胞所特有的抗原,又称新生抗原(neoantigens)。肿瘤特异性抗原被提出于上世纪前半叶,之后随着分子生物学发展及对主要组织相容性复合体(majorhistocompatibilitycomplex,缩写MHC)分子功能的深入认识,Boon等人首先发现在肿瘤中,有肿瘤产生的特异性肽段与MHC分子复合物可以被CD8+或者是CD4+等T细胞识别。随后的研究认识到这些能被T细胞识别的抗原来自于肿瘤的基因组变异表达成肿瘤特有的肽段(neo-epitopes),被定义为新生抗原(neoantigens)。与肿瘤相关性抗原不同,肿瘤特异性抗原只存在于肿瘤细胞中。最近免疫检查点抑制治疗已经在临床中取得巨大的成功,尤其是对突变负荷比较高的肿瘤患者。因为肿瘤的突变负荷高,表达出来的肿瘤新生抗原就比较多,从而容易引起体内T细胞识别并且杀伤肿瘤细胞。因此肿瘤新生抗原的数量和质量影响着免疫治疗的第一步,起了关键性的作用。2013年,肿瘤免疫治疗被Science评为十大科技进展之首,以Rosenberg、Schreiber等为首的科学家引领了肿瘤新生抗原的研究热潮。2014年5月,Rosenberg团队在《science》杂志报道过一个划时代的成功案例:利用体外扩增的、能特异性识别癌细胞基因突变导致的异常蛋白的淋巴细胞,成功治疗了一例极度恶性的晚期胆管癌患者。2016年末,Rosenberg团队筛选出了靶向KRAS基因G12D突变后的肿瘤新生抗原的TIL细胞,扩增回输后使得肿瘤消退,文章发表在顶级医学杂志《NEJM》。2017年,CatherineJ.Wu和UgurSahin同时发表《nature》报道基于肿瘤新生抗原的个性化肿瘤疫苗通过早期临床试验。可见,肿瘤新生抗原的检测对免疫治疗具有重要意义。目前已公布的肿瘤新生抗原的预测流程主要包括EpiToolKit和Epi-Seq。但是,EpiToolKit只是从突变出发,并没有考虑测序数据的深度和覆盖度,没有从数据质量上考虑突变的质量情况,从而无法判断所获得的新生抗原的质量。此外,EpiToolKit没有考虑表达丰度,没有考虑新生抗原的表达情况,会造成预测假阳性,无法筛选高质量新生抗原。很多DNA层面的突变是不表达的,平均可能有50%的突变是不表达的,因此可能造成预测新生抗原的假阳性。而且突变的表达有高有低,表达越高,总体上产生的免疫原性越强。另外,EpiToolKit也没有考虑突变肽和正常肽的比较,高质量的新生抗原一般是突变肽的亲和力比正常肽的亲和力要高,而EpiToolKit缺乏这样的比较,也会造成高质量新生抗原的筛选有假阳性。Epi-Seq只是从肿瘤的表达数据出发预测肿瘤特异性抗原,从表达数据预测新生抗原,同样会造成假阳性。一方面,受RNA编辑的影响,容易造成假阳性;另一方面,因为RNA测序是从cDNA反转录后再测序的,这个过程也会引入很大的假阳性;再一方面,就是tumorcDNAVSgermlineDNA在检测方法上会有很多的假阳性。以上因素导致Epi-Seq获得的新生抗原存在较多的假阳性。因此,目前还没有能够直接从测序比对结果出发,从多个角度筛选高质量的肿瘤新生抗原的方法和流程。
技术实现思路
本申请的目的是提供一种新的基于二代测序的肿瘤新生抗原检测方法、装置和存储介质。为了实现上述目的,本申请采用了以下技术方案:本申请的第一方面公开了一种基于二代测序的肿瘤新生抗原检测方法,该方法包括以下步骤,变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;其中,两种突变检测软件检出的交集是指两种突变检测软件都同时有检测到的突变,本申请的一种实现方式中,具体采用了VarScan和mutect两款软件检测点突变和插入缺失突变,并采用STAR-Fusion检测融合基因突变;MHC分子鉴定步骤,包括分别采用HLA分子类型检测软件polysolver和BWAmem对正常样本和肿瘤样本的HLA分子类型进行检测,如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配,则作为HLA分子亚型结果输出;如果不匹配,则检查BWAmem检测的肿瘤样本的HLA分子和正常样本的匹配情况,如果匹配则将BWAmem的HLA分子亚型检测结果输出,如果仍然不匹配,则输出空的结果,表明无法判断HLA的分子亚型;变异注释步骤,包括对候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;本申请的一种实现方式中,具体采用VEP(VariantEffectPrediction)进行注释;突变肽段预测步骤,包括对候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;本申请的一种实现方式中,具体采用transvar工具进行基因组突变肽段的预测;突变肽段MHCI型和MHCII型亲和力预测步骤,包括将MHC分子鉴定步骤得到的肿瘤样本的HLA(人类淋巴细胞抗原humanlymphocyteantigen,缩写HLA)分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为MHCI型和MHCII型亲和力预测软件的输入,分别预测突变肽段与MHCI型和MHCII型基因的亲和力水平,将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原;本申请的一种实现方式中,亲和力预测软件具体采用了netMHCpan和netMHCIIpan,500nM是一个常规的判定值;抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;本申请的一种实现方式中,具体采用RSEM软件计算突变肽段的TPM值作为新抗原表达丰度;克隆性分析步骤,包括采用突变克隆性分析软件检测候选肿瘤新生抗原中各突变预测肽段的克隆性,克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;本申请的一种实现方式中,具体采用PyClone计算抗原所在的突变的克隆性,并输出新生抗原的克隆的概率和亚克隆的概率,即突变的克隆的概率和亚克隆的概率;候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原;公式一:Score(m)=EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel本文档来自技高网
...

【技术保护点】
1.一种基于二代测序的肿瘤新生抗原检测方法,其特征在于:包括以下步骤,变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;MHC分子鉴定步骤,包括分别采用HLA分子类型检测软件polysolver和BWA mem对正常样本和肿瘤样本的HLA分子类型进行检测,如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配,则作为HLA分子亚型结果输出;如果不匹配,则检查BWA mem检测的肿瘤样本的HLA分子和正常样本的匹配情况,如果匹配则将BWA mem的HLA分子亚型检测结果输出,如果仍然不匹配,则输出空的结果;变异注释步骤,包括对所述候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;突变肽段预测步骤,包括对所述候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;突变肽段MHC I型和MHC II型亲和力预测步骤,包括将MHC分子鉴定步骤得到的肿瘤样本的HLA分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为MHC I型和MHC II型亲和力预测软件的输入,分别预测突变肽段与MHC I型和MHC II型基因的亲和力水平,将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原;抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测所述候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;克隆性分析步骤,包括采用突变克隆性分析软件检测所述候选肿瘤新生抗原中各突变预测肽段的克隆性,所述克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对所述候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原;公式一:Score(m)=EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel(m)公式一中,Score(m)为新生抗原m的总分值,EpitopeContent(m)表示新生抗原m所对应的所有具有MHC亲和力的抗原肽段p的打分值的总和;ExpressionLevel(m)表示新生抗原m的抗原表达丰度;ClonalLevel(m)表示新生抗原m的克隆性。...

【技术特征摘要】
1.一种基于二代测序的肿瘤新生抗原检测方法,其特征在于:包括以下步骤,变异检测步骤,包括采用至少两种突变检测软件对肿瘤样本和正常样本的测序结果的比对文件进行肿瘤体细胞点突变和插入缺失突变进行检测,取两种突变检测软件检出的交集作为候选突变;同时,对肿瘤转录组测序结果的比对文件进行融合基因突变检测,将检出的融合基因突变也作为候选突变;MHC分子鉴定步骤,包括分别采用HLA分子类型检测软件polysolver和BWAmem对正常样本和肿瘤样本的HLA分子类型进行检测,如果polysolver检测的肿瘤样本的HLA分子和正常样本匹配,则作为HLA分子亚型结果输出;如果不匹配,则检查BWAmem检测的肿瘤样本的HLA分子和正常样本的匹配情况,如果匹配则将BWAmem的HLA分子亚型检测结果输出,如果仍然不匹配,则输出空的结果;变异注释步骤,包括对所述候选突变中的点突变和插入缺失突变进行基因组突变到氨基酸突变的注释;突变肽段预测步骤,包括对所述候选突变中的点突变、插入缺失突和融合基因突变的肽段进行预测;具体包括,以点突变的突变氨基酸为中心,前后延伸至少10个氨基酸的长度作为点突变的突变预测肽段;以插入缺失突变的突变位置为中心,向前延伸至少10个氨基酸的长度,向后延伸直至到达正常的氨基酸翻译的位置,作为插入缺失突变的突变预测肽段;以融合基因突变的融合位点为中心,截取将融合基因的3’端和5’端的至少10个氨基酸作为融合基因突变的突变预测肽段;突变肽段MHCI型和MHCII型亲和力预测步骤,包括将MHC分子鉴定步骤得到的肿瘤样本的HLA分子类型、突变肽段预测步骤获得的突变预测肽段,以及突变预测肽段对应的野生型肽段序列作为MHCI型和MHCII型亲和力预测软件的输入,分别预测突变肽段与MHCI型和MHCII型基因的亲和力水平,将预测的亲和力水平小于500nM的作为候选肿瘤新生抗原;抗原表达丰度检测步骤,包括采用抗原表达丰度计算软件检测所述候选肿瘤新生抗原中各突变预测肽段的抗原表达丰度;克隆性分析步骤,包括采用突变克隆性分析软件检测所述候选肿瘤新生抗原中各突变预测肽段的克隆性,所述克隆性用突变细胞在所测肿瘤组织中占肿瘤细胞的比例表征;候选肿瘤新生抗原综合打分排序步骤,包括按照公式一对所述候选肿瘤新生抗原中各突变预测肽段进行打分,按照分值由高到低排序,选取分值高者作为肿瘤新生抗原;公式一:Score(m)=EpitopeContent(m)×ExpressionLevel(m)×ClonalLevel(m)公式一中,Score(m)为新生抗原m的总分值,EpitopeContent(m)表示新生抗原m所对应的所有具有MHC亲和力的抗原肽段p的打分值的总和;ExpressionLevel(m)表示新生抗原m的抗原表达丰度;ClonalLevel(m)表示新生抗原m的克隆性。2.根据权利要求1所述的肿瘤新生抗原检测方法,其特征在于:所述公式一中,EpitopeContent(m)由公式二计算获得,公式二:公式二中,EpitopeScore(p[i:i+k]表示每一条突变预测肽段中,以突变氨基酸为中心,前后延伸k个氨基酸的抗原肽段p,与每一种MHC的亲和力的总和;i表示在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽的序号,该序号从0开始;|p|代表以突变氨基酸为中心,前后延伸k个氨基酸的肽段长度;|p|-k代表在特定的前后延伸k长度的抗原肽下,跨过突变的所有抗原肽序号的上限,即跨过突变的所有抗原肽数目的总和;优选的,EpitopeScore(p[i:i+k])由公式三计算获得,公式三:EpitopeScore(e)=∑a∈HLAσ(BindingAffinity(e,a))×SelfFilter(e,a)公式三中,EpitopeScore(e)即EpitopeScore(p[i:i+k]值,∑a∈HLAσ(BindingAffinity(e,a))表示每一条核心肽段e和所有MHC亚型a的亲和力的总和,σ(BindingAffinity(e,a))由公式四计算获得,SelfFilter(e,a)是指抗原肽段的同源性;公式四:公式四中,σ(s)即σ(BindingAffinity(e,a)),e是自然底数,s是亲和力预测软件给出的核心肽段e与a亚型的MHC的亲和力值;SelfFilter(e,a)按以下方法取值,抗原肽e,针对MHC的a亚型的同源肽段的情况,如果在正常人类基因组上找到相似的肽段,SelfFilter(e,a)值为0,其它情况为1。3.根据权利要求1所述的肿瘤新生抗原检测方法,其特征在于:所述公式一中,ExpressionLevel(m)按以下方法取值,如果突变预测肽段m的抗原表达水平低于10-3,则ExpressionLevel(m)=0;如果突变预测肽段m的抗原表达水平不低于10-3,则ExpressionLevel(m)取抗原表达丰度计算软件输出的抗原表达丰度值。4.根据权利要求1所述的肿瘤新生抗原检测方法,其特征在于:所述公式一中,ClonalLevel(m)由公式五计算获得,公式五:ClonalLevel(m)=p(Clonal)×(1-p(subclonal))公式五中,p(Clonal)为突变克隆性分析软件输出的新生抗原克隆的概率,p(subclonal)为突变克隆性分析软件输出的新生抗原的亚克隆的概率。5.根据权利要求1-4任一项所述的肿瘤新生抗原检测方法,其特征在于:所述抗原表达丰度检测步骤中,抗原表达丰度计算软件为RSEM软件,以RSEM软件计算的突变预测肽段的TPM值作为抗原表达丰度。6.一种基于二代测序的肿瘤新生抗原检测装置,其特征在于:所述装置包括,变异检测模块,用于采用至...

【专利技术属性】
技术研发人员:王佳茜高志博陈龙昀李淼
申请(专利权)人:深圳裕策生物科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1