确定肿瘤新抗原的方法及装置制造方法及图纸

技术编号:38161742 阅读:7 留言:0更新日期:2023-07-13 09:34
本发明专利技术涉及确定肿瘤新抗原的方法、装置、计算设备、计算机可读储存介质和计算机程序产品,属于生物信息学和肿瘤免疫治疗的技术领域。本发明专利技术的方法具有高度并行,断点执行的优势,并且囊括诸多功能,包括测序数据的质量控制、序列比对、肿瘤变异的检测、变异的注释、HLA等位基因分型、新抗原的预测、新抗原的筛选与排序等,实现快速、高效、高准确性地确定新抗原。原。原。

【技术实现步骤摘要】
确定肿瘤新抗原的方法及装置


[0001]本公开内容涉及生物信息学和肿瘤免疫治疗的
,更具体地说,涉及确定肿瘤新抗原的方法、装置、计算设备、计算机可读储存介质和计算机程序产品。

技术介绍

[0002]肿瘤特异性抗原,又称肿瘤新抗原,是一种仅产生于肿瘤细胞的抗原,它可以与人类白细胞抗原(HLA)结合,进而被CD4+、CD8+T细胞识别,激活机体的抗肿瘤免疫反应(Zhang,Z.,et al.,Neoantigen:A New Breakthrough in Tumor Immunotherapy.Front Immunol,2021.12:p.672356.)。新抗原的来源很多,包括单核苷酸变异(SNVs)、插入/缺失(INDELs)、转录本剪接变异、基因融合等。新抗原不存在于正常的组织细胞中,因此绕过了中枢性耐受,可以避免对非肿瘤组织造成损伤,成为肿瘤免疫治疗的新靶点,且具备构建癌症疫苗的理想条件,拥有广泛的治疗前景和临床应用价值。
[0003]二代测序技术(NGS)凭借高通量、高准确度和低成本的优势被广泛应用于预测肿瘤新抗原。目前主要使用计算方法预测HLA结合亲和力强的肽段,并认为这些肽段更有可能诱导T细胞反应。但是仅仅基于结合亲和力数据的表位预测本身并不能提供哪些内源性肽段将由HLA蛋白呈现在肿瘤细胞表面,并将诱导有效的T细胞反应的信息。它需要涉及到众多不同步骤,主要包括测序数据的质控与比对、各种变异类型的检测、基因和转录本的表达定量、突变肽段的处理、HLA分型鉴定、突变肽段与HLA的亲和力预测、新抗原筛选与排序等。
[0004]目前的肿瘤新抗原检测流程还存在着一些技术问题,例如:(1)整体运行速度慢,消耗时间长;(2)考虑的指标单一,仅从单个或少数几个维度筛选新抗原,结果中的假阳性高;(3)无法断点继续执行。因此,迫切需要一种运行时间高效、高准确度和用户体验友好的肿瘤新抗原鉴定方法及装置。

技术实现思路

[0005]鉴于上述技术问题,本公开内容的第一方面提出了一种确定肿瘤新抗原的方法,所述方法包括:获取测序数据库,其包含肿瘤组织和正常对照的全外显子测序数据,以及肿瘤组织转录组测序数据;将正常对照全外显子测序数据、肿瘤组织全外显子测序数据和肿瘤组织转录组测序数据分别与人参考基因组进行序列比对,确定各自的序列比对结果;基于序列比对结果,确定正常对照生殖细胞的DNA变异结果、肿瘤组织体细胞的DNA变异结果以及正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果;基于肿瘤组织转录组测序数据的序列比对结果和所述肿瘤组织体细胞的DNA变异结果,确定肿瘤组织体细胞的DNA变异在RNA数据层面的突变频率;基于肿瘤组织转录组测序数据的序列比对结果,确定每个转录本对应的序列数量,并将来自同一个基因的不同转录本的序列数量相加,进而确定转录本和基因的表达水平;对所述肿瘤组织体细胞的DNA变异结果、所述正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果进行注释;将所述肿瘤组织全外显子测序数据与HLA等位基因参考基因组进行序列比对,并基于序列比对的结
果,确定HLA分型结果;基于注释后的肿瘤组织体细胞的DNA变异结果、注释后的正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果、所述HLA分型结果,确定候选新抗原特征和候选新抗原多肽序列;以及基于所述候选新抗原特征对所述候选新抗原多肽序列进行过滤,并基于机器学习算法排序,从而确定肿瘤新抗原。
[0006]可选地,在上述方面的一个实施方案中,所述方法还包括在将正常对照全外显子测序数据、肿瘤组织全外显子测序数据和肿瘤组织转录组测序数据分别与人参考基因组进行序列比对之前进行测序数据质量控制,所述测序数据质量控制包括对所述正常对照外显子测序数据、所述肿瘤组织外显子测序数据和所述肿瘤组织转录组测序数据进行过滤,并去除接头。
[0007]可选地,在上述方面的一个实施方案中,所述过滤包括去除质量小于15的碱基占比大于40%的序列和含有大于等于5个N碱基的序列。
[0008]可选地,在上述方面的一个实施方案中,所述方法包括在基于序列比对结果,确定正常对照生殖细胞的DNA变异结果、肿瘤组织体细胞的DNA变异结果以及正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果之前,标记并去除所述正常对照全外显子测序数据的序列比对结果和所述肿瘤组织全外显子测序数据的序列比对结果中PCR扩增引入的重复序列,并且校正所述正常对照全外显子测序数据的序列比对结果和肿瘤组织全外显子测序数据的序列比对结果中的碱基质量。
[0009]可选地,在上述方面的一个实施方案中,对所述肿瘤组织体细胞的DNA变异结果、所述正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果进行注释包括注释肿瘤组织体细胞的DNA变异对基因、转录本和氨基酸序列的影响,所述肿瘤组织体细胞的DNA变异在RNA数据层面的突变频率,肿瘤组织体细胞的DNA变异对应的基因和转录本的表达量。
[0010]可选地,在上述方面的一个实施方案中,对所述肿瘤组织体细胞的DNA变异结果、所述正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果进行注释还包括注释正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集对基因、转录本和氨基酸序列的影响。
[0011]可选地,在上述方面的一个实施方案中,所述候选新抗原特征包括肿瘤组织体细胞DNA突变频率、正常对照生殖细胞DNA突变频率、所述肿瘤组织体细胞的DNA变异在RNA数据层面的突变频率、所述基因与转录本的表达水平、突变型多肽与不同HLA的结合亲和力、野生型多肽与不同HLA的结合亲和力与突变型多肽与不同HLA结合亲和力的比值、突变型多肽与不同HLA的结合稳定性、突变型多肽的免疫原性。
[0012]可选地,在上述方面的一个实施方案中,所述基于机器学习算法排序包括:获取免疫表位数据库中的多肽集合;对多肽集合进行数据清洗;确定突变型多肽与HLA的相关特征;使用分层抽样将数据集按照8:1:1的比例划分为训练集、验证集和测试集;根据XGBoost模型训练测试集,进而完成模型构建;以及对候选新抗原多肽序列进行排序。
[0013]可选地,在上述方面的一个实施方案中,所述数据清洗包括删除任何没有四位数HLA分型的条目,并将多肽的长度限制在8

14。
[0014]可选地,在上述方面的一个实施方案中,所述突变型多肽与HLA的相关特征包括突变型多肽与不同HLA的结合亲和力、野生型多肽与不同HLA的结合亲和力与突变型多肽与不
同HLA的结合亲和力的比值、突变型多肽与不同HLA的结合稳定性,以及突变型多肽的免疫原性。
[0015]可选地,在上述方面的一个实施方案中,正常对照全外显子测序数据、肿瘤组织全外显子测序数据和肿瘤组织转录组测序数据分别与人参考基因组的序列比对可以并行执行。
[0016]可选地,在上述方面的一个实施方案中,正常对照全外显子测序数据、肿瘤组织本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定肿瘤新抗原的方法,所述方法包括:获取测序数据库,其包含肿瘤组织和正常对照的全外显子测序数据,以及肿瘤组织转录组测序数据;将正常对照全外显子测序数据、肿瘤组织全外显子测序数据和肿瘤组织转录组测序数据分别与人参考基因组进行序列比对,确定各自的序列比对结果;基于序列比对结果,确定正常对照生殖细胞的DNA变异结果、肿瘤组织体细胞的DNA变异结果以及正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果;基于肿瘤组织转录组测序数据的序列比对结果和所述肿瘤组织体细胞的DNA变异结果,确定肿瘤组织体细胞的DNA变异在RNA数据层面的突变频率;基于肿瘤组织转录组测序数据的序列比对结果,确定每个转录本对应的序列数量,并将来自同一个基因的不同转录本的序列数量相加,进而确定转录本和基因的表达水平;对所述肿瘤组织体细胞的DNA变异结果、所述正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果进行注释;将所述肿瘤组织全外显子测序数据与HLA等位基因参考基因组进行序列比对,并基于序列比对的结果,确定HLA分型结果;基于注释后的肿瘤组织体细胞的DNA变异结果、注释后的正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果、所述HLA分型结果,确定候选新抗原特征和候选新抗原多肽序列;以及基于所述候选新抗原特征对所述候选新抗原多肽序列进行过滤,并基于机器学习算法排序,从而确定肿瘤新抗原。2.根据权利要求1所述的方法,还包括:在将正常对照全外显子测序数据、肿瘤组织全外显子测序数据和肿瘤组织转录组测序数据分别与人参考基因组进行序列比对之前进行测序数据质量控制,所述测序数据质量控制包括对所述正常对照外显子测序数据、所述肿瘤组织外显子测序数据和所述肿瘤组织转录组测序数据进行过滤,并去除接头;优选地,所述过滤包括去除质量小于15的碱基占比大于40%的序列和含有大于等于5个N碱基的序列。3.根据权利要求1或2所述的方法,还包括:在基于序列比对结果,确定正常对照生殖细胞的DNA变异结果、肿瘤组织体细胞的DNA变异结果以及正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果之前,标记并去除所述正常对照全外显子测序数据的序列比对结果和所述肿瘤组织全外显子测序数据的序列比对结果中PCR扩增引入的重复序列,并且校正所述正常对照全外显子测序数据的序列比对结果和肿瘤组织全外显子测序数据的序列比对结果中的碱基质量。4.根据权利要求1

3中任一项所述的方法,其中,对所述肿瘤组织体细胞的DNA变异结果、所述正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果进行注释包括注释肿瘤组织体细胞的DNA变异对基因、转录本和氨基酸序列的影响,所述肿瘤组织体细胞的DNA变异在RNA数据层面的突变频率,肿瘤组织体细胞的DNA变异对应的基因和转录本的表达量。5.根据权利要求4所述的方法,其中,对所述肿瘤组织体细胞的DNA变异结果、所述正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果进行注释还包括注释正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集对基因、转录本和氨基酸序列的影
响。6.根据权利要求1

5中任一项所述的方法,其中,所述候选新抗原特征包括肿瘤组织体细胞DNA突变频率、正常对照生殖细胞DNA突变频率、所述肿瘤组织体细胞的DNA变异在RNA数据层面的突变频率、所述基因与转录本的表达水平、突变型多肽与不同HLA的结合亲和力、野生型多肽与不同HLA的结合亲和力与突变型多肽与不同HLA结合亲和力的比值、突变型多肽与不同HLA的结合稳定性、突变型多肽的免疫原性。7.根据权利要求1

6中任一项所述的方法,其中,所述基于机器学习算法排序包括:获取免疫表位数据库中的多肽集合;对多肽集合进行数据清洗;确定突变型多肽与HLA的相关特征;使用分层抽样将数据集按照8:1:1的比例划分为训练集、验证集和测试集;根据XGBoost模型训练测试集,进而完成模型构建;以及对候选新抗原多肽序列进行排序;优选地,所述数据清洗包括删除任何没有四位数HLA分型的条目,并将多肽的长度限制在8

14。8.根据权利要求7所述的方法,其中,所述突变型多肽与HLA的相关特征包括突变型多肽与不同HLA的结合亲和力、野生型多肽与不同HLA的结合亲和力与突变型多肽与不同HLA的结合亲和力的比值、突变型多肽与不同HLA的结合稳定性,以及突变型多肽的免疫原性。9.根据权利要求1所述的方法,其中,正常对照全外显子测序数据、肿瘤组织全外显子测序数据和肿瘤组织转录组测序数据分别与人参考基因组的序列比对可以并行执行。10.根据权利要求2所述的方法,其中,正常对照全外显子测序数据、肿瘤组织全外显子测序数据和肿瘤组织转录组测序数据的测序数据质量控制可以并行执行。11.根据权利要求1所述的方法,其中,基于序列比对结果,确定正常对照生殖细胞的DNA变异结果、肿瘤组织体细胞的DNA变异结果以及正常对照生殖细胞和肿瘤组织体细胞两者DNA变异合集的单倍型分型结果可以与基于肿瘤组织转录组测序数据的序列比对结果,确定每个转录本对应的序列数量,并将来自同一个基因的不同转录本的序列数量相加,进而确定转录本和基因的表达水平并行执行。12.根据权利要求1所述的方法,其中,将所述肿瘤组织全外显子...

【专利技术属性】
技术研发人员:蔡毅骅段晓克陈庚李航文
申请(专利权)人:斯微上海生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1