一种基于深度学习模型的肿瘤新抗原预测方法及新生抗原预测系统技术方案

技术编号:33067422 阅读:15 留言:0更新日期:2022-04-15 09:58
本发明专利技术属于生物医药领域,公开了一种新生抗原预测方法,包括:采集待预测新生抗原的样本,提取样本的基因组DNA和RNA,进行全外显子测序和转录组测序,根据样本的全外显子测序数据进行HLA分型分析,根据转录组测序数据进行RNA表达水平检测;将全外显子测序数据与人类参考基因组进行比对、拼接,分析肿瘤

【技术实现步骤摘要】
一种基于深度学习模型的肿瘤新抗原预测方法及新生抗原预测系统


[0001]本专利技术属于生物医药领域,涉及一种肿瘤新抗原的预测方法,尤其涉及一种基于深 度学习网络的肿瘤新抗原预测方法、预测系统、装置及其应用。

技术介绍

[0002]当今,肿瘤免疫已经跻身最火热的赛道。然而,从临床疗效看,肿瘤免疫道阻且长。 以PD-1/PD-L1为例,仅20%-30%的肿瘤患者能够从中受益;而CAR-T则只对血液肿瘤, 尤其是B淋巴细胞瘤有效,并且副作用严重。大多数肿瘤患者尚无有效的治疗方案,肿 瘤免疫治疗还需要探索更多可能性,个性化肿瘤疫苗便是其中之一。个性化肿瘤疫苗的 研发是一项将基因精准检测和肿瘤免疫治疗相结合的整合型技术。与CAR-T疗法围绕现 存的少量靶点寻找治疗方案不同,个性化肿瘤疫苗会从肿瘤突变基因中预测出新抗原, 并将合成新抗原回输到患者血液中,激发自体免疫系统对肿瘤细胞的攻击,为解决临床 中对无法进行手术根治、放化疗均无效且无靶向用药的患者提供了一种新的治疗方式。
[0003]个性化肿瘤疫苗的技术方案包括1)采集肿瘤患者的外周血,癌组织样本,2)外周 血做全外显子测序,肿瘤组织一式两份,一份做全外显子测序,一份做转录组测序,3)根据测序结果,预测潜在的新生抗原多肽,4)新生抗原多肽合成,5)高效体外系统评 测抗原多肽安全性,6)临床患者皮下注射使用。
[0004]预测新生抗原是个性化疫苗治疗方案中最为关键的一步,如果无法准确预测新生抗 原,后续基于预测结果的治疗效果就会受到影响。肿瘤一般含有几百甚至几千个非同义 突变,但是并不是所有突变都能产生新生抗原。我们需要从这些基因突变中筛选出真正 的新生抗原,即能够在细胞内被加工剪切与HLA分子结合,并且被递呈到细胞表面诱导 免疫反应的突变肽链。
[0005]现在被广泛采用的新生抗原预测的技术方案是将肽链与HLA亲和力、RNA表达等参 数导入数学模型,给每个肽链进行打分,最终的模型用于预测肽链与HLA的亲和力。
[0006]上述利用数学模型给肽链打分的方式具有以下三个局限性:
[0007](1)数据维度少:主要考虑的是肽链的亲和力,没有考虑新生抗原被剪切呈递的过 程。IEDB的数据是基于肽链与HLA分子在体外的结合,没有考虑肽链是否真的呈递到人 体细胞表面,也没有考虑肽链与HLA分子结合前的加工处理和运输环节。用这种方法预 测的肽链只有小于5%是在细胞表面可以被发现的。
[0008](2)准确率低:这种预测方式的准确率在30%-40%左右。
[0009](3)优化空间小:这种方式只能通过调整参数比重或者增加参数来提高准确率,而且 提高的空间非常有限。
[0010]因而,目前已经报道的肿瘤新生抗原预测方法准确率低,继而导致基于新生抗原的 抗肿瘤疫苗的疗效不佳。

技术实现思路

[0011]本专利技术要解决的技术问题是提供一种新的获得新生抗原的方法,提高新生抗原预测 准确率。
[0012]本专利技术要解决的另一个技术问题是提供新的新生抗原预测系统及其应用。
[0013]本专利技术提供了一种新生抗原预测方法,该方法包括以下步骤:
[0014](1)采集待预测新生抗原的样本,所述的样本包括肿瘤样本和源自同一个体的正常 样本;
[0015](2)分别提取步骤(1)中获得的肿瘤样本和正常样本的DNA;
[0016](3)对步骤(2)所述的正常样本的DNA进行全外显子测序,并且根据正常样本的 外显子测序数据进行人类白细胞抗原(HLA)分型分析;
[0017](4)对步骤(2)所述的肿瘤样本的DNA进行全外显子测序;
[0018](5)将步骤(3)和步骤(4)获得的全外显子测序数据与人类参考基因组GRCh38 版本进行比对拼接,分析肿瘤-正常成对样本的体细胞突变,获得突变肽链序列及其旁侧 序列;
[0019](6)提取肿瘤样本的RNA,进行转录组测序,对测序数据进行read counts计数,再 进行基因表达水平TPM(Transcripts Per Million)值转换;
[0020](7)将步骤(3)获得的HLA分型、步骤(5)获得的突变肽链序列及其旁侧序列、 步骤(6)获得的基因表达水平值输入深度学习模型,获得预测的新生抗原。
[0021](8)通过神经网络训练的模型进行打分获得预测的新生抗原;所述的神经网络是通 过反复训练的深度学习神经网络。
[0022]较好的,所述的训练包括:
[0023]对含有中国人群高频HLA亚型细胞系进行转录组测序获得RNA表达水平,使用蛋白 免疫沉淀和质谱获取与该HLA亚型特异性结合的肽链序列及其旁侧序列;
[0024]对质谱获得的肽链做阳性标记,未在质谱结果中出现的肽链做阴性标记,作为训练 数据、验证数据、测试数据;
[0025]先分别计算出肽链呈递到每种HLA分型的可能性,再总和获得呈递可能性,把肽链 根据呈递可能性从高到低排列,选出分值靠前的若干条作为潜在抗肿瘤新生抗原。
[0026]所述的体细胞突变包括但不限于单核苷酸突变、插入/缺失突变、移码突变。
[0027]步骤(1)中的肿瘤样本和正常样本,可以源自癌组织和癌旁组织,经过组织破碎和 裂解,获得肿瘤样本和源自同一个体的正常样本,例如肿瘤细胞和正常细胞。肿瘤样本 和正常样本也可以从体液、分泌物等离体样本中获取,例如从血液中获得。
[0028]较好的,步骤(2)和步骤(4)中所述的DNA是基因组DNA。
[0029]较好的,步骤(3)中所述的HLA分型是指将正常样本的外显子测序数据与人类参考 基因组的序列进行对比,获得HLA分型结果。
[0030]较好的,步骤(5)分析肿瘤样本和正常样本成对样本的体细胞突变,筛选非同义突 变,产生突变肽链以及其旁侧序列。
[0031]本专利技术可以使用常规的软件分析样本数据。例如,使用Mutect2软件分析肿瘤样本 和正常样本成对样本的体细胞突变。使用FastQ软件对测序数据进行质量控制处理。使 用BWA软件将测序数据与人类参考基因组进行比对拼接。用xHLA软件对外周血样本外显 子测
序数据进行HLA分型分析。通过featureCounts软件对测序数据进行read counts 计数。
[0032]所述的参考基因组包括但不限于人类参考基因组GRCh38版本。
[0033]较好的,分析肿瘤样本和正常样本成对样本的体细胞突变之前,先对测序数据进行 质量控制处理。
[0034]较好的,所述的肽链序列是样本进行蛋白免疫沉淀和质谱联用,获得与特定HLA分 子结合的肽链序列。
[0035]较好的,所述的旁侧序列的获得方法为:在肽链序列中选取8-11个氨基酸长度的肽 链,并将氨基酸长度小于11的肽链填充到11个,截取其左右各5个氨基酸作为旁侧序 列。
[0036]较好的,在获得肽链序列过程中,从质谱肽链数据中排除RNA表达水平小于等于0 的肽链。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测新生抗原的方法,其特征在于,该方法包括以下步骤:采集待预测新生抗原的样本,所述的样本包括肿瘤样本和源自同一个体的正常样本;分别提取所述的肿瘤样本和正常样本的DNA,进行全外显子测序,并且根据正常样本的DNA的全外显子测序数据进行HLA分型分析;将所述的肿瘤样本和正常样本的全外显子测序数据与人类参考基因组进行比对拼接,分析肿瘤-正常成对样本的体细胞突变,获得突变肽链序列及其旁侧序列;提取所述的肿瘤样本的RNA,进行转录组测序,将测序结果转换为TPM值,获得RNA表达水平数据;将所获得的HLA分型、突变肽链序列及其旁侧序列、TPM值呈递给深度学习的神经网络训练的预测模型进行预测;所述的深度学习的神经网络包括共享神经网络和各型HLA的神经网络;对肽链序列根据其结合的HLA分型,构建各型HLA的神经网络,旁侧序列和TPM值呈递给共享神经网络;比对共享神经网络和各型HLA的神经网络,分别计算出肽链递呈到每种HLA分型的可能性,再综合计算肽链总的呈递的可能,获得预测的新生抗原。2.如权利要求1所述的方法,其特征在于,所述的训练数据中的肽链序列是对中国人群高频HLA亚型细胞系进行蛋白免疫沉淀和质谱联用,获得与特定HLA分子结合的肽链序列。3.如权利要求1所述的方法,其特征在于,所述的旁侧序列的获得方法为:在肽链序列中选取8-11个氨基酸长度的肽链,并将氨基酸长度小于11的肽链填充到11个,截取其左右各5个氨基酸作为旁侧序列。4.如权利要求1所述的方法,其特征在于,所述的深度学习模型构建方法为:利用训练数据导入构建的神经网络,采用深度学习的算法训练模型。5.如权利要求4所述的方法,其特征在于,所述的神经网络通过接收训练数据并不断优化,所述的训练数据的获得方法为:对中国人群高频HLA亚型细胞系进行转录组测序、蛋白免疫沉淀和质谱联用分析;将所述的HLA分型、突变肽链序列、旁侧序列和转录组测序获得的TPM值、从公共数据库中采集的质谱数据输入神经网络;对质谱获得的肽链做阳性标记,把在蛋白质公共数据库里的参考蛋白组中未在质谱数据中出现的肽链做阴性标记,并将数据分为训练数据、验证数据和测试数据。6.如权利要求1-5中任意一项所述的方法,其特征在于,所述的获得TPM值是对测序数据进行read counts计数,再转换TPM值;所述的TPM值转换方法如下:RPK=read_count/transcript_length*1000
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(I);TPM=RPK/sum(all_RPK)*1000000
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(II)。7.一种新生抗原预测系统,其特征在于,所述的系统包括样本收集装置、转录组测序数据分析模块、全外显子测序数据分析模块、新生抗原预测装置;样本收集装置与转录组测序数据分析模块...

【专利技术属性】
技术研发人员:李锐雷俊卿虞韩川枝秦汉楠苏小平李伟迎
申请(专利权)人:格源致善上海生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1