临床个体化肿瘤新抗原的预测模型构建方法技术

技术编号:29305920 阅读:55 留言:0更新日期:2021-07-17 01:49
本发明专利技术涉及预测技术,解决了现有临床个体化肿瘤新抗原预测算法的高假阳性、低精确度的缺点,提供了一种临床个体化肿瘤新抗原的预测模型构建方法,其技术方案可概括为:首先选择训练数据,再对训练数据进行清洗,然后对所有肽段进行矢量化,然后再根据HLA等位基因将其划分为20份子集,针对每个子集,都随机拆分为训练集、验证集及测试集,再根据卷积神经网络建立深度学习模型,所述深度学习模型的输出为是否能被HLA分子结合并递呈,最后进行模型训练,直至测试集预测性能达到最佳后停止训练。其有益效果是,所构建的预测模型具有较好的特异度和准确性,适用于临床个体化肿瘤新抗原的预测模型的构建。预测模型的构建。

【技术实现步骤摘要】
临床个体化肿瘤新抗原的预测模型构建方法


[0001]本专利技术涉及预测技术,特别涉及临床个体化肿瘤新抗原的预测技术。

技术介绍

[0002]肿瘤免疫疗法是通过激活宿主的免疫系统来对抗肿瘤的一种治疗方法,已经为多种恶性肿瘤患者带来了生存和生活质量方面的显著改善,与传统的治疗方法(如化学疗法、放射疗法及外壳手术等)相比,免疫疗法是通过药物增强机体预先存在的免疫应答机制或诱导新型免疫反应来对抗肿瘤生长和转移,其具有高特异性及低副作用的绝对优势,能够实现肿瘤的精准杀伤,其中宿主免疫系统用来区分癌细胞和正常细胞的分子机制是只在肿瘤细胞上限制性表达的肿瘤特异性新抗原,简称新抗原(Neoantigen)。
[0003]由于癌症是由一系列体细胞突变累积导致异常细胞增殖的疾病,这种肿瘤特异的体细胞突变如果发生在蛋白编码区,可导致突变肽的产生,并按照内源性抗原加工途径由主要组织相容性复合体(MHC)分子递呈到肿瘤细胞表面,当这些突变肽

MHC复合物(p.MHC)暴露于体液环境时,可被宿主免疫系统察觉并通过T细胞表面受体(TCR)识别,引发T细胞介导的对癌细胞的特异性杀伤,这种突变肽即为新抗原,是驱动抗肿瘤免疫的核心。
[0004]目前基于新抗原开发的个性化免疫疗法主要包括新抗原疫苗(癌症疫苗)和过继性T细胞。其中,新抗原疫苗已被证明能够诱导携带移植肉瘤的小鼠发生肿瘤排斥作用,在人类的临床前研究中,新抗原疫苗也已经在黑色素瘤和胶质母细胞瘤中验证了其诱导机体产生新抗原特异性T细胞(neoantigenr/>‑
specific T cells)的能力,并且对黑色素瘤的肿瘤复发起到保护作用,诱导黑色素瘤的转归;过继性T细胞疗法,即分离体内新抗原特异性T细胞在体外扩增后回输,已在多种恶性肿瘤中发挥抗肿瘤作用并诱导肿瘤转归。
[0005]目前,通过二代测序技术和相关生物信息学工具可以准确获得病人的体细胞突变信息,然而,准确、高效且具有成本效益的预测哪些体细胞突变会产生免疫原性新抗原依旧难以实现,新抗原的精准鉴定受限于当前预测算法的低特异性,主要原因是这些预测算法大多是基于抗原肽与特定人白细胞抗原(HLA)等位基因的结合亲和力数据训练而成,如MHCflurry、SMM、ANN、pickpocket及NetMHCpanBA等,然而新抗原能否被免疫系统识别,即新抗原的免疫原性,其取决于一连串复杂的事件,包括变异表达、肽的加工、转运、与HLA分子的结合及递呈等因素,亲和力数据源自于体外实验且仅考虑了抗原肽与HLA分子结合这单个因素,忽略了其他生物学特征,从而导致了大量的假阳性结果;此外,当前新抗原预测方法虽然使用了机器学习模型,但构建神经网络模型结构较为简单,其隐含层较少,无法满足抗原肽中对氨基酸位置的空间结构要求。综上所述,目前迫切需要一种新颖的、高精准度的方法来为具有广泛多样性的HLA等位基因设计新抗原预测工具。

技术实现思路

[0006]本专利技术的目的是要克服目前肿瘤新抗原预测算法的高假阳性、低精确度的问题,提供一种临床个体化肿瘤新抗原的预测模型构建方法。
[0007]本专利技术解决上述技术问题,采用的技术方案是,临床个体化肿瘤新抗原的预测模型构建方法,包括以下步骤:
[0008]步骤1、选择训练数据,所述训练数据包括采用从HLA免疫共沉淀分子中洗脱出的,然后经液相色谱

串联质谱法(LC

MS/MS)鉴定的抗原肽作为阳性肽,并从参考蛋白组(SwissProt)中随机抽取与阳性肽长度配对的未被质谱检测到的肽段作为阴性肽;
[0009]步骤2、对训练数据进行清洗,至少包括去除训练数据中包含未知或不可区分的氨基酸的肽段;
[0010]步骤3、设训练数据中的各肽段长度中最大氨基酸长度为α,则将训练数据中所有肽段表达为长度为α的向量,其中对训练数据中肽段长度不足α个氨基酸长度的肽段进行填充使其表达为长度α的向量,再对各肽段的氨基酸序列使用独热编码方案(one

hot encoding scheme)进行矢量化;
[0011]步骤4、根据HLA等位基因将训练数据划分为20份子集,针对任意一个子集,将其随机拆分为训练集、验证集及测试集,保证其中阳性肽与阴性肽的分布大致相同,同时确保任意一个肽都只存在于训练集、验证集及测试集中的其中一个集合中;
[0012]步骤5、根据卷积神经网络建立深度学习模型,所述深度学习模型的输出为是否能被HLA分子结合并递呈;
[0013]步骤6、针对任意一个HLA等位基因,采用与其对应的子集输入到深度学习模型中进行模型训练,直至测试集预测性能达到最佳后停止训练,则针对该HLA等位基因的新抗原预测模型构建完成。
[0014]具体的,为方便后续计算机识别,则步骤1中,还将阳性肽的标签设置为1,阴性肽的标签设置为0。
[0015]进一步的,为详细说明如何去除包含未知或不可区分氨基酸的肽段,则步骤2中,所述去除训练数据中包含未知或不可区分的氨基酸的肽段是指:剔除含有“X”和/或“B”的肽段。
[0016]具体的,为方便后续计算机识别,则步骤2中,还将含有小写字母的肽段改为大写字母表示。
[0017]再进一步的,由于新抗原的肽段长度只会在8

15个氨基酸长度之间,而95%的新抗原的肽段长度都在8

11个氨基酸长度之间,因此为了减少数据量,则步骤2中,在对训练数据进行清洗时,还去除训练数据中的肽段长度小于8个或大于11个氨基酸长度的肽段;
[0018]则步骤3中,所述α=11。
[0019]具体的,为说明如何对训练数据中肽段长度不足α个氨基酸长度的肽段进行填充,则步骤3中,所述对训练数据中肽段长度不足α个氨基酸长度的肽段进行填充使其表达为长度α的向量是指:选择一个统一的填充字符,所述填充字符为任意一个不代表氨基酸的字母,对训练数据中肽段长度不足α个氨基酸长度的肽段用填充字符从该肽段中部进行填充使其表达为长度α的向量。所述不代表氨基酸的字母包括“O”、“J”、“U”及“Z”。
[0020]再进一步的,为说明对各肽段的氨基酸序列使用独热编码方案(one

hot encoding scheme)进行矢量化的具体方法,则步骤3中,所述对各肽段的氨基酸序列使用独热编码方案进行矢量化的方法为:
[0021]步骤3A、为含有填充字符的21位氨基酸字母表中的每一个大写字母分配一个唯一
的整数作为该字母在氨基酸字母表中的索引;
[0022]步骤3B、将每个氨基酸及填充字符根据对应字母分配的整数建立一个由0和1组成的具有21个元素的独热向量,其中,只有索引位置为1,其余元素为0;
[0023]步骤3C、针对任意一个肽段,将其氨基酸序列中各氨基酸的独热向量纵向合并成独热矩阵,即将训练数据中各肽段转化成能够被计算机识别的11行及21列的固定矩阵,完成矢量化。
[0024]具体本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.临床个体化肿瘤新抗原的预测模型构建方法,其特征在于,包括以下步骤:步骤1、选择训练数据,所述训练数据包括采用从HLA免疫共沉淀分子中洗脱出的,然后经液相色谱

串联质谱法鉴定的抗原肽作为阳性肽,并从参考蛋白组中随机抽取与阳性肽长度配对的未被质谱检测到的肽段作为阴性肽;步骤2、对训练数据进行清洗,至少包括去除训练数据中包含未知或不可区分的氨基酸的肽段;步骤3、设训练数据中的各肽段长度中最大氨基酸长度为α,则将训练数据中所有肽段表达为长度为α的向量,其中对训练数据中肽段长度不足α个氨基酸长度的肽段进行填充使其表达为长度α的向量,再对各肽段的氨基酸序列使用独热编码方案进行矢量化;步骤4、根据HLA等位基因将训练数据划分为20份子集,针对任意一个子集,将其随机拆分为训练集、验证集及测试集,保证其中阳性肽与阴性肽的分布大致相同,同时确保任意一个肽都只存在于训练集、验证集及测试集中的其中一个集合中;步骤5、根据卷积神经网络建立深度学习模型,所述深度学习模型的输出为是否能被HLA分子结合并递呈;步骤6、针对任意一个HLA等位基因,采用与其对应的子集输入到深度学习模型中进行模型训练,直至测试集预测性能达到最佳后停止训练,则针对该HLA等位基因的新抗原预测模型构建完成。2.如权利要求1所述的临床个体化肿瘤新抗原的预测模型构建方法,其特征在于,步骤2中,在对训练数据进行清洗时,还去除训练数据中的肽段长度小于8个或大于11个氨基酸长度的肽段;则步骤3中,所述α=11。3.如权利要求1所述的临床个体化肿瘤新抗原的预测模型构建方法,其特征在于,步骤3中,所述对训练数据中肽段长度不足α个氨基酸长度的肽段进行填充使其表达为长度α的向量是指:选择一个统一的填充字符,所述填充字符为任意一个不代表氨基酸的字母,对训练数据中肽段长度不足α个氨基酸长度的肽段用填充字符从该肽段中部进行填充使其表达为长度α的向量;所述不代表氨基酸的字母包括“O”、“J”、“U”及“Z”。4.如权利要求3所述的临床个体化肿瘤新抗原的预测模型构建方法,其特征在于,步骤3中,所述对各肽段的氨基酸序列使用独热编码方案进行矢量化的方法为:步骤3A、为含有填充字符的21位氨基酸字母表中的每一个大写字母分配一个唯一的整数作为该字母在氨基酸字母表中...

【专利技术属性】
技术研发人员:赵军宁蒿青张翼冠魏平
申请(专利权)人:云测智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1