抗原呈递预测模型的训练方法及其预测方法、设备和介质技术

技术编号:36839137 阅读:47 留言:0更新日期:2023-03-15 15:19
本公开提供了一种抗原呈递预测模型的训练方法及其预测方法、设备和介质,所述训练方法包括:获取抗原序列训练数据及用于表征抗原序列呈递概率的呈递概率训练数据;将抗原序列训练数据输入至待训练的抗原呈递预测模型;通过抗原呈递预测模型对抗原序列训练数据进行呈递预测处理以预测出抗原序列训练数据对应的呈递概率,其中,通过抗原呈递预测模型的特征编码模块对抗原序列训练数据进行氨基酸编码及向量映射处理;根据预测出的呈递概率及呈递概率训练数据训练抗原呈递预测模型。本公开利用深度学习技术有效地建立了基于抗原序列的神经网络算法模型,有效地解决了预测新抗原呈递能力较差的问题,提升了预测抗原呈递能力的准确性和效率。的准确性和效率。的准确性和效率。

【技术实现步骤摘要】
抗原呈递预测模型的训练方法及其预测方法、设备和介质


[0001]本公开涉及人工智能
,特别涉及一种抗原呈递预测模型的训练方法及其预测方法、设备和介质。

技术介绍

[0002]最近免疫治疗取得的成功证明了一个长期的假设:肿瘤是具有免疫原性的并且能够引发获得性免疫反应。肿瘤细胞中的主要组织相容性复合物(major Histocompatibility complex,MHC)或者人类白细胞抗原(human leukocyte antigen,HLA)能够呈递肿瘤特异性抗原,这些抗原能够被CD8+(一种白细胞分化抗原)的杀伤性T细胞所识别。多年来研究人员一直在探究能够刺激T细胞产生对肿瘤有效反应的抗原的性质。
[0003]肿瘤抗原能够分为两大类:自身和非自身抗原。肿瘤相关的自身抗原包括癌症

睾丸(种系)抗原,分化抗原和癌症细胞过度表达的抗原。自身抗原的优点是在不同的肿瘤病人和肿瘤中共享。但是,这些自身抗原受到免疫耐受的限制,因此只能引起很弱的或者不能引起T细胞应答。肿瘤所积累的非同义体突变很久以前就被假设为能够被获得性免疫系统所识别的非自身抗原(也称肿瘤新生抗原),因此能够引起更加强烈的免疫反应。对肿瘤新生抗原的最初报道已经有二十年之久,但是对新生抗原的综合鉴定一直以来都是一件非常困难的事情,直到下一代测序技术的出现才得到提高。随着下一代测序的广泛使用,数项研究已经展示了非同义突变与免疫治疗高度相关。肿瘤中的突变负荷能够预测病人对免疫检查位点抑制疗法的响应,新抗原特异性的T细胞在越来越多的肿瘤病人中检测到。其中,新生抗原在肿瘤作用的直接证据来自于靶向新生抗原的肿瘤浸润性淋巴细胞(tumor infiltrating lymphocyte,TIL)疗法在病人中引起转移性肿瘤的消退。另外,在前临床研究中,靶向新抗原的治疗疫苗引起了肿瘤的消退。除了非同义突变外,还有其他种类的新抗原来源,包括因肿瘤特异性剪接或肿瘤细胞中MHCI呈递机制发生变化导致的多肽转录后修饰,内源性逆转录病毒和在癌症中找到的其他病毒感染等。
[0004]肿瘤新生抗原作为抗肿瘤免疫力的重要驱动因素,其鉴定具有重要的临床应用,包括作为预测和药效生物标记,新型个体化肿瘤免疫疗法的设计,包括TIL疗法和疫苗。但是,一个主要的挑战是只有一小部分的突变引入的抗原能够被MHC呈递,被呈递的抗原中只有更小的一部分具有免疫原性。因为抗原的免疫原性验证需要花费巨大人力物力,通量很小,导致目前所积累的数据较少,进一步导致难以建立免疫原性预测模型。而抗原能否与HLA结合和呈递到细胞表面已经可以高通量验证从而积累了大量的数据,因此更多的实验室希望通过预测抗原呈递或与HLA结合来协助选择免疫原性抗原。肿瘤新生抗原筛选联盟(Tumor Neoantigen Selection Alliance,TESLA)的研究表明抗原呈递主要包含了抗原与HLA的亲和力和表达量等特征,虽然HLA亲和力软件众多且准确性已经达到一定水平,但整合多个特征的抗原呈递预测软件较少,准确率也有待更多数据的评估确定。
[0005]但是,目前的抗原呈递预测算法对于抗原呈递预测表现均不是很好,在外部的质谱数据独立评估上均较差。

技术实现思路

[0006]本公开的主要目的在于,提供一种抗原呈递预测模型的训练方法及其预测方法、设备和介质,以改善现有技术中存在的上述缺陷。
[0007]本公开是通过下述技术方案来解决上述技术问题:
[0008]作为本公开的一方面,提供一种抗原呈递预测模型的训练方法,包括:
[0009]获取抗原序列训练数据及用于表征抗原序列呈递概率的呈递概率训练数据;
[0010]将所述抗原序列训练数据输入至待训练的抗原呈递预测模型;
[0011]通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率,其中,通过所述抗原呈递预测模型的特征编码模块对所述抗原序列训练数据进行氨基酸编码及向量映射处理;以及,
[0012]根据预测出的所述呈递概率及所述呈递概率训练数据训练所述抗原呈递预测模型。
[0013]作为可选实施方式,所述抗原序列训练数据包括主要由氨基酸组成的多肽序列、短肽序列以及短肽对应的pseudo序列(在编码MHC序列时,只考虑那些与肽紧密结合的残基,这些残基形成一个短序列,称为MHC伪序列(MHC Pseudo sequence));和/或,
[0014]所述呈递概率训练数据包括label值(0或1,0表示呈递性差,1表示呈递性强)。
[0015]作为可选实施方式,所述特征编码模块包括embedding模块(一种数据处理模块)。
[0016]作为可选实施方式,所述通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率的步骤,还包括:
[0017]通过所述抗原呈递预测模型的第一特征提取模块对进行氨基酸编码及向量映射处理后的抗原序列训练数据进行多肽序列一维卷积特征提取处理。
[0018]作为可选实施方式,所述第一特征提取模块包括一维CNN(卷积神经网络)模块。
[0019]作为可选实施方式,所述一维CNN模块包括三个并联的卷积结构。
[0020]作为可选实施方式,所述三个并联的卷积结构包括卷积核尺寸分别为1*1、1*5、1*9的一层卷积层。
[0021]作为可选实施方式,所述通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率的步骤,还包括:
[0022]通过所述抗原呈递预测模型的第二特征提取模块对进行多肽序列一维卷积特征提取处理后的抗原序列训练数据进行多肽序列有序特征提取处理。
[0023]作为可选实施方式,所述第二特征提取模块包括RNN(循环神经网络)模块。
[0024]作为可选实施方式,所述RNN模块包括至少两层BiGRU(神经网络结构的一种)。
[0025]作为可选实施方式,所述通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率的步骤,还包括:
[0026]通过所述抗原呈递预测模型的特征融合模块对进行多肽序列有序特征提取处理后的抗原序列训练数据进行特征融合处理。
[0027]作为可选实施方式,所述特征融合模块包括全连接模块。
[0028]作为可选实施方式,所述将所述抗原序列训练数据输入至待训练的抗原呈递预测模型的步骤之前,所述训练方法还包括:
[0029]对获取到的所述抗原序列训练数据进行预处理。
[0030]作为可选实施方式,所述预处理包括无效数据过滤处理、字符串序列数字化处理及归一化处理中的至少一种。
[0031]作为可选实施方式,还包括:
[0032]获取抗原序列测试数据;
[0033]将所述抗原序列测试数据输入至训练出的所述抗原呈递预测模型,以对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种抗原呈递预测模型的训练方法,其特征在于,包括:获取抗原序列训练数据及用于表征抗原序列呈递概率的呈递概率训练数据;将所述抗原序列训练数据输入至待训练的抗原呈递预测模型;通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率,其中,通过所述抗原呈递预测模型的特征编码模块对所述抗原序列训练数据进行氨基酸编码及向量映射处理;以及,根据预测出的所述呈递概率及所述呈递概率训练数据训练所述抗原呈递预测模型。2.如权利要求1所述的训练方法,所述抗原序列训练数据包括主要由氨基酸组成的多肽序列、短肽序列以及短肽对应的pseudo序列;和/或,所述呈递概率训练数据包括label值。3.如权利要求2所述的训练方法,所述通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率的步骤,还包括:通过所述抗原呈递预测模型的第一特征提取模块对进行氨基酸编码及向量映射处理后的抗原序列训练数据进行多肽序列一维卷积特征提取处理。4.如权利要求3所述的训练方法,所述第一特征提取模块包括三个并联的卷积结构。5.如权利要求4所述的训练方法,所述三个并联的卷积结构包括卷积核尺寸分别为1*1、1*5、1*9的一层卷积层。6.如权利要求3所述的训练方法,所述通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率的步骤,还包括:通过所述抗原呈递预测模型的第二特征提取模块对进行多肽序列一维卷积特征提取处理后的抗原序列训练数据进行多肽序列有序特征提取处理。7.如权利要求6所述的训练方法,所述通过所述抗原呈递预测模型对所述抗原序列训练数据进行呈递预测处理以预测出所述抗原序列训练数据对应的呈递概率的步骤,还包括:通过所述抗原呈递预测模型的特征融合模块对进行多肽序列有序特征提取处理后的抗原序列训练数据进行特征融合处理。8.如权利要求1所述的训练方法,所述将所述抗原序列训练数据输入至待训练的抗原呈递预测模型的步骤之前,所述训练方法还包括:对获取到的所述抗原序列训练数据进行预处理,其中,所述预处理包括无效数据过滤处理、字符串序列数字化处理及归一化处理中的至少一种。9.如权利要求1所述的训练方法,还包括:获取抗原序列测试数据;将所述抗原序列测试数据输入至训练出的所述抗原呈递预测模型,以对...

【专利技术属性】
技术研发人员:张碧武李京宇刘耿刘宇轩
申请(专利权)人:深圳吉诺因生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1