当前位置: 首页 > 专利查询>浙江大学专利>正文

基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法技术

技术编号:20946102 阅读:83 留言:0更新日期:2019-04-24 03:03
本发明专利技术公开了一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,包括:构建两个训练集,其中,训练集1包括多个由多肽‑HLA I型序列及其亲和力组成的训练样本;训练集2包括多个由多肽‑HLA I型序列及其结合关系组成的训练样本;以双向GRU或带有注意力机制的双向GRU为基础,再加一个Sigmoid函数作为输出层组成预测网络,利用训练集1和训练集2训练预测网络,获得回归模型和分类模型;将待预测的多肽‑HLA I型序列输入至回归模型和分类模型,经计算获得多肽与HLA I型之间的预测亲和力数值。该方法能够快速较准确地预测多肽与HLA I型分子之间结合亲和力或结合关系。

Prediction of binding relationship and affinity between polypeptide and HLA-I molecule based on cyclic neural network

The invention discloses a method for predicting binding relationship and binding affinity between polypeptide and HLA type I molecule based on cyclic neural network, which includes: constructing two training sets, in which training set 1 includes multiple training samples composed of polypeptide HLA type I sequence and its affinity, and training set 2 includes multiple training samples composed of polypeptide HLA type I sequence and its binding relationship; Based on bidirectional GRU or bidirectional GRU with attention mechanism and a Sigmoid function as output layer, the prediction network is trained by training set 1 and training set 2 to obtain regression model and classification model. The predicted polypeptide HLA I sequence is input into regression model and classification model, and the predicted affinity between polypeptide and HLA I type is calculated. \u3002 This method can quickly and accurately predict the binding affinity or binding relationship between polypeptide and HLA type I molecule.

【技术实现步骤摘要】
基于循环神经网络预测多肽与HLAI型分子之间结合关系与结合亲和力的方法
本专利技术属于计算机辅助生物分子结合领域,具体涉及一种基于循环神经网络预测多肽与HLAI型分子之间结合关系与结合亲和力的方法。
技术介绍
随着对肿瘤研究的不断深入,肿瘤新抗原作为肿瘤免疫治疗的靶点以及疗效的指标已经得到了广泛的认可。然而,识别有效的肿瘤新抗原是一个巨大的挑战。目前,全外显子组测序结合生物信息学方法已经广泛地应用于潜在新抗原的预测。现有文献报道的用于肿瘤新抗原预测的全流程集成软件有TSNAD(参见文献Zhou,Z.etal.(2017)TSNAD:Anintegratedsoftwareforcancersomaticmutationandtumour-specificneoantigendetection.R.Soc.OpenSci.,4,170050),pVAC-Seq(参见文献Hundal,J.etal.(2016)pVAC-Seq:Agenome-guidedinsilicoapproachtoidentifyingtumorneoantigens.GenomeMed.,8,11)和INTERGATE-neo(参见文献Zhang,J.etal.(2017)INTEGRATE-neo:Apipelineforpersonalizedgenefusionneoantigendiscovery.Bioinformatics,33,555–557)。这些软件的最关键部分是多肽与HLA分子之间结合亲和力的预测。目前已有的用于多肽-HLA结合亲和力预测的方法有NetMHCpan(参见文献Jurtz,V.etal.(2017)NetMHCpan-4.0:ImprovedPeptide–MHCClassIInteractionPredictionsIntegratingElutedLigandandPeptideBindingAffinityData.J.Immunol.,ji1700893),PickPocket(参见文献Zhang,H.etal.(2009)ThePickPocketmethodforpredictingbindingspecificitiesforreceptorsbasedonreceptorpocketsimilarities:ApplicationtoMHC-peptidebinding.Bioinformatics,25,1293–1299),PSSMHCpan(参见文献Liu,G.etal.(2017)PSSMHCpan:AnovelPSSM-basedsoftwareforpredictingclassIpeptide-HLAbindingaffinity.Gigascience,6,1–11),HLA-CNN(参见文献Vang,Y.S.andXie,X.(2017)HLAclassIbindingpredictionviaconvolutionalneuralnetworks.Bioinformatics,33,2658–2665)等。但是,实验结果表明,现有的工具由于假阳性率过高,不足以用于临床的新抗原预测。因此有必要研发新方法用于多肽-HLA结合亲和力的预测,从而促进肿瘤免疫治疗的发展。
技术实现思路
本专利技术的目的是提供一种预测多肽与HLAI型分子之间结合关系与结合亲和力的方法,该方法简称为DeepHLApan。该方法基于深度学习中的循环神经网络(RecurrentNeuralNetwork,RNN),能够快速较准确地预测多肽与HLAI型分子之间的亲和力数值和结合关系。为实现上述专利技术目的,本专利技术提供以下技术方案:一种预测多肽与HLAI型分子之间结合关系与结合亲和力的方法,包括以下步骤:构建第一训练集和的第二训练集,其中,第一训练集包括多个由多肽-HLAI型序列、多肽与HLAI型之间的亲和力组成的训练样本;第二训练集包括多个由多肽-HLAI型序列、多肽与HLAI型之间的结合关系组成的训练样本,还包括多个由多肽-HLAI型序列、多肽与HLAI型之间的亲和力组成的训练样本;以双向GRU(GatedRecurrentUnit,一种基础的RNN变体)或带有注意力机制的双向GRU为基础,再加一个Sigmoid函数作为输出层,组成预测网络,利用第一训练集和第二训练集对预测网络进行训练,获得回归模型和分类模型;将待预测的多肽-HLAI型序列输入至回归模型和分类模型中,经计算获得多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系。该方法通过训练样本训练神经网路,获得能够很好学习训练样本特性的回归模型和分类模型,然后利用回归模型和分类模型学习时确定的模型参数对待预测的多肽-HLAI型序列进行预测,获得多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系。为了获得更稳定精准的预测模型,优选地,以三层双向GRU或带有注意力机制的三层双向GRU为基础网络。三层的双向GRU和带有注意力机制的三层双向GRU的网络结构较深,能够更深度地学习训练样本的特性,确定更准确的模型参数。为了优化回归模型的回归结果,即获得更准确的多肽与HLAI型之间的亲和力,还包括用于优化多肽与HLAI型之间的亲和力数值的全连接层;训练时,以回归模型和分类模型对第一训练集中训练样本进行预测,输出的多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系作为全连接层的输入,以第一训练集中训练样本的亲和力数值作为全连接层的输出,以预测值和真实值之间的均方误差作为优选目标,对全连接层进行优化训练,确定全连接层参数;应用时,若只需得到多肽与HLAI型之间的结合关系,将待预测的多肽-HLAI型序列输入至分类模型中,经计算获得多肽与HLAI型之间的预测结合关系;若想得到具体的亲和力数值,将待预测的多肽-HLAI型序列输入至回归模型和分类模型中,经计算获得多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系,并将该预测亲和力数值和预测结合关系输入至训练好的全连接层中,输出最终的多肽与HLAI型之间的预测亲和力数值。全连接层能够根据训练样本对应的亲和力数据和结合关系数据对回归模型的输出结果进行优化,获得更准确的预测亲和力。优选地,所述全连接层为由20个神经元组成的单层神经网络。在训练样本和测试样本输入至模型前,需要对样本进行预处理,以适应模型的输入数据的格式要求。具体地,所述多肽-HLAI型序列由多肽和-HLAI型分子顺序连接而成,若序列长度小于49,则在连接后的序列后面添加虚拟氨基酸‘X’,使序列长度达到49。再者,采用PSSM、稀疏编码或word2vec对多肽-HLAI型序列中氨基酸进行向量表示,获得能够直接输入至基础网络的训练样本。PSSM最初的计算方法是在给定HLA分型的情况下,对与该分型结合的多肽中每个残基位置上不同氨基酸的频率进行计算。本专利技术不对单个HLA分型分别计算PSSM,而是对整个数据集中所有多肽进行PSSM的计算。每个位置上不同氨基酸的PSSM值由以下公式计算:其中Pap表示位置p上氨基酸a的PSSM值,Fap表示位置p上氨基酸a的频率;ω表示Dirichlet分布的值;B本文档来自技高网
...

【技术保护点】
1.一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,包括以下步骤:构建第一训练集和第二训练集,其中,第一训练集包括多个由多肽‑HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本;第二训练集包括多个由多肽‑HLA I型序列、多肽与HLA I型之间的结合关系组成的训练样本,还包括多个由多肽‑HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本;以双向GRU或带有注意力机制的双向GRU为基础,再加一个Sigmoid函数作为输出层,组成预测网络,利用第一训练集和第二训练集对预测网络进行训练,获得回归模型和分类模型;将待预测的多肽‑HLA I型序列输入至回归模型和分类模型中,经计算获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。

【技术特征摘要】
1.一种基于循环神经网络预测多肽与HLAI型分子之间结合关系与结合亲和力的方法,包括以下步骤:构建第一训练集和第二训练集,其中,第一训练集包括多个由多肽-HLAI型序列、多肽与HLAI型之间的亲和力组成的训练样本;第二训练集包括多个由多肽-HLAI型序列、多肽与HLAI型之间的结合关系组成的训练样本,还包括多个由多肽-HLAI型序列、多肽与HLAI型之间的亲和力组成的训练样本;以双向GRU或带有注意力机制的双向GRU为基础,再加一个Sigmoid函数作为输出层,组成预测网络,利用第一训练集和第二训练集对预测网络进行训练,获得回归模型和分类模型;将待预测的多肽-HLAI型序列输入至回归模型和分类模型中,经计算获得多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系。2.如权利要求1所述的预测多肽与HLAI型分子之间结合关系与结合亲和力的方法,其特征在于,以三层双向GRU或带有注意力机制的三层双向GRU为基础网络。3.如权利要求1或2所述的预测多肽与HLAI型分子之间结合关系与结合亲和力的方法,其特征在于,还包括用于优化多肽与HLAI型之间的亲和力数值的全连接层;训练时,以回归模型和分类模型对第一训练集中训练样本进行预测,输出的多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系作为全连接层的输入,以第一训练集中训练样本的亲和力数值作为全连接层的输出,以预测值和真实值之间的均方误差作为优选目标,对全连接层进行优化训练,确定全连接层参数;应用时,若只需得到多肽与HLAI型之间的结合关系,将待预测的多肽-HLAI型...

【专利技术属性】
技术研发人员:周展吴静成赵文艺周斌彬陈枢青
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利