基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法技术

技术编号：20946102 阅读：83 留言：0更新日期：2019-04-24 03:03

本发明专利技术公开了一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，包括：构建两个训练集，其中，训练集1包括多个由多肽‑HLA I型序列及其亲和力组成的训练样本；训练集2包括多个由多肽‑HLA I型序列及其结合关系组成的训练样本；以双向GRU或带有注意力机制的双向GRU为基础，再加一个Sigmoid函数作为输出层组成预测网络，利用训练集1和训练集2训练预测网络，获得回归模型和分类模型；将待预测的多肽‑HLA I型序列输入至回归模型和分类模型，经计算获得多肽与HLA I型之间的预测亲和力数值。该方法能够快速较准确地预测多肽与HLA I型分子之间结合亲和力或结合关系。

Prediction of binding relationship and affinity between polypeptide and HLA-I molecule based on cyclic neural network

The invention discloses a method for predicting binding relationship and binding affinity between polypeptide and HLA type I molecule based on cyclic neural network, which includes: constructing two training sets, in which training set 1 includes multiple training samples composed of polypeptide HLA type I sequence and its affinity, and training set 2 includes multiple training samples composed of polypeptide HLA type I sequence and its binding relationship; Based on bidirectional GRU or bidirectional GRU with attention mechanism and a Sigmoid function as output layer, the prediction network is trained by training set 1 and training set 2 to obtain regression model and classification model. The predicted polypeptide HLA I sequence is input into regression model and classification model, and the predicted affinity between polypeptide and HLA I type is calculated. \u3002 This method can quickly and accurately predict the binding affinity or binding relationship between polypeptide and HLA type I molecule.

全部详细技术资料下载

【技术实现步骤摘要】
基于循环神经网络预测多肽与HLAI型分子之间结合关系与结合亲和力的方法
本专利技术属于计算机辅助生物分子结合领域，具体涉及一种基于循环神经网络预测多肽与HLAI型分子之间结合关系与结合亲和力的方法。
技术介绍
随着对肿瘤研究的不断深入，肿瘤新抗原作为肿瘤免疫治疗的靶点以及疗效的指标已经得到了广泛的认可。然而，识别有效的肿瘤新抗原是一个巨大的挑战。目前，全外显子组测序结合生物信息学方法已经广泛地应用于潜在新抗原的预测。现有文献报道的用于肿瘤新抗原预测的全流程集成软件有TSNAD(参见文献Zhou,Z.etal.(2017)TSNAD:Anintegratedsoftwareforcancersomaticmutationandtumour-specificneoantigendetection.R.Soc.OpenSci.,4,170050)，pVAC-Seq(参见文献Hundal,J.etal.(2016)pVAC-Seq:Agenome-guidedinsilicoapproachtoidentifyingtumorneoantigens.GenomeMed.,8,11)和INTERGATE-neo(参见文献Zhang,J.etal.(2017)INTEGRATE-neo:Apipelineforpersonalizedgenefusionneoantigendiscovery.Bioinformatics,33,555–557)。这些软件的最关键部分是多肽与HLA分子之间结合亲和力的预测。目前已有的用于多肽-HLA结合亲和力预测的方法有NetMHCpa...

【技术保护点】
1.一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法，包括以下步骤：构建第一训练集和第二训练集，其中，第一训练集包括多个由多肽‑HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本；第二训练集包括多个由多肽‑HLA I型序列、多肽与HLA I型之间的结合关系组成的训练样本，还包括多个由多肽‑HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本；以双向GRU或带有注意力机制的双向GRU为基础，再加一个Sigmoid函数作为输出层，组成预测网络，利用第一训练集和第二训练集对预测网络进行训练，获得回归模型和分类模型；将待预测的多肽‑HLA I型序列输入至回归模型和分类模型中，经计算获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。

【技术特征摘要】
1.一种基于循环神经网络预测多肽与HLAI型分子之间结合关系与结合亲和力的方法，包括以下步骤：构建第一训练集和第二训练集，其中，第一训练集包括多个由多肽-HLAI型序列、多肽与HLAI型之间的亲和力组成的训练样本；第二训练集包括多个由多肽-HLAI型序列、多肽与HLAI型之间的结合关系组成的训练样本，还包括多个由多肽-HLAI型序列、多肽与HLAI型之间的亲和力组成的训练样本；以双向GRU或带有注意力机制的双向GRU为基础，再加一个Sigmoid函数作为输出层，组成预测网络，利用第一训练集和第二训练集对预测网络进行训练，获得回归模型和分类模型；将待预测的多肽-HLAI型序列输入至回归模型和分类模型中，经计算获得多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系。2.如权利要求1所述的预测多肽与HLAI型分子之间结合关系与结合亲和力的方法，其特征在于，以三层双向GRU或带有注意力机制的三层双向GRU为基础网络。3.如权利要求1或2所述的预测多肽与HLAI型分子之间结合关系与结合亲和力的方法，其特征在于，还包括用于优化多肽与HLAI型之间的亲和力数值的全连接层；训练时，以回归模型和分类模型对第一训练集中训练样本进行预测，输出的多肽与HLAI型之间的预测亲和力和多肽与HLAI型之间的预测结合关系作为全连接层的输入，以第一训练集中训练样本的亲和力数值作为全连接层的输出，以预测值和真实值之间的均方误差作为优选目标，对全连接层进行优化训练，确定全连接层参数；应用时，若只需得到多肽与HLAI型之间的结合关系，将待预测的多肽-HLAI型...

【专利技术属性】
技术研发人员：周展，吴静成，赵文艺，周斌彬，陈枢青，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人