一种基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法技术

技术编号:39440458 阅读:12 留言:0更新日期:2023-11-19 16:23
本发明专利技术提出一种基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法。该基于蛋白质结构域特征嵌入的肽与MHCI类蛋白亲和力预测方法利用多头注意力学习肽键与氨基酸残基特征,进行肽与MHCI类蛋白亲和力预测,本发明专利技术提出的预测方法与现有其他方法相比较,预测结果准确,满足实际需求。满足实际需求。满足实际需求。

【技术实现步骤摘要】
一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法


[0001]本专利技术涉及肽与MHC I类蛋白亲和力预测
,具体涉及到一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法。

技术介绍

[0002]肽与MHC I类蛋白结合亲和力在肿瘤药物、疫苗研发、免疫性疾病早期诊断、移植排异反应筛查、生物进化学和神经科学中起着至关重要的作用。在肿瘤药物和疫苗研发领域,肽与MHC I类分子结合亲和力的变化可以影响抗原呈递和识别,从而影响肿瘤免疫治疗效果;在免疫性疾病早期诊断和移植排异反应筛查领域,可以通过肽与MHC I类蛋白结合亲和力预测自身免疫疾病肽段,从而对免疫性疾病和移植排异进行诊断;在生物进化学和神经科学中,肽与MHC I类蛋白结合亲和力的变化还会影响神经元和神经胶质细胞的功能和活性,同时帮助更好理解生物进化和免疫适应机制。
[0003]随着新抗原癌症疫苗发展至今,如何有效、准确快速识别出新抗原是人类攻克癌症亟需解决的问题。而有效预测肽与MHC I类分子亲和力是能够有效识别新抗原的基础。伴随着测序技术的快速发展,大量蛋白质序列被测出,大量的测序数据和肿瘤免疫数据已经准备好了数据原料。如何有效利用这些蛋白质的测序数据,构建一套肽与MHC I类分子亲和力预测分析的方法,从而快速精准的识别抗原肽,是所有该领域学者的共性需求。
[0004]已有研究表明,某些肿瘤比其他肿瘤具有更高的突变负荷。因此不同癌症类型的新抗原疫苗诱导的免疫原性反应可能不同。在癌症基因组测序出现前,很难确定每种癌症类型的特定新抗原。传统的新抗原鉴定方法通常依赖于单个cDNA文库筛选,这种鉴定方法效率非常低。二代测序技术的发展加速了新抗原鉴定的进程。已识别的肿瘤特异性基因突变已广泛可用,针对这些基因突变,已经开发了许多工具进行肽和MHC分子亲和力预测。例如,NetMHC,一种基于前馈神经网络的算法来预测肽与MHC I类分子亲和力,是被最广泛使用的等位基因特异性模型。NetMHCpan,一个不限于特定的MHC等位基因的泛特异性模型,利用具有单隐藏层的传统神经网络模型。

技术实现思路

[0005]本专利技术目的是为了解决现有技术中的问题,提供了一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法。所述基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法利用多头注意力学习肽键与氨基酸残基特征,进行肽与MHC I类蛋白亲和力预测。
[0006]本专利技术是通过以下技术方案实现的,本专利技术提出一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法,所述方法包括以下步骤:
[0007]步骤1、构建蛋白质结构域词符词典;
[0008]步骤2、将给定MHC I类蛋白唯一表示符(ID),找到其对应的氨基酸序列;
[0009]步骤3、获取肽序列及MHC I类蛋白结构域序列,并对其进行分词,在获得MHC I类蛋白的氨基酸序列后,对该序列进一步处理,通过hmmscan方法得到MHC I类蛋白所有结构域的起始和终止位置,通过已知的起始和终止位置提取结构域氨基酸序列并依据自主构建的蛋白质结构域词符词典,对这些结构域氨基酸序列分词;
[0010]步骤4、构建氨基酸词符嵌入模型;
[0011]步骤5、提取肽序列和MHC I类蛋白氨基酸词符嵌入特征,特征表示为肽和MHC I类蛋白结合嵌入矩阵;
[0012]步骤6、预测肽与MHC I类蛋白结合亲和力。
[0013]进一步地,在步骤1中,统计蛋白质结构域氨基酸序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典。
[0014]进一步地,在步骤2中,使用免疫表位数据库中的结合亲和力数据,该结合亲和力由半抑制浓度表示,单位为微摩尔,半抑制浓度值转换为0到1区间的数值,计算公式为:
[0015][0016]其中affinity是实验测得的肽与MHC I类分子结合亲和力。
[0017]进一步地,在步骤3中,对肽序列和MHC I类蛋白分子氨基酸序列进行分词,分词基于自主构建的分词词典进行;通过统计蛋白质结构域序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典;当取10000个氨基酸词符时,蛋白质结构域词典的词符长度大多为3或4个氨基酸字母的长度;这些蛋白质结构域词符更能适应环境而被保留,能够携带蛋白的演化特征;分词后的序列分别表示为和其中氨基酸词符的上标1表示肽序列,上标2表示MHC I类蛋白氨基酸序列,下标表示氨基酸词符的数量,通过插入特殊词符将他们组合成一个序列:
[0018][0019]其中[CLS]、[SEP]和[EOS]为特殊词符,分别表示类别符、分隔符和结束符;肽序列和MHC I类蛋白分子氨基酸序列组合后,将其最大组合长度规范为512。
[0020]进一步地,在步骤4中,基于Bert模型构建基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测模型,该模型通过预训练深度表示Uniprot数据库中的蛋白质氨基酸序列,通过微调模型计算肽序列和MHC I类蛋白特征空间距离表示肽与MHC I类蛋白亲和力;模型采用LAMB优化器,设置优化器的超参数为默认值,即β1=0.9,β2=0.999,∈=1E

8,重量衰减率λ=0.01。
[0021]进一步地,在步骤5中,利用多头注意力机制提取肽与MHC I类蛋白氨基酸序列嵌入特征;给定氨基酸词符向量输入列表X=<x1,x2,

x
n
>,每个氨基酸词符向量x
i
首先通过多头注意力机制计算,根据计算出的结果与x
i
上下氨基酸词符的相关性来识别和关注X中的某些位置;根据多头注意力机制,来自X中每个向量x
i
的前后氨基酸词符信息编码为输出向量y
i
,并根据其与x
i
的相关性进行加权;然后通过将初始向量x
i
添加到输出向量y
i
,合并的向量y
i
通过归一化后通过全连接前馈神经网络提取特征,全连接前馈神经网络使用GeLU函数作为激活函数;GeLU函数如下公式所示:
[0022]GeLU(x)=xP(X≤x)
[0023]其中X~N(μ,σ2),μ和σ都是验证实验的参数,赋值μ=0和σ=1;
[0024]每个向量y
i
独立地通过相同的前馈神经网络生成输出向量z
i
;最后将向量y
i
加入到z
i
,z
i
归一化后,得到整个基于多头注意力的蛋白质特征嵌入方法的向量列表Z=<z1,z2,

z
n
>;
[0025]其中的注意力机制公式如下:
[0026]Mul本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测方法,其特征在于:所述方法包括以下步骤:步骤1、构建蛋白质结构域词符词典;步骤2、将给定MHC I类蛋白唯一表示符(ID),找到其对应的氨基酸序列;步骤3、获取肽序列及MHC I类蛋白结构域序列,并对其进行分词,在获得MHC I类蛋白的氨基酸序列后,对该序列进一步处理,通过hmmscan方法得到MHC I类蛋白所有结构域的起始和终止位置,通过已知的起始和终止位置提取结构域氨基酸序列并依据自主构建的蛋白质结构域词符词典,对这些结构域氨基酸序列分词;步骤4、构建氨基酸词符嵌入模型;步骤5、提取肽序列和MHC I类蛋白氨基酸词符嵌入特征,特征表示为肽和MHC I类蛋白结合嵌入矩阵;步骤6、预测肽与MHC I类蛋白结合亲和力。2.根据权利要求1所述的方法,其特征在于:在步骤1中,统计蛋白质结构域氨基酸序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典。3.根据权利要求1所述的方法,其特征在于:在步骤2中,使用免疫表位数据库中的结合亲和力数据,该结合亲和力由半抑制浓度表示,单位为微摩尔,半抑制浓度值转换为0到1区间的数值,计算公式为:其中affinity是实验测得的肽与MHC I类分子结合亲和力。4.根据权利要求1所述的方法,其特征在于:在步骤3中,对肽序列和MHC I类蛋白分子氨基酸序列进行分词,分词基于自主构建的分词词典进行;通过统计蛋白质结构域序列中出现频率最高的氨基酸序列对,组成氨基酸词符,取出前10000个氨基酸词符组成蛋白质结构域词符词典;当取10000个氨基酸词符时,蛋白质结构域词典的词符长度大多为3或4个氨基酸字母的长度;这些蛋白质结构域词符更能适应环境而被保留,能够携带蛋白的演化特征;分词后的序列分别表示为和其中氨基酸词符的上标1表示肽序列,上标2表示MHC I类蛋白氨基酸序列,下标表示氨基酸词符的数量,通过插入特殊词符将他们组合成一个序列:其中[CLS]、[SEP]和[EOS]为特殊词符,分别表示类别符、分隔符和结束符;肽序列和MHC I类蛋白分子氨基酸序列组合后,将其最大组合长度规范为512。5.根据权利要求1所述的方法,其特征在于:在步骤4中,基于Bert模型构建基于蛋白质结构域特征嵌入的肽与MHC I类蛋白亲和力预测模型,该模型通过预训练深度表示Uniprot数据库中的蛋白质氨基酸序列,通过微调模型计算肽序列和MHC I类蛋白特征空间距离表示肽与MHC I类蛋白亲和力;模型采用LAMB优化器,设置优化器的超参数为默认值,即β1=0.9,β2=0.999,∈=1E

8,重量衰减率λ=0.01。
6.根据权利要求1所述的方法,其特征在于:在步骤5中,利用多头注意力机制提取肽与MHC I类蛋白氨基酸序列嵌入特征;给定氨基酸词符向量输入列表X=<x1,x2,

x
n
>,每个氨基酸词符向量x
i
首先通过多头注意力机制计算,根据计算出的结果与x
i
上下氨基酸词符的相关性来识别和关注X中的某些位置;根据...

【专利技术属性】
技术研发人员:王福旭臧天仪王皓俨
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1