MHC-II类与多肽结合预测方法技术

技术编号:41182108 阅读:29 留言:0更新日期:2024-05-07 22:15
一种MHC‑II类与多肽结合预测方法,在离线阶段采用迁移学习方法对ESM‑2模型进行预训练,利用微调后的ESM‑2模型生成训练集;再采用训练集对构建得到的多模态卷积神经网络进行5折交叉验证训练,使其适应分类任务;最后在在线阶段采用训练后的多模态卷积神经网络进行肽段与等位基因结合的概率预测。本发明专利技术能够有效提高肽段和等位基因结合预测的准确性;本发明专利技术只需利用肽段和MHC‑II类分子序列的信息,而不需要额外的特征提取或编码,在大大提高数据的利用率的同时适用于多种MHC‑II类分子等位基因。

【技术实现步骤摘要】

本专利技术涉及的是一种生物医药领域的技术,具体是一种基于迁移学习和半监督学习的主要组织相容性复合体mhc-ii类与多肽结合预测方法,可以应用于其他领域,如药物设计、分子诊断和生物医学研究等领域。


技术介绍

1、传统的mhc-ii和肽段结合需要一系列生化实验来验证的,主要通过竞争结合实验的生化实验来测量的。实验中,已知量的mhc-ii与标记化的肽段竞争结合,以测量未结合的mhc-ii浓度。通过改变肽段的浓度,可以确定其与mhc-ii结合浓度,从而计算出ic50值。这些实验需专用试剂、仪器和专业技能,因此在实际应用中存在一定的局限性。


技术实现思路

1、本专利技术针对现有预测方法仅依靠结合亲和力数据进行训练,忽略整个抗原呈递途径的生物学特征,提出一种mhc-ii类与多肽结合预测方法,通过预训练模型对数据集进行优化,采用多模态卷积神经网络模型对数据进行学习,能够有效提高肽段和等位基因结合预测的准确性;本专利技术只需利用肽段和mhc-ii类分子序列的信息,而不需要额外的特征提取或编码,在大大提高数据的利用率的同时适用本文档来自技高网...

【技术保护点】

1.一种MHC-II类与多肽结合预测方法,其特征在于,在离线阶段采用迁移学习方法对ESM-2模型进行预训练,利用微调后的预训练模型生成训练集;再采用训练集对构建得到的多模态卷积神经网络进行5折交叉验证训练,使其适应分类任务;最后在在线阶段采用训练后的多模态卷积神经网络进行肽段与等位基因结合的概率预测;

2.根据权利要求1所述的MHC-II类与多肽结合预测方法,其特征是,具体包括:

3.根据权利要求1或2所述的MHC-II类与多肽结合预测方法,其特征是,所述的ESM-2模型为基于Transformer的蛋白质语言模型,包括:嵌入层、多层Transformer编码器和...

【技术特征摘要】

1.一种mhc-ii类与多肽结合预测方法,其特征在于,在离线阶段采用迁移学习方法对esm-2模型进行预训练,利用微调后的预训练模型生成训练集;再采用训练集对构建得到的多模态卷积神经网络进行5折交叉验证训练,使其适应分类任务;最后在在线阶段采用训练后的多模态卷积神经网络进行肽段与等位基因结合的概率预测;

2.根据权利要求1所述的mhc-ii类与多肽结合预测方法,其特征是,具体包括:

3.根据权利要求1或2所述的mhc-ii类与多肽结合预测方法,其特征是,所述的esm-2模型为基于transformer的蛋白质语言模型,包括:嵌入层、多层transformer编码器和任务特定头部,其中:多层transformer编码器对向量序列进行自注意力操作以学习蛋白质序列的语义表示;不同的任务特定的头部对语义表示进行后处理,输出不同任务的预测结果;损失函数用于优化不同任务的预测结果,使模型能够在多个任务上同时学习。

4.根据权利要求3所述的mhc-ii类与多肽结合预测方法,其特征是,所述的任务特定头部是指:对于蛋白质结构预测任务,模型使用一个联系预测头预测蛋白质序列中不同位置的氨基酸之间的空间距离;对于变异效应预测任务,模型使用一个语言模型头预测蛋白质序列中某个位置的氨基酸被替换后的概率。

5.根据权利要求3所述的mhc-ii类与多肽结合预测方法,其特征是,所述的多层transformer编码器中每一层均包含一个多头自注意力子层和一个前馈神经网络子层,通过残差连接将多头自注意力子层的输入向量序列和输出向量序列相加并放入任务特定的头部,根据不同任务的损失函数实现训练。

6.根据权利要求3所述的mhc-ii类与多肽结合预测方法,其特征是,所述的多头自注意力子层通过缩放点积自注意力进行自注意力操作,具体为:其...

【专利技术属性】
技术研发人员:袁野
申请(专利权)人:上海数因信科智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1