一种基于深度学习的非经典人类白细胞抗原绑定物预测方法技术

技术编号:40116892 阅读:35 留言:0更新日期:2024-01-23 20:02
本发明专利技术公开了一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,包括:使用电子‑离子相互作用势EIIP、整型数字映射INM和累积氨基酸频率AAAF三种特征编码方法进行特征提取,肽序列转换为特征向量;构建包含以下内容的深度学习模型:两个不同尺度的一维卷积层分别与最大池化层,Relu激活层,批标准归一化层,丢弃层,双向长短时记忆网络层和展平层顺序连接,构成了并行网络;对深度学习模型进行训练,将数据输入到训练后的模型中得到预测的概率值;本发明专利技术为预测非经典人类白细胞抗原绑定物提供了一种新的深度学习方法,降低了非经典人类白细胞抗原绑定物预测成本和时间投入,取得了比现有方法更好的预测性能。

【技术实现步骤摘要】

本专利技术涉及计算生物信息学领域,特别是涉及一种基于深度学习的非经典人类白细胞抗原绑定物预测方法


技术介绍

1、人类白细胞抗原(hla)是位于第6号染色体的人类组织相容性复合体(mhc)区域的表达产物。人类白细胞抗原密切参与调节人体免疫系统。一般来说,hla基因分为i类、ii类、iii类,而hla i类基因又分成两大类:经典hla(hla-a、hla-b、hla-c)和非经典(hla-e、hla-g、hla-f),目前对于hla基因的研究主要集中在经典hla基因上,近年来,研究表明,非经典hla基因在转录、蛋白质表达和免疫调节中同样起着重要作用。

2、近二十年来,计算方法由于其简单性和有效性而受到更多关注,已经提出了不少于十种用于预测hla绑定物的计算方法,但是大多数计算方法都是基于传统的机器学习(浅层学习)方法,仅限于少量的倾斜样本,模型的泛化能力通常较差,目前只有hlancpred明确用于预测非经典hla i类等位基因的绑定物,hlancpred是一种基于特征工程和传统机器学习的方法,他使用具有不同特征的不同机器学习算法在不同的数据集上构本文档来自技高网...

【技术保护点】

1.一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,所述步骤S1中将数据集分成两类,分别为平衡数据集和不平衡数据集,在平衡数据集中,每个数据集的正负样本数量相同,而在不平衡数据集中,负样本数量是正样本数量的十倍。

3.根据权利要求项1所述的一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,所述步骤S2中EIIP反映了自由电子能的分布,所述EIIP和INM分别将不同的氨基酸映射成不同的数字向量。

4.根据权利要求项1...

【技术特征摘要】

1.一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,所述步骤s1中将数据集分成两类,分别为平衡数据集和不平衡数据集,在平衡数据集中,每个数据集的正负样本数量相同,而在不平衡数据集中,负样本数量是正样本数量的十倍。

3.根据权利要求项1所述的一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,所述步骤s2中eiip反映了自由电子能的分布,所述eiip和inm分别将不同的氨基酸映射成不同的数字向量。

4.根据权利要求项1所述的一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,所述步骤s2中aaaf反映了蛋白质序列中氨基酸的分布密度,aaaf的计算方法包括:假设非经典hla绑定物肽序列s=s1s2…n,其中n表示肽序列的长度,aaaf的计算公式为其中t(st)的计算公式为

5.根据权利要求项1所述的一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,所述步骤s2中eiip、inm和aaaf特征编码方法将长度为8-15的肽序列编码成15维的向量,对于长度不足15的肽序列,使用0进行填充。

6.根据权利要求项1所述的一种基于深度学习的非经典人类白细胞抗原绑定物预测方法,其特征在于,所述步骤s4卷积神经网络包括卷积和池化操作,其中卷积的计算公式为

7.根据权利要求...

【专利技术属性】
技术研发人员:黄国华唐星宇
申请(专利权)人:湖南财政经济学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1