基于监督对比学习的可解释制造技术

技术编号:39730094 阅读:5 留言:0更新日期:2023-12-17 23:34
本发明专利技术公开了一种基于监督对比学习的可解释

【技术实现步骤摘要】
Bioinformatics2021

19:2188

2196.)
是一种具有注意力机制的循环神经网络模型,可以预测肽

HLA II
类结合

最近,
You
等人提出了一种具有结合核心感知的相互作用模型
DeepMHCII(You R,Qu W,Mamitsuka H et al.DeepMHCII:a novel binding core

aware deep interaction model for accurate MHC

II peptide binding affinity prediction,Bioinformatics 2022

38:i220

i228.)
,以增强
MHC

II
和肽结合亲和力预测

[0005]当前的方法尽管在预测性能方面取得了一定的进步,但仍然面临四个主要问题:
(1)MHC

II
分子的高度多样性和结合数据的稀缺性导致训练数据有限的
MHC

II
分子的预测精度较低;
(2)
虽然一些算法旨在通过分析注意力模块来增强模型的可解释性,但仍然存在很大的改进空间;
(3)
大多数方法对
MHC

II
分子和肽序列进行单一表征,可能导致序列信息挖掘不充分;
(4)
目前大多数算法通过集成多个结构相似的模型来增强预测性能

然而,如果可以通过更少的集成或单个模型获得相近或更好的结果,这将节省用于训练和预测的计算资源

目前的预测精度距离大规模实际应用还有较大差距,迫切需要进一步提高


技术实现思路

[0006]本专利技术的目的在于提出一种基于监督对比学习的可解释
MHC

II
肽结合亲和力预测方法,提高了
MHC

II
肽亲和力预测精度
。。
[0007]实现本专利技术的技术解决方案为:一种基于监督对比学习的可解释
MHC

II
肽结合亲和力预测方法,包括步骤:
[0008]步骤1:搜集
MHC

II
肽亲和力数据,并对
MHC

II
分子

肽序列分别进行特征编码,转换为特征向量;
[0009]步骤2:将步骤1处理后的数据按时间构建训练集;
[0010]步骤3:根据结合亲和力值将训练集构建为预训练分类数据集
Pre

Dataset

[0011]步骤4:构建基于
Transformer
模块与残差模块的深度学习框架;
[0012]步骤5:将
Pre

Dataset
输入构建的深度学习框架,使用监督对比学习对其进行预训练;
[0013]步骤6:对步骤5训练得到的深度学习框架进行优化学习;
[0014]步骤7:将待预测
MHC

II
分子序列和肽序列输入步骤6训练好的深度学习模型,通过模型的前向计算,输出对应
MHC

II
分子和肽的结合亲和力预测值

[0015]优选地,
MHC

II
分子

肽序列通过
one

hot
编码方式进行编码,将
MHC

II
分子和肽序列中的氨基酸转换为相应特征向量的形式

[0016]优选地,所述基于
Transformer
模块与残差模块的深度学习框架包括
MHC

II
肽交互模块

两组
Transformer
模块

堆叠的若干个残差模块

平均池化层

预训练阶段的线性变换层以及用于步骤6优化学习的
sigmoid
函数

[0017]优选地,所述
Transformer
模块为:
[0018]Transformer(X)

Concat(head1,
...

head
h
)
[0019][0020]式中,是投影权重矩阵;是投影权重矩阵;表示交互特征的相对位置编码;
d
w
表示特征长度;
i
表示第
i
个注意力头;
d
model

Transformer
的输入特征维数;
d
k
是投影变换后的输入特征维数;
X
表示
Transformer
模块的输入特征矩阵,
Concat()
为张量拼接函数;
Attention()
为注意力机制模块

[0021]优选地,所述残差模块具体为:
[0022][0023]其中,
x
l

x
l+1
分别表示第
l
层残差块的输入和输出;是第
l
层残差块的一组权重,表示残差函数,表示批归一化函数与激活函数

[0024]优选地,所述深度学习框架划分为编码器网络和投影网络,投影网络位于编码器网络之后,为预训练阶段的线性变换层

[0025]优选地,所述编码器网络具体计算过程为:
[0026][0027]式中,
x

y
表示肽和
MHC

II
分子对,通过编码器网络将
x

y
映射为单位超球面上的表示向量
r

D
E
为编码网络输出的向量维度;
[0028]所述投影网络使用多层投影网络将
r
映射到向量
z
,投影网络为:
[0029][0030]式中,
Proj(
·
)
包含两个全连接层和一个激活函数,并归一化最终的输出到单位超球面
D
P
为投影网络输出的向量维度

[0031]优选地,所述
D
E

256
...

【技术保护点】

【技术特征摘要】
1.
一种基于监督对比学习的可解释
MHC

II
肽结合亲和力预测方法,其特征在于,包括步骤:步骤1:搜集
MHC

II
肽亲和力数据,并对
MHC

II
分子

肽序列分别进行特征编码,转换为特征向量;步骤2:将步骤1处理后的数据按时间构建训练集;步骤3:根据结合亲和力值将训练集构建为预训练分类数据集
Pre

Dataset
;步骤4:构建基于
Transformer
模块与残差模块的深度学习框架;步骤5:将
Pre

Dataset
输入构建的深度学习框架,使用监督对比学习对其进行预训练;步骤6:对步骤5训练得到的深度学习框架进行优化学习;步骤7:将待预测
MHC

II
分子序列和肽序列输入步骤6训练好的深度学习模型,通过模型的前向计算,输出对应
MHC

II
分子和肽的结合亲和力预测值
。2.
根据权利要求1所述的基于监督对比学习的可解释
MHC

II
肽结合亲和力预测方法,其特征在于,
MHC

II
分子

肽序列通过
one

hot
编码方式进行编码,将
MHC

II
分子和肽序列中的氨基酸转换为相应特征向量的形式
。3.
根据权利要求1所述的基于监督对比学习的可解释
MHC

II
肽结合亲和力预测方法,其特征在于,所述基于
Transformer
模块与残差模块的深度学习框架包括
MHC

II
肽交互模块

两组
Transformer
模块

堆叠的若干个残差模块

平均池化层

预训练阶段的线性变换层以及用于步骤6优化学习的
sigmoid
函数
。4.
根据权利要求2所述的基于监督对比学习的可解释
MHC

II
肽结合亲和力预测方法,其特征在于,所述
Transformer
模块为
:Transformer(X)

Concat(head1,

,head
h
)
式中,是投影权重矩阵;是投影权重矩阵;表示交互特征的相对位置编码;
d
w
表示特征长度;
i
表示第
i
个注意力头;
d
model

Transformer
的输入特征维数;
d
k
是投影变换后的输入特征维数;
X
表示
Transformer
模块的输入特征矩阵,
Concat()
为张量拼接函数;
Attention()
为注意力机制模块
。5.
根据权利要求2所述的基于监督对比学习的可解释
...

【专利技术属性】
技术研发人员:於东军申龙晨
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1