【技术实现步骤摘要】
用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质
[0001]本申请属于医学数据处理
,具体涉及一种用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质。
技术介绍
[0002]蛋白质的表征学习是生物信息领域一个非常重要的研究课题,它对于预测蛋白与蛋白的互作、蛋白与药物的互作、蛋白与基因的互作等都起到十分关键的作用。一个好的数据表征应该能多方位覆盖物体本身的信息,使下游任务的推理过程有更多可用的特征支撑。
[0003]在蛋白质的计算研究中,需要将蛋白质转化为计算机能够处理的数据,而原始数据在输入模型之前,需要进行特征的提取,这个过程称为表征学习,一个好的表征学习对于下游任务的性能提升具有重大帮助。对于蛋白质的表征学习可以分为单模态的表征和多模态的表征。
[0004]在单模态上,主要是分别针对序列和结构的特征进行学习。蛋白质的序列类似于文本序列,可以借鉴NLP领域的技术去建模。在过去,有研究利用CNN对蛋白质序列进行一维卷积,提取蛋白质的序列特征后做后续的任务;也有研究用到了在时序的数 ...
【技术保护点】
【技术特征摘要】
1.一种用于蛋白质表征学习的多模态信息融合方法,其特征在于,包括下述步骤:对开源蛋白质数据进行预处理;将所述蛋白质数据集划分成训练集、验证集和测试集;构建单模态特征提取器,所述单模态特征提取器作为蛋白质序列的特征提取器;构建多模态融合模块,所述多模态融合模块对所述单模态特征提取器的氨基酸token embedding进行更新,以使单模态带有多模型的信息,并作为所述单模态特征提取器的输入;基于所述多模态融合模块构建学习模型;所述训练集训练所述学习模型,所述验证集衡量所述学习模型的效果,并选出性能表现最好的参数作为所述学习模型的参数,利用所述测试集独立测试所述学习模型的泛化能力。2.根据权利要求1所述的用于蛋白质表征学习的多模态信息融合方法,其特征在于,在对开源蛋白质数据进行预处理的步骤中,具体包括下述步骤:从所述开源蛋白质数据集中提取蛋白质的序列数据,序列由20个英文字母组成,所述20个英文字母代表20种氨基酸,并将蛋白质的3D结构转化为邻接矩阵图。3.根据权利要求2所述的用于蛋白质表征学习的多模态信息融合方法,其特征在于,在构建单模态特征提取器的步骤中,具体包括:单模态特征提取器为经过预训练的Transformer模型。4.根据权利要求3所述的用于蛋白质表征学习的多模态信息融合方法,其特征在于,在构建多模态融合模块的步骤中,具体包括下述步骤:对序列特征矩阵和结构特征矩阵进行平均池化,每个氨基酸的特征向量得到一个代表值,公式如下,其中值,公式如下,其中值,公式如下,其中值,公式如下,其中分别表示输入多模态模块前的序列特征矩阵和结构特征矩阵,其中D
seq
表示序列上每个氨基酸的特征维度,D
struc
表示结构上每个氨基酸的特征维度,L
seq
和L
struc
分别表示在序列和结构的氨基酸长度,但是两者其实是相等的,即L
seq
=L
struc
=L;将序列和结构的池化向量拼接,再经过一个全连接网络转化为含有多模态信息的向量,公式如下:M
comp
=W[M
seq
,M
struc
]+b其中,令D
comp
=(L
seq
+L
struc
)/5;
将多模态信息压缩向量M
comp
重新分流到各个模态中去校准单模态信息,分流的过程是分别引入各自模态的全连接转化层,公式如下:T
seq
=W
seq
M
comp
+b
seq
,T
struc
=W
struc
M
comp
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。