当前位置: 首页 > 专利查询>云南大学专利>正文

一种多模态融合深度学习模型及多功能生物活性肽预测方法技术

技术编号:37365392 阅读:13 留言:0更新日期:2023-04-27 07:12
本发明专利技术公开了一种多模态融合深度学习模型及多功能生物活性肽预测方法,其特征在于,包括多模态数据输入模块、肽序列编码模块、肽结构编码模块和分类模块;所述多模态数据输入模块将生物活性肽的肽序列和肽结构进行输入;所述肽序列编码模块采用多尺度膨胀CNN和BiLSTM模型融合提取肽序列多个尺度的特征;所述肽结构编码模块采用多层次CNN模型提取肽结构数据的特性;所述分类模块将肽序列编码模块输出和肽结构编码模块输出串联作为最终特征用输出层的输入。将肽序列和结构特征两种多模态数据的有效融合,可以有效地提取不同视角的数据特性,从而更好的进行多功能生物活性肽功能预测。能预测。能预测。

【技术实现步骤摘要】
一种多模态融合深度学习模型及多功能生物活性肽预测方法


[0001]本专利技术涉及生物活性肽预测领域,具体涉及一种多模态融合深度学习模型及多功能生物活性肽预测方法。

技术介绍

[0002]生物活性肽是小的蛋白质片段,通常包含2

20个氨基酸残基,在代谢和生物过程中发挥着多种作用。在过去的几十年里,许多具有多种功能的生物活性肽被鉴定出来。准确鉴定生物活性肽的活性至少在两个方面具有重要意义:有助于促进对生物活性肽作用机制的认识;开发新的天然食品和药物以满足安全和健康需求。
[0003]在生物学研究中使用计算机编程极大地提高了生物信息学的重要性。在过去的几十年里,许多功能性肽被鉴定出来,使得机器学习算法预测不同的肽成为可能。最近一些预测模型专门用于仅从序列信息中预测肽功能,而无需经验证或使用任何先验知识作为输入。除此之外,各种基于理化特征的方法,主要包括氨基酸组成、伪氨基酸组成、归一化氨基酸组成、疏水性、净电荷、等电点、α

螺旋倾向、β

折叠倾向和转向倾向之前已被提议用于预测肽。结构数据可以有效建模肽的功能信息,肽序列作为单一数据的描述度是不够的,序列数据和结构数据多模态数据可以有效地提取不同视角的数据特性,从而更好进行肽预测,单一的模型难以完成对多模态数据特性的捕捉。

技术实现思路

[0004]本专利技术的目的在于:针对目前单一模型难以完成对多模态数据特性捕捉的问题,提供了一种多模态融合深度学习模型,在模型中引入结构性质,采用多尺度膨胀卷积与BiLSTM融合模型获取序列中生物活性肽的多种活性,采用多尺度CNN模块处理结构输入获取活性肽的特性,处理获得的多模态特性,进行信息融合,有效地考虑活性肽的序列与结构性质的互补性,实现从多模态特性捕捉生物活性肽特性。
[0005]本专利技术的技术方案如下:
[0006]一种多模态融合深度学习模型,包括多模态数据输入模块、肽序列编码模块、肽结构编码模块和分类模块;所述多模态数据输入模块将生物活性肽的肽序列和肽结构进行输入;所述肽序列编码模块采用多尺度膨胀CNN和BiLSTM模型融合提取肽序列多个尺度的特征;所述肽结构编码模块采用多层次CNN模型提取肽结构数据的特性;所述分类模块将肽序列编码模块输出和肽结构编码模块输出串联作为最终特征用输出层的输入。
[0007]进一步的,所述多尺度膨胀CNN包括:当应用于一维CNN时,可以计算为:
[0008][0009]其中y
i
表示卷积中第i个元素的输出,x
i
为第i个元素输入,ω是滤波器的权重,滤波器的长度为K;r是膨胀速率,膨胀卷积中r=1等于普通卷积,当膨胀速率r=2时,在相邻的卷积权重中插入一个零。
[0010]进一步的,所述LSTM模型包括以下步骤:
[0011]计算忘记状态:
[0012]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
),
[0013]v
t
=tanh(W
c
·
[h
t
‑1,x
t
]+b
v
),
[0014]计算输入状态:
[0015]i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
),
[0016]计算单元状态:
[0017]C
t
=f
t
·
C
t
‑1+i
t
·
v
t

[0018]计算当前时间的输出门和隐藏状态:
[0019]O
t
=σ(W
o
[h
t
‑1,x
t
]+b
o
),
[0020]h
t

t
·
tanh(C
t
),
[0021]计算正向与反向输出:
[0022][0023]其中W和b分别指训练矩阵的权重和偏差,σ表示取值在[0,1]范围内的非线性激活函数,h表示隐藏层单元,f
t
表示遗忘门单元,v
t
是单元状态单元,指更新门单元,即输入单元,C
t
表示单元状态,O
t
是同步门,同步来自前一个单元的信息,并将其输出;表示按元素求和,用于对正向和反向输出的元素求和。
[0024]进一步的,所述多模态数据输入模块在输入肽序列前,对肽序列进行预处理,使用特定特征

X

填充小于517个残基的肽,将肽的所有特征转化为整数。
[0025]进一步的,所述肽序列编码模块输入为氨基酸序列;所述肽结构编码模块输入为肽分子指纹。
[0026]进一步的,所述分类模块为完全连接层,具有五个具有sigmoid功能的神经元;每个神经元的输出代表属于相应类型的肽的概率。
[0027]本专利技术还包括一种活性肽预测方法,输入肽序列编码和肽结构编码,利用一种多模态融合深度学习模型,预测肽的功能。
[0028]与现有的技术相比本专利技术的有益效果是:
[0029]1、一种多模态融合深度学习模型及多功能生物活性肽预测方法,将肽序列和结构特征两种多模态数据的有效融合,可以有效地提取不同视角的数据特性,从而更好的进行肽功能预测;
[0030]2、一种多模态融合深度学习模型及多功能生物活性肽预测方法,为了有效的针对序列数据和结构数据的特性,分别设计不同的编码器进行特征提取;采用多尺度膨胀卷积CNN与BiLSTM模型提取序列数据的特性,采用多层次CNN模型提取结构数据的特性。
附图说明
[0031]图1为一种多模态融合深度学习模型及多功能生物活性肽预测方法的模型流程图。
具体实施方式
[0032]需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者
操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0033]下面结合实施例对本专利技术的特征和性能作进一步的详细描述。
[0034]请参阅图1,一种多模态融合深度学习模型,包括多模态数据输入模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态融合深度学习模型,其特征在于,包括多模态数据输入模块、肽序列编码模块、肽结构编码模块和分类模块;所述多模态数据输入模块将生物活性肽的肽序列和肽结构进行输入;所述肽序列编码模块采用多尺度膨胀CNN和BiLSTM模型融合提取肽序列多个尺度的特征;所述肽结构编码模块采用多尺度CNN模型提取肽结构数据的特性;所述分类模块将肽序列编码模块输出和肽机构编码模块输出串联作为最终特征用输出层的输入。2.根据权利要求1所述的一种多模态融合深度学习模型,其特征在于,所述多尺度膨胀CNN包括:当应用于一维CNN时,可以计算为:其中y
i
表示卷积中第i个元素的输出,x
i
为第i个元素输入,ω是滤波器的权重,滤波器的长度为K;r是膨胀速率,膨胀卷积中r=1等于普通卷积,当膨胀速率r=2时,在相邻的卷积权重中插入一个零。3.根据权利要求1所述的一种多模态融合深度学习模型,其特征在于,所述BiLSTM模型包括以下步骤:计算忘记状态:f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
),v
t
=tanh(W
c
·
[h
t
‑1,x
t
]+b
v
),计算输入状态:i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
),计算单元状态:C
t
=f
t
·
C
t
‑...

【专利技术属性】
技术研发人员:康雁张华栋杨学昆彭陆晗王鑫超袁艳聪谢文涛刘章琳普康
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1