当前位置: 首页 > 专利查询>南开大学专利>正文

一种固有无序蛋白质预测方法技术

技术编号:33915661 阅读:25 留言:0更新日期:2022-06-25 20:12
一种固有无序蛋白质预测方法,属于生物信息学领域,用于识别固有无序蛋白质区域的深度神经网络结构,该方法使用三个序列特征以及其他已有的蛋白质序列特征作为特征矩阵,利用VGG199变体和两个MLP网络构建深度神经网络实现了较准确的固有无序蛋白质的预测,该结构中VGG19变体位于两个MLP网络之间。三个新颖的序列特征即持久熵、连续两个氨基酸的相关概率特征和连续三个氨基酸的相关概率特征第一次被用于识别固有无序蛋白质区域。该方法利用VGG199变体和两个MLP网络构建深度神经网络MLP

【技术实现步骤摘要】
一种固有无序蛋白质预测方法


[0001]本专利技术属于生物信息学领域,涉及一种使用新颖特征的固有无序蛋白质预测方案。

技术介绍

[0002]蛋白质中没有稳定三维结构的区域被称为蛋白质的无序区域,包含至少一段无序区域的蛋白质被称为固有无序蛋白质。由于灵活的结构使得其广泛参与了重要的生理过程,如核酸折叠、DNA转录和翻译、分子识别和分子组装以及蛋白质之间的相互作用等。另外很多人类的疾病,如癌症、阿兹海默症和一些遗传疾病等都与其相关。因此快速且准确的预测固有无序蛋白质对蛋白质功能的理解、药物研发以及一些疾病的治疗等方面有着重要的意义。在过去,有很多实验方法用来测定蛋白质的无序区域,但是实验方法往往成本高且耗时长,不能进行大规模的测定。因此通过计算方法对固有无序蛋白质进行预测是一个简单高效的方法。

技术实现思路

[0003]本专利技术的目的是克服现有技术存在的上述不足,设计一种固有无序蛋白质预测方法,该方法使用三个新颖的序列特征即持久熵、连续两个氨基酸的相关概率特征和连续三个氨基酸的相关概率特征以及其他已有的蛋白质序列特征作为特征矩阵,利用VGG199变体和两个MLP网络构建深度神经网络实现了较准确的固有无序蛋白质的预测。
[0004]本专利技术提供的固有无序蛋白质预测方法的具体步骤如下:
[0005]第1、针对学习样本,令w表示其中一条长度为L蛋白质序列,用长度为N的滑动窗口截取相应长度的连续氨基酸片段β
j
=w
j

w
j+(N
>‑
1)
进行计算;
[0006]第2、首先计算持久熵,公式如下:
[0007][0008]其中
[0009][0010]其中δ(
·
)是冲激函数,用一一对应的顺序表示氨基酸符号集为:
[0011][0012]则持久熵为:
[0013][0014]其中表示与条形码图(假定对于所有的1≤i≤n)相关的滤流,它的k维条形码[ε
s

e
)表示滤流在时刻ε
s
出现在时刻ε
e
结束。
[0015]第3、计算连续两个和三个氨基酸的相关概率特征,公式如下:
[0016]定义两个集合:
[0017][0018][0019]表示在蛋白质序列中连续两个和三个氨基酸的所有的可能性。则两个新的特征为:
[0020]H2=[H2(1),

,H2(L)]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0021]H3=[H3(1),...,H3(L)]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0022]其中
[0023][0024][0025]式中函数I2(j)和I3(j)的定义为:
[0026][0027][0028]其中w
j
和分别表示w
j
w
j+1
(1≤j≤L

1)和w
j
w
j+1
w
j+2
(1≤j≤L

2);
[0029][0030][0031]其中,和
[0032][0033][0034]上式中
[0035][0036][0037]其中,
[0038][0039][0040]其中w
j
和分别表示w
j
w
j+1
(1≤j≤L

1)和w
j
w
j+1
w
j+2
(1≤j≤L

2)。
[0041]第4、针对一条长度为L的蛋白质序列w,计算该序列的20种进化信息、7种物理化学性质、3种倾向性以及香浓熵和拓扑熵。联合上述三个新颖的特征序列得到最终的特征矩阵。
[0042]第5、利用十折交叉验证训练深度神经网络,得到最终的网络参数。
[0043]第6、对于待预测的蛋白质序列,按照步骤第1至第4步计算各个残基的特征矢量,利用第5步得到的神经网络参数进行氨基酸的判定。
[0044]本专利技术的优点和积极效果:
[0045]该方案利用三个新颖的序列特征即持久熵、连续两个氨基酸的相关概率特征和连续三个氨基酸的相关概率特征以及其他已有的蛋白质序列特征作为特征矩阵。三个新颖的序列特征是第一次被提出用于固有无序蛋白质的预测;其次,该方法利用VGG199变体和两个MLP网络构建深度神经网络MLP

VGG19

MLP实现了较准确的固有无序蛋白质的预测。
附图说明
[0046]图1是:实现本专利技术预测固有无序蛋白质方法的流程图。
具体实施方式
[0047]参见附图1,本专利技术使用三个新颖的序列特征即持久熵、连续两个氨基酸的相关概
率特征和连续三个氨基酸的相关概率特征以及其他已有的蛋白质序列特征作为特征矩阵,利用VGG199变体和两个MLP网络构建深度神经网络实现了较准确的固有无序蛋白质的预测;
[0048]其中包括针对学习样本蛋白质序列,用长度为N的滑动窗口截取相应长度的连续氨基酸片段的步骤;
[0049]包括针对每个滑动窗口计算持久熵、连续两个氨基酸的相关概率特征、连续三个氨基酸的相关概率特征以及其他已有的蛋白质序列特征作为特征矩阵的步骤;
[0050]将训练样本特征矢量输入到深度神经网络MLP

VGG19

MLP中进行训练,得到最终网络模型的步骤;
[0051]将测试样本特征输入到训练好的深度神经网络MLP

VGG19

MLP中,对每个氨基酸给予判定的步骤。
[0052]下面结合实施例对本专利技术实现方式做进一步说明。
[0053]实施例1:
[0054]本专利技术提供的固有无序蛋白质的预测方法具体步骤如下:
[0055]针对一条未判定无序区域的蛋白质序列w(以R80数据集中一条标号为1lon的蛋白
[0056]质序列为例),利用本专利技术提供的固有无序蛋白质预测方案进行预测的具体步骤如下:
[0057]步骤一:该序列长度为457,用N=33的滑动窗口对序列进行截取。针对每个窗口区间计算三十五种特征的值。
[0058]序列w=GTRASNDRPPGTGGVKRGRLQQEAAATGSRVTV
[0059]针对第一个长度为N的滑动窗口,通过公式(4)(7)(8)计算持久熵、连续两个氨基酸的相关概率特征和连续三个氨基酸的相关概率特征值,同时计算20种进化信息、7种物理化学性质、3种倾向性以及香浓熵和拓扑熵特征值共获得35种特征值,之后滑动窗口计算对应的特征值得到最终的特征矩阵。
[0060]计算得到的蛋白本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种固有无序蛋白质预测方法,其特征是:该方法使用三个序列特征即持久熵、连续两个氨基酸的相关概率特征和连续三个氨基酸的相关概率特征以及其他已有的蛋白质序列特征作为特征矩阵,利用VGG199变体和两个MLP网络构建深度神经网络实现了较准确的固有无序蛋白质的预测;其中包括针对学习样本蛋白质序列,用长度为N的滑动窗口截取相应长度的连续氨基酸片段的步骤;包括针对每个滑动窗口计算持久熵、连续两个氨基酸的相关概率特征、连续三个氨基酸的相关概率特征以及其他已有的蛋白质序列特征作为特征矩阵的步骤;包括将训练样本特征矢量输入到深度神经网络MLP

VGG19

MLP中进行训练,得到最终网络模型的步骤;包括将测试样本特征输入到训练好的深度神经网络MLP

VGG19

MLP中,对每个氨基酸给予判定的步骤。2.根据权利要求1所述的固有无序蛋白质预测方法,其特征是:具体过程如下:第1、针对学习样本,令w表示其中一条长度为L蛋白质序列,用长度为N的滑动窗口截取相应长度的连续氨基酸片段β
j
=w
j

w
j+(N

1)
进行计算;第2、首先计算持久熵,公式如下:其中其中δ(
·
)是冲激函数,用一一对应的顺序表示氨基酸符号集为:则持久熵为:第3、计算连续两个和三个氨基酸的相关概率特征,公式如下:定义两个集合:定义两个集合:表示在蛋白质序列中连续两个和三个氨基酸的所有的可能性,则两个新的特征为:
H...

【专利技术属性】
技术研发人员:赵加祥王增科
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1