【技术实现步骤摘要】
一种蛋白质稳定性预测方法及网络APP
[0001]本专利技术涉及生物信息
,尤其涉及一种基于图神经网络和贝叶斯神经网络的蛋白质稳定性预测方法及网络
APP。
技术介绍
[0002]研究蛋白质折叠的一个关键方法是测量其热力学性质
。
在突变状态下,折叠过程可能会受到干扰,导致吉布斯自由能的变化
(
ΔΔ
G)。
由于抗体药物通常需要很高的热稳定性,因此在制药工业中需要了解这种改变
。
此外,这一过程对于理解药物靶点基因组变异是如何对治疗药物产生耐药性至关重要
。
[0003]为了准确预测突变后蛋白质的稳定性变化,各种计算方法已被广泛应用
。
有基于各种物理化学假设的方法,这种方法具有较好的性能
。
另一个分支是利用机器学习进行快速预测,利用支持向量机
(SVM)、
梯度提升
、
人工神经网络
(ANN)
以及它们的结合等技术
。
[0004]然而,一些研究指出了基于机器学习的方法有显著缺点
。
他们预测不稳定突变多于稳定突变,而预测结果与实验结果之间看似高度的线性相关可能不会在稳定突变上表现出来
。
预测蛋白质稳定性变化的一个难题是,当有限的实验测试集可用时,如何进一步提高深度学习模型的表达能力
。
图神经网络
(GNN)
是从图数据中提取信息的有力工具
。r/>图卷积网络应用图傅里叶域上的谱卷积来聚集邻域表示,这样就可用于特征学习
。
在基于机器学习的预测中,过拟合是另一个需要考虑的关键问题
。
当只有有限的实验数据可用时,很有可能产生过拟合问题,并且即使是训练良好的模型,大多数并不能很好地推广到其他数据集上
。
因此,预测蛋白质稳定性变化要求模型足够灵活,以捕获数据的所有属性
。
技术实现思路
[0005]本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种蛋白质稳定性预测方法及网络
APP
,首先去除未突变点位的蛋白质结构信息,然后经过特征提取与传递,最后经过图神经网络与贝叶斯神经网络对特征信息进行提取与分析,能够实现蛋白质突变吉布斯自由能变化的准确预测,并且用户可以通过网页服务进行预测
。
[0006]为解决上述技术问题,本专利技术所采取的技术方案是:
[0007]一方面,本专利技术提供一种蛋白质稳定性预测方法,包括以下内容:
[0008]通过
python
脚本对蛋白质突变点位及其相邻一个点位的蛋白质结构信息进行批量提取,仅保留突变及其相邻点位的氨基酸残基信息;
[0009]将蛋白质元素类型信息提取,并进行蛋白质元素信息的编码与嵌入,并且将蛋白质元素信息输入到图神经网络与贝叶斯神经网络结合的图贝叶斯神经网络中;
[0010]将蛋白质中的原子作为图神经网络的节点,原子间的连接关系作为图神经网络的边,为蛋白质构造一个无向图,分别生成特征矩阵与邻接矩阵;
[0011]在图贝叶斯神经网络进行特征提取与分析后,将蛋白质的空间位置信息与经过图贝叶斯神经网络处理后的特征矩阵进行拼接,得到一个带有蛋白质位置信息的新蛋白质特
征矩阵输入到全连接层;
[0012]基于上一步得到的经过图贝叶斯神经网络处理后的特征矩阵
、
邻接矩阵和蛋白质位置信息矩阵,利用图贝叶斯神经网络与全连接神经网络,得到蛋白质稳定性的预测结果
。
[0013]进一步地,在图贝叶斯神经网络中对蛋白质元素类型信息提取得到的蛋白质特征包括:原子类型
、
相邻原子
、
相邻氢键
、
隐含价
、
芳香键以及每个原子的位置信息
。
[0014]进一步地,所述图神经网络的图卷积层采用基于残差连接的图卷积网络
。
[0015]进一步地,在图神经网络层和全连接层使用贝叶斯方法,得到一个包含多个模型分布的概率模型
。
[0016]进一步地,特征矩阵
、
邻接矩阵
、
蛋白质位置信息矩阵在图贝叶斯神经网络中进行消息传递时,即每一层图贝叶斯神经网络层对特征矩阵
、
邻接矩阵
、
蛋白质位置信息矩阵进行处理的过程中,使用变分推理,即用变分参数
θ
参数化的可处理分布
q
θ
(w)
来逼近后验,将
Kullback
‑
Leibler
分歧保持在最小:
[0017][0018]其中,
q
θ
(w)
表示变分参数
θ
参数化的可处理分布,
p(w|X,Y)
是模型的后验分布
。
[0019]进一步地,模型的后验分布
p(w|X,Y)
用高斯分布的乘积近似
。
[0020]另一方面,本专利技术还提供一种蛋白质稳定性预测网络
APP
,用于实现上述的方法,包括蛋白质信息修剪模块
、
数据读入模块
、
特征编码模块和预测模块;
[0021]蛋白质信息修剪模块,用于对蛋白质突变位置结构信息进行提取,去除对无关的蛋白质信息;
[0022]数据读入模块,用于读取蛋白质信息作为图神经网络的输入,包括特征矩阵
、
邻接矩阵
、
蛋白质位置信息矩阵;
[0023]特征编码模块,用于对数据读入模块的三种矩阵进行编码与嵌入,生成特征矩阵和邻接矩阵;
[0024]预测模块,用于利用图神经网络和贝叶斯网络得到蛋白质突变稳定性变化的预测结果并输出
。
[0025]进一步地,所述网络
APP
由服务器挂载并执行蛋白质突变吉布斯自由能变化预测任务
。
[0026]采用上述技术方案所产生的有益效果在于:本专利技术提供的蛋白质稳定性预测方法及网络
APP
,该方法模型搭建简单,训练时间成本低,预测结果准确,非常有利于推广和使用
。
本专利技术对蛋白质结构信息进行了提取与处理,极大的减少了模型的训练与预测时间,降低了蛋白质稳定性预测任务的时间成本与计算成本
。
本专利技术设计的图贝叶斯神经网络网络,能够有效的将蛋白质信息进行充分的提取,保证信息利用的全面性,同时能有效的降低过拟合对模型预测效果的影响
。
本专利技术设计的图贝叶斯神经网络,在预测蛋白质突变时,对整个预测任务的不确定性进行了预测,并且分析了模型的噪声和数据集本身的噪声对预测任务的影响
。
本专利技术设计的网络
APP
,能够快速准确的完本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种蛋白质稳定性预测方法,其特征在于:包括以下内容:通过
python
脚本对蛋白质突变点位及其相邻一个点位的蛋白质结构信息进行批量提取,仅保留突变及其相邻点位的氨基酸残基信息;将蛋白质元素类型信息提取,并进行蛋白质元素信息的编码与嵌入,并且将蛋白质元素信息输入到图神经网络与贝叶斯神经网络结合的图贝叶斯神经网络中;将蛋白质中的原子作为图神经网络的节点,原子间的连接关系作为图神经网络的边,为蛋白质构造一个无向图,分别生成特征矩阵与邻接矩阵;在图贝叶斯神经网络进行特征提取与分析后,将蛋白质的空间位置信息与经过图贝叶斯神经网络处理后的特征矩阵进行拼接,得到一个带有蛋白质位置信息的新蛋白质特征矩阵输入到全连接层;基于上一步得到的经过图贝叶斯神经网络处理后的特征矩阵
、
邻接矩阵和蛋白质位置信息矩阵,利用图贝叶斯神经网络与全连接神经网络,得到蛋白质稳定性的预测结果
。2.
根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:在所述图贝叶斯神经网络中对蛋白质元素类型信息提取得到的蛋白质特征包括:原子类型
、
相邻原子
、
相邻氢键
、
隐含价
、
芳香键以及每个原子的位置信息
。3.
根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:所述图神经网络的图卷积层采用基于残差连接的图卷积网络
。4.
根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:在图神经网络层和全连接层使用贝叶斯方法,得到一个包含多个模型分布的概率模型
。5.
根据权利要求1所述的蛋白质稳定性预测方法,其特征在于:所述特征矩阵
、
邻接矩阵
、
蛋白质位置信息矩阵在图贝叶斯神经网络中进行消息传...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。