基于深度森林的蛋白质-蛋白质相互作用预测方法技术

技术编号:24332766 阅读:32 留言:0更新日期:2020-05-29 20:31
本发明专利技术公开了基于深度森林的蛋白质‑蛋白质相互作用预测方法,属于生物信息技术领域。所述方法融合伪氨基酸组成、自相关描述符、互信息描述符、组成、分布和转化描述符、氨基酸组成位置特异性得分矩阵和二肽组成位置特异性得分矩阵将蛋白质序列转化为数值向量,融合蛋白质对的序列信息、物理化学性质信息和进化信息作为样本的初始特征;使用弹性网进行特征选择,剔除冗余和不相关的特征;将融合后的最优特征向量输入到构建的多粒度级联深度森林中,预测蛋白质‑蛋白质相互作用。本发明专利技术简单有效,深度森林能够表征蛋白质对的高水平特征信息,在训练集和测试集上的结果明显优于其它预测方法,可以为药物靶点预测和人类疾病治疗提供一定借鉴。

Prediction method of protein protein interaction based on deep forest

【技术实现步骤摘要】
基于深度森林的蛋白质-蛋白质相互作用预测方法
本专利技术属于生物信息
,涉及基于深度森林的蛋白质-蛋白质相互作用预测方法。
技术介绍
蛋白质-蛋白质相互作用(Protein-proteininteractions,下文简称PPIs)在细胞结构和功能中发挥着重要的作用,网络结构的混乱会造成细胞生命活动的异常,深入研究PPIs对理解细胞生命活动,阐述细胞功能和人类疾病防治等方面具有重要意义。随着后基因组时代的到来和高通量测序技术的发展,产生了大量实验鉴定的PPIs。考虑到实验方法鉴定和识别PPIs耗费资源且周期较长,如何利用基于机器学习的预测蛋白质-蛋白质相互作用显得尤为重要。基于生物信息学方法预测蛋白质-蛋白质相互作用不仅能够鉴定未知的PPIs,还能对实验方法提供一定辅助作用。目前,已经有许多科研工作者来研究和预测蛋白质相互作用。Guo等人使用自协方差描述符编码蛋白质序列,利用七种物理化学性质信息,最后输入到支持向量机中进行预测,取得了88.09%的预测精度,自协方差描述符利用物理化学性质信息预测PPIs。Zahiri等人提出一种新的称为PPIevo的蛋白质相互作用预测方法,可以从位置特异性得分矩阵(下文简称PSSM)中提取进化信息,在HPRD数据集表现出比较好的鲁棒性。Hamp等人从位置特异性得分矩阵中获取进化信息,基于核支持向量机预测PPIs,通过基因表达谱数据过滤后可以提高预测精度,该方法可以提高未经过实验注释的蛋白质预测准确率。Sun等人利用自协方差描述符和三联体组合信息编码方式提取序列信息,利用深层堆叠网络预测蛋白质-蛋白质相互作用。Goktepe等人融合Bi-PSSM,加权间隔三联体组合编码和伪氨基酸组成将蛋白质字符信号转化为数值信号,利用主成分分析去除冗余信息和噪声,最后基于支持向量机预测蛋白质-蛋白质相互作用,利用H.Pylori、HumanDataset和HPRDDataset评估预测模型的有效性。然而,上述方法中预测精度低,且表征PPIs的重要特征信息不能完全阐明,无法深入挖掘生物学意义。同时,研究者往往使用单一分类器进行预测,比如支持向量机,K近邻和随机森林等,使得构建的模型不能有效预测PPIs且推广能力较差。随着深度学习在图像识别和语音识别领域的快速发展,深度学习已经成功应用在生物信息学方面。Du等人提出基于深度神经网络的蛋白质-蛋白质相互作用预测方法DeepPPI,通过氨基酸组成,二肽组成,组成、转化和分布,两性分子伪氨基酸组成提取蛋白质序列特征信息,利用深度学习的逐层学习能力从序列描述符中学习蛋白质序列的深层本质特征,实验结果表明深度神经网络在测试集上取得了优良的预测性能,能够学习表征PPIs的抽象特征。Hashemifar等人提出基于序列的深度学习预测方法DPPI,通过卷积神经网络和随机投影矩阵来预测PPIs,充分挖掘潜藏在蛋白质-蛋白质相互作用对中的进化信息。但是深度学习也有其不足之处,第一,在训练深度学习模型之前,神经网络的层数、节点数均需要提前指定,这就需要耗费大量精力调整参数。第二,针对不同的数据,所设置的参数也是十分不同的。第三,深度学习需要大量数据进行训练。而基于树的深度学习(深度森林)可利用森林的级联学习能力作为特征输入,从普通的特征描述符中抽取高水平的特征信息进行预测,以上一层的概率输出得分作为下一级森林的输入,可以处理分类和回归等机器学习问题。深度森林还能够自适应的调整模型复杂度,具有良好的跨任务表现和灵活的超参数调整。因此,如何利用深度森林解决生物信息学中的实际问题,尤其在蛋白质-蛋白质相互作用领域,是亟待解决的一个问题。
技术实现思路
本专利技术的目的提供一种蛋白质-蛋白质相互作用的预测方法,该方法基于深度森林对蛋白质-蛋白质相互作用和非蛋白质-蛋白质相互作用进行分类,取得了较好的预测性能。为解决上述的技术问题,本专利技术采用以下技术方案:一种基于深度森林的蛋白质-蛋白质相互作用预测方法,其特征在于包括如下步骤:1)收集数据从数据库中获取训练集、独立测试集和网络数据集。2)特征提取通过伪氨基酸组成,自相关描述符,互信息描述符,组成、转化和分布描述符,氨基酸组成位置特异性得分矩阵和二肽组成位置特异性得分矩阵将蛋白质序列转化为数值向量,融合蛋白质对的序列信息、物理化学性质信息和进化信息作为样本的初始特征信息。3)特征选择利用弹性网剔除冗余和不相关的特征,保留重要的有效特征,降低模型复杂度并提高预测精度。4)模型构建集成XGBoost、随机森林和极端随机树构建级联深度森林,将融合后的最优特征向量输入到深度森林中,预测蛋白质-蛋白质相互作用和非蛋白质-蛋白质相互作用。通过五折交叉验证在S.cerevisiae(酵母)和H.pylori(幽门螺杆菌)数据集上训练模型并进行参数优化,得到预测模型GcForest-PPI。5)蛋白质-蛋白质相互作用的预测利用训练好的预测模型GcForest-PPI对C.elegans(线虫)、E.coli(大肠杆菌)、H.sapiens(人)和M.musculus(小鼠)四个独立测试集以及one-core网络和Wnt-related信号通路网络和cancer-specific网络数据集进行预测,并绘制蛋白质相互作用网络图。更进一步的技术方案是所述步骤1)包括如下子步骤:1-1)选择酵母和幽门螺杆菌的蛋白质相互作用数据集作为训练集,将经过实验验证的和从数据库中获取的蛋白质-蛋白质相互作用对作为正样本,将未发生相互作用的蛋白质对作为负样本;1-2)对于酵母数据集,首先除去样本中残基个数少于50的样本,其次使用多重序列比对工具CD-HIT程序剔除序列相似性高于40%的蛋白质序列,得到5594个蛋白质相互作用对作为正样本数据,选择具有不同亚细胞位置信息5594个蛋白质对作为负样本;1-3)幽门螺杆菌的蛋白质相互作用数据集包含2916个蛋白质对;1-4)线虫的蛋白质相互作用的数据集包含4013个蛋白质对,大肠杆菌的蛋白质相互作用的数据集包含6954个蛋白质对,人的蛋白质相互作用的数据集包含1412个蛋白质对,小鼠的蛋白质相互作用的数据集包含313个蛋白质对;1-5)选取one-core网络和Wnt-related信号通路网络和cancer-specific网络作为网络数据集。更进一步的技术方案是所述步骤2)特征提取具体方法如下:2-1)伪氨基酸组成(PseAAC)伪氨基酸组成模型的特征向量可以表示为:X=[x1,x2,…,x19,x20,x20+1,x20+λ]T(λ<L)其中,前20维特征向量表示蛋白质序列的氨基酸组成信息,后λ维表示蛋白质序列的位置信息,L为氨基酸序列长度;其中fi为是蛋白质X中20种氨基酸的归一化出现频率,θj是根据等式计算的j层序列相关因子,ω为权重因子;λ设定值为11,每条蛋白质序列生成20+λ维的特征向量,即31维的特征向量。2本文档来自技高网
...

【技术保护点】
1.基于深度森林的蛋白质-蛋白质相互作用预测方法,其特征在于包括如下步骤:/n1)收集数据/n从数据库中获取训练集、独立测试集和网络数据集;/n2)特征提取/n通过伪氨基酸组成,自相关描述符,互信息描述符,组成、转化和分布描述符,氨基酸组成位置特异性得分矩阵和二肽组成位置特异性得分矩阵将蛋白质序列转化为数值向量,融合蛋白质对的序列信息、物理化学性质信息和进化信息作为样本的初始特征信息;/n3)特征选择/n利用弹性网剔除冗余和不相关的特征,保留重要的有效特征,降低模型复杂度并提高预测精度;/n4)模型构建/n集成XGBoost、随机森林和极端随机树构建多粒度级联深度森林,将融合后的最优特征向量输入到深度森林中,预测蛋白质-蛋白质相互作用和非蛋白质-蛋白质相互作用;通过五折交叉验证在酵母和幽门螺杆菌数据集上训练模型并进行参数优化,得到预测模型;/n5)蛋白质-蛋白质相互作用的预测/n利用预测模型对线虫、大肠杆菌、人和小鼠四个独立测试集以及one-core网络和Wnt-related信号通路网络和cancer-specific网络数据集进行预测,同时绘制蛋白质-蛋白质相互作用网络。/n

【技术特征摘要】
1.基于深度森林的蛋白质-蛋白质相互作用预测方法,其特征在于包括如下步骤:
1)收集数据
从数据库中获取训练集、独立测试集和网络数据集;
2)特征提取
通过伪氨基酸组成,自相关描述符,互信息描述符,组成、转化和分布描述符,氨基酸组成位置特异性得分矩阵和二肽组成位置特异性得分矩阵将蛋白质序列转化为数值向量,融合蛋白质对的序列信息、物理化学性质信息和进化信息作为样本的初始特征信息;
3)特征选择
利用弹性网剔除冗余和不相关的特征,保留重要的有效特征,降低模型复杂度并提高预测精度;
4)模型构建
集成XGBoost、随机森林和极端随机树构建多粒度级联深度森林,将融合后的最优特征向量输入到深度森林中,预测蛋白质-蛋白质相互作用和非蛋白质-蛋白质相互作用;通过五折交叉验证在酵母和幽门螺杆菌数据集上训练模型并进行参数优化,得到预测模型;
5)蛋白质-蛋白质相互作用的预测
利用预测模型对线虫、大肠杆菌、人和小鼠四个独立测试集以及one-core网络和Wnt-related信号通路网络和cancer-specific网络数据集进行预测,同时绘制蛋白质-蛋白质相互作用网络。


2.根据权利要求1所述的基于深度森林的蛋白质-蛋白质相互作用预测方法,其特征在于:所述步骤1)包括如下子步骤:
1-1)选择酵母和幽门螺杆菌的蛋白质相互作用数据集作为训练集,将经过实验验证的和从数据库中获取的蛋白质-蛋白质相互作用对作为正样本,将未发生相互作用的蛋白质对作为负样本;
1-2)对于酵母数据集,首先除去样本中残基个数少于50的样本,其次使用多重序列比对工具CD-HIT程序剔除序列相似性高于40%的蛋白质序列,得到5594个蛋白质相互作用对作为正样本数据,选择具有不同亚细胞位置信息5594个蛋白质对作为负样本;
1-3)幽门螺杆菌的蛋白质相互作用数据集包含2916个蛋白质对;
1-4)线虫的蛋白质相互作用的数据集包含4013个蛋白质对,大肠杆菌的蛋白质相互作用的数据集包含6954个蛋白质对,人的蛋白质相互作用的数据集包含1412个蛋白质对,小鼠的蛋白质相互作用的数据集包含313个蛋白质对;
1-5)选取one-core网络和Wnt-related信号通路网络和cancer-specific网络作为网络数据集。


3.根据权利要求1所述的基于深度森林的蛋白质-蛋白质相互作用预测方法,其特征在于:所述步骤2)特征提取具体方法如下:
2-1)伪氨基酸组成
伪氨基酸组成模型的特征向量可以表示为:
X=[x1,x2,…,x19,x20,x20+1,x20+λ]T(λ<L)
其中,前20维特征向量表示蛋白质序列的氨基酸组成信息,后λ维表示蛋白质序列的位置信息,L为氨基酸序列长度;



其中fi为是蛋白质X中20种氨基酸的归一化出现频率,θj是根据等式计算的j层序列相关因子,ω为权重因子,设定为0.05;λ设定值为11,每条蛋白质序列生成20+λ维的特征向量,即31维的特征向量;
2-2)自相关描述符
自相关描述符包括Morean-Broto自相关描述符、Moran自相关描述符和Geary自相关描述符;
(i)Moreau-Broto自相关描述符为:



其中AAi和AAi+l分别表示蛋白质序列的第i和第i+l的氨基酸,P(AAi)和P(AAi+l)分别表示AAi和AAi+l的第i和i+l的标准化的物理化学数值,lag设定值为11;
(ii)Moran自相关描述符为:



其中表示整个蛋白质序列的物理化学性质数值的平均值;
(iii)Geary自相关描述符为:



每条蛋白质序列生成3×7×lag维即231维的特征向量;
2-3)互信息描述符
通过互信息描述符提取蛋白质序列的特征信息,利用信息熵的理论计算蛋白质序列中单元的量;将蛋白质的字符信号按下面公式转化为数值信号...

【专利技术属性】
技术研发人员:于彬陈成张青梅王磊张岩
申请(专利权)人:青岛科技大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1