一种基于深度学习的植物蛋白质互作网络构建方法技术

技术编号:21895802 阅读:19 留言:0更新日期:2019-08-17 16:03
本发明专利技术涉及一种基于深度学习的植物蛋白质互作网络构建方法,包括以下步骤:1)获取蛋白质互作对11个特征数据;2)筛选获得训练集及测试集;3)构建深度学习分类模型;4)对深度学习分类模型的参数进行批量优化,获得最佳优化参数组合的分类模型;5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测;6)根据互作关系预测结果构建蛋白质互作网络。与现有技术相比,本发明专利技术具有预测准确、建模效率高等优点。

A Method of Constructing Plant Protein Interaction Network Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的植物蛋白质互作网络构建方法
本专利技术涉及生物
的深度学习技术,尤其是涉及一种基于深度学习的植物蛋白质互作网络构建方法。
技术介绍
蛋白质相互作用在细胞的生物过程中必不可少,大部分基因在蛋白质水平通过与其它蛋白质的相互作用来行使其生物学功能。后基因组时代的到来为在全基因组范围预测蛋白质相互作用提供了丰富的数据信息,且随着高通量实验技术、生物信息学的发展,大大提高了复杂生物网络的研究进展。构建分类模型需要利用统计学、机器学习等方法从大量数据中提取有价值的信息,该过程包括了对数据的预处理、分类和异常检测等方面。随着生物数据的爆炸式增长,许多机器学习方法经过改进后可以适用于生物数据的分析,帮助我们从多个组学数据中提取有效信息。其中,深度学习是机器学习研究中的一个新领域,其动机在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,比如图像,声音和文本等。目前深度学习已成功应用于计算机视觉、语音识别、记忆网络、自然语言处理等其他领域。然而针对植物蛋白质互作网络构建的研究,大多使用如决策树、朴素贝叶斯、支持向量机及随机森林等传统机器学习手段进行建模,利用深度学习方法搭建蛋白质互作分类模型的研究少之又少,大大限制了提高预测精度的可能性。此外,深度学习模型参数量大,所需训练数据多,导致模型复杂,计算量极大,且易造成训练过拟合现象。因此,如何快速选择最优参数组合,在减少训练任务前提下大大提高模型预测精度成为将深度学习广泛应用于复杂生物网络构建的主要研究问题。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的植物蛋白质互作网络构建方法。本专利技术的目的可以通过以下技术方案来实现:一种基于深度学习的植物蛋白质互作网络构建方法,包括以下步骤:1)获取蛋白质互作对11个特征数据;2)筛选获得训练集及测试集;3)构建深度学习分类模型;4)对深度学习分类模型的参数进行批量优化,获得最佳优化参数组合的分类模型;5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测;6)根据互作关系预测结果构建蛋白质互作网络。所述的步骤1)中,特征数据包括4个结构特征信息和7个功能特征信息,所述的结构特征信息包括蛋白质同源模型与复合体模板之间的RMSD值、TMscore值、互作界面保守残基数目以及保守残基比例,所述的功能特征信息包括基因共表达、基因功能相似性、基因系统发生谱、蛋白质相互作用跨物种保守性以及基因融合信息,所述的基因功能相似性包括细胞组分、分子功能和生物过程。所述的步骤2)具体为:从多个蛋白质互作数据库中获取蛋白质阳性互作数据,将筛选出的严谨阳性数据集与不互作蛋白的阴性数据集以不同比例进行合并构成训练集,剩余阳性数据集与阴性数据集以不同比例合并构成测试集,其中,严谨阳性数据集的筛选标准为:蛋白质互作数据由低通量实验支持或至少经过两次不同的独立高通量实验证据支持。所述的步骤2)中,蛋白质互作数据库包括BioGRID、IntAct、DIP、MINT及BIND数据库。所述的步骤3)中,深度学习分类模型为采用Keras搭建的深度学习模型,其模型类型为序贯模型。所述的步骤4)中,对深度学习分类模型的参数进行批量优化具体为:在scikit-learn模型中采用网格搜索进行优化,需要调节的参数包括批尺寸、训练周期、优化算法、学习速率、动量因子、网络权值初始化、神经元激活函数、Dropout正则化及隐藏层中神经元数量。所述的步骤5)中,根据最佳优化参数组合的分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测的筛选阈值不小于0.5,该阈值根据频率累计MPQS分数获得。所述的步骤6)中,采用Cytoscape软件构建蛋白质相互作用网络。与现有技术相比,本专利技术具有以下优点:在现有技术的基础上,提出了利用深度学习手段预测蛋白质互作可能的方法,并采用批量优化参数的手段降低调参工作量,在提高建模效率的前提下增加了蛋白质互作关系的预测准确性,构建所得蛋白质互作网络对未知蛋白质功能的试验验证提供了可靠预测手段。附图说明图1为本专利技术的方法流程示意图。图2为深度学习模型搭建的流程示意图。图3为深度学习模型搭建中批量优化参数的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。实施例如图1所示,以拟南芥全基因组水平的蛋白质互作网络构建为例,本专利技术提供一种基于深度学习蛋白质互作网络构建方法,具体包括以下步骤:(1)同源建模、空间结构比对及结构特征计算从ModBase数据库中收集拟南芥蛋白质的同源结构模板并按照以下标准进行筛选:MPQS(ModPipe质量得分)>=0.5;或GA341>=0.5;或E-value<0.0001;或Z-DOPE<0。此外,从PDB和PISA两个数据库中收集同源或异源蛋白质复合体空间结构数据,利用PIBASE软件包计算得到蛋白质复合体各链间互作界面的结构及对应互作残基。随后采用MODELLER软件对拟南芥基因组所有编码基因进行蛋白质同源建模,并用TM-Align软件对蛋白质同源模型与复合体模板进行结构叠加。将TM值控制在0.4以下,最终可以获得超过8800万个同源模板-链对比。最终,对蛋白质结构同源模型和模板复合物进行结构比对,计算蛋白质同源模型与复合体模板之间的RMSD值、TMscore值、互作界面保守残基数目以及保守残基比例作为结构特征。(2)功能特征信息计算功能特征信息为基因共表达、基因功能相似性、基因系统发生谱、蛋白质相互作用跨物种保守性以及基因融合等信息,基因共表达特征值的具体计算方法为:从NCBI的SRA数据库中收集拟南芥的所有实验设计结果,利用fastq质控编码检测程序筛选质控文件字符编码形式为33位的数据,并建立拟南芥参考基因组的bowtie2索引文件并下载拟南芥基因坐标文件,随后针对单双末端采用不同的TopHat2与Htseq-count指令,将RNA-seq数据映射到拟南芥参考基因组上并计算基因表达量。利用坐标文件以及脚本文件算出每个位点基因片段长度,和所有基因组各个位点的RPKM值。最终通过比较计算两两基因表达丰度,计算其皮尔逊相关系数,以此代表表达谱之间的相似程度。基因同源映射特征值的具体计算方法为:从BioGRID、IntAct、DIP、MINT及BIND五个数据库中收集大肠杆菌、酵母、线虫、果蝇、小鼠以及人6个物种的蛋白质互作数据。下载拟南芥及以上六种模式生物的基因组编码蛋白序列,并根据InParanoid方法计算获得的与上述物种直系同源的拟南芥基因,最终计算代表拟南芥基因之间互作可能性大小的Interolog分值。基因系统发生谱特征值的具体计算方法为:从KEGG数据库中下载基因组完整且注释全的物种的蛋白质序列,对已完成测序的拟南芥基因组与所有编码蛋白质序列进行BLAST比对(E<10-10),如有匹配序列为1,反之为0,结果产生一个代表同源序列存在与否的n维向量的基因系统进化谱。基因融合特征值的具体计算方法为:将拟南芥2.7万个序列与Nr蛋白质数据库中所有物种的基因序列进行BLAST比对(E<10-10)。若两个互为非同源的拟南芥蛋白质与第三个其他物种蛋白质序列本文档来自技高网...

【技术保护点】
1.一种基于深度学习的植物蛋白质互作网络构建方法,其特征在于,包括以下步骤:1)获取蛋白质互作对11个特征数据;2)筛选获得训练集及测试集;3)构建深度学习分类模型;4)对深度学习分类模型的参数进行批量优化,获得最佳优化参数组合的分类模型;5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测;6)根据互作关系预测结果构建蛋白质互作网络。

【技术特征摘要】
1.一种基于深度学习的植物蛋白质互作网络构建方法,其特征在于,包括以下步骤:1)获取蛋白质互作对11个特征数据;2)筛选获得训练集及测试集;3)构建深度学习分类模型;4)对深度学习分类模型的参数进行批量优化,获得最佳优化参数组合的分类模型;5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测;6)根据互作关系预测结果构建蛋白质互作网络。2.根据权利要求1所述的一种基于深度学习的植物蛋白质互作网络构建方法,其特征在于,所述的步骤1)中,特征数据包括4个结构特征信息和7个功能特征信息,所述的结构特征信息包括蛋白质同源模型与复合体模板之间的RMSD值、TMscore值、互作界面保守残基数目以及保守残基比例,所述的功能特征信息包括基因共表达、基因功能相似性、基因系统发生谱、蛋白质相互作用跨物种保守性以及基因融合信息,所述的基因功能相似性包括细胞组分、分子功能和生物过程。3.根据权利要求1所述的一种基于深度学习的植物蛋白质互作网络构建方法,其特征在于,所述的步骤2)具体为:从多个蛋白质互作数据库中获取蛋白质阳性互作数据,将筛选出的严谨阳性数据集与不互作蛋白的阴性数据集以不同比例进行合并构成训练集,剩余阳性数据集与阴性数据集以不同比例合并构成测试集,其中,严谨阳性数据集的筛选标准为:蛋...

【专利技术属性】
技术研发人员:赵佳薇张利达雷雨郑存俭洪剑伟
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1