一种基于深度学习的植物蛋白质互作网络构建方法技术

技术编号：21895802 阅读：19 留言：0更新日期：2019-08-17 16:03

本发明专利技术涉及一种基于深度学习的植物蛋白质互作网络构建方法，包括以下步骤：1)获取蛋白质互作对11个特征数据；2)筛选获得训练集及测试集；3)构建深度学习分类模型；4)对深度学习分类模型的参数进行批量优化，获得最佳优化参数组合的分类模型；5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测；6)根据互作关系预测结果构建蛋白质互作网络。与现有技术相比，本发明专利技术具有预测准确、建模效率高等优点。

A Method of Constructing Plant Protein Interaction Network Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的植物蛋白质互作网络构建方法
本专利技术涉及生物
的深度学习技术，尤其是涉及一种基于深度学习的植物蛋白质互作网络构建方法。
技术介绍
蛋白质相互作用在细胞的生物过程中必不可少，大部分基因在蛋白质水平通过与其它蛋白质的相互作用来行使其生物学功能。后基因组时代的到来为在全基因组范围预测蛋白质相互作用提供了丰富的数据信息，且随着高通量实验技术、生物信息学的发展，大大提高了复杂生物网络的研究进展。构建分类模型需要利用统计学、机器学习等方法从大量数据中提取有价值的信息，该过程包括了对数据的预处理、分类和异常检测等方面。随着生物数据的爆炸式增长，许多机器学习方法经过改进后可以适用于生物数据的分析，帮助我们从多个组学数据中提取有效信息。其中，深度学习是机器学习研究中的一个新领域，其动机在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，比如图像，声音和文本等。目前深度学习已成功应用于计算机视觉、语音识别、记忆网络、自然语言处理等其他领域。然而针对植物蛋白质互作网络构建的研究，大多使用如决策树、朴素贝叶斯、支持向量机及随机森林等传统机器学习手段进行建模，利用深度学习方法搭建蛋白质互作分类模型的研究少之又少，大大限制了提高预测精度的可能性。此外，深度学习模型参数量大，所需训练数据多，导致模型复杂，计算量极大，且易造成训练过拟合现象。因此，如何快速选择最优参数组合，在减少训练任务前提下大大提高模型预测精度成为将深度学习广泛应用于复杂生物网络构建的主要研究问题。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度...

【技术保护点】
1.一种基于深度学习的植物蛋白质互作网络构建方法，其特征在于，包括以下步骤：1)获取蛋白质互作对11个特征数据；2)筛选获得训练集及测试集；3)构建深度学习分类模型；4)对深度学习分类模型的参数进行批量优化，获得最佳优化参数组合的分类模型；5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测；6)根据互作关系预测结果构建蛋白质互作网络。

【技术特征摘要】
1.一种基于深度学习的植物蛋白质互作网络构建方法，其特征在于，包括以下步骤：1)获取蛋白质互作对11个特征数据；2)筛选获得训练集及测试集；3)构建深度学习分类模型；4)对深度学习分类模型的参数进行批量优化，获得最佳优化参数组合的分类模型；5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测；6)根据互作关系预测结果构建蛋白质互作网络。2.根据权利要求1所述的一种基于深度学习的植物蛋白质互作网络构建方法，其特征在于，所述的步骤1)中，特征数据包括4个结构特征信息和7个功能特征信息，所述的结构特征信息包括蛋白质同源模型与复合体模板之间的RMSD值、TMscore值、互作界面保守残基数目以及保守残基比例，所述的功能特征信息包括基因共表达、基因功能相似性、基因系统发生谱、蛋白质相互作用跨物种保守性以及基因融合信息，所述的基因功能相似性包括细胞组分、分子功能和生物过程。3.根据权利要求1所述的一种基于深度学习的植物蛋白质互作网络构建方法，其特征在于，所述的步骤2)具体为：从多个蛋白质互作数据库中获取蛋白质阳性互作数据，将筛选出的严谨阳性数据集与不互作蛋白的阴性数据集以不同比例进行合并构成训练集，剩余阳性数据集与阴性数据集以不同比例合并构成测试集，其中，严谨阳性数据集的筛选标准为：蛋...

【专利技术属性】
技术研发人员：赵佳薇，张利达，雷雨，郑存俭，洪剑伟，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人