一种基于深度神经网络的蛋白质接触图预测方法技术

技术编号:25227358 阅读:40 留言:0更新日期:2020-08-11 23:15
本发明专利技术公开了一种基于深度神经网络的蛋白质接触图预测方法,包括,采集并构造测试数据集;构建预测网络模型;获取训练数据集并对预测网络进行训练;将测试数据集输入训练后的预测网络中进行预测;获取蛋白质接触图预测结果。本发明专利技术的有益效果:本发明专利技术提出的基于深度神经网络的蛋白质接触图预测方法,能够弥补传统深度学习方法中交叉熵损失函数与蛋白质接触图预测之间的不和谐,得到的预测网络模型能够对蛋白质接触图进行更加准确的预测,具有很好的实用性。

【技术实现步骤摘要】
一种基于深度神经网络的蛋白质接触图预测方法
本专利技术涉及蛋白质图谱预测的
,尤其涉及一种基于深度神经网络的蛋白质接触图预测方法。
技术介绍
蛋白质作为一种大分子化合物,是生命体的重要组成部分,并且参与了多种多样的生命活动。对蛋白质的研究兼具巨大的理论及现实意义。蛋白质的种类数量巨大,具有的功能各不相同,而决定蛋白质功能的蛋白质结构不仅有氨基酸脱水缩合后组成肽链,一条或多条肽链折叠后成为各种蛋白质独特的空间结构,还包括蛋白质序列,即20种常见氨基酸的排列组合。序列与结构之间的数量缺口使得学界开始尝试使用计算方法预测蛋白质结构。目前通过序列预测蛋白质结构的方法大致分为三类:同源建模法、折叠识别法和基于第一性原理的方法,然而蛋白质结构的复杂导致对其的预测十分困难,以上这些方法单独使用或存在各种各样的缺陷,难以取得令人满意的结果。蛋白质接触图预测算法可以分为基于协同进化的统计学方法、基于传统机器学习的方法、基于深度学习的方法。目前,基于深度学习的方法得到的预测精度更好。但蛋白质残基接触预测的主要目的是辅助三级结构预测。接触预测结果对结构预测帮助的大小不仅仅取决于预测精度,还受到预测残基接触位置的影响。实际上,一个长距离的接触相对一个短距离能够给一个初步预测蛋白质结构带来更多的约束,也就对结构预测精度影响更大。此外,离散的接触预测结果比集中的预测结果更有效也是同理。所以对于预测结果好坏的衡量指标应该是多方面的,即包括精度与离散度。作为一个分类问题,蛋白质接触预测任务存在一定特殊性:一、定义蛋白质接触阈值不具备生物学意义上的特殊性。蛋白质结构测定的残原子位置不完全准确。二、蛋白质接触预测的主要作用是用来辅助接触图预测,在其他分类问题上使用的平均准确率、精确率、AUC等并不适合用来衡量预测结果的优劣。三、正负样本不平衡。这些特殊性使得常用的机器学习模型在该问题上可能存在一些改进空间。然而学界其他预测器并没有针对其做出改进。
技术实现思路
本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。鉴于上述现有存在的问题,提出了本专利技术。因此,本专利技术解决的技术问题是:提出一种基于深度神经网络的蛋白质接触图预测方法,能够在蛋白质接触图预测方面得到更高的预测精度。为解决上述技术问题,本专利技术提供如下技术方案:一种基于深度神经网络的蛋白质接触图预测方法,包括,采集并构造测试数据集;构建预测网络模型;获取训练数据集并对预测网络进行训练;将测试数据集输入训练后的预测网络中进行预测;获取蛋白质接触图预测结果。作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述采集数据还包括对蛋白质进行测序,得到蛋白质序列。所作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述预测网络模型包括卷积层、残差块和激活函数,且预测网络模型中的卷积层包括3×3的卷积核。所作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述残差块还包括卷积层、归一化层和激活函数,且卷积层为96个3×3的卷积核。所作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述预测网络模型的激活函数包括Sigmoid函数和ELU函数,Sigmoid函数计算公式为,所作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述残差块的激活函数包括ELU函数,其计算公式为,所作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述训练数据集包括蛋白家族数据库Pfam中的蛋白质、CASP11测试蛋白质、CAMEO困难目标和跨膜蛋白。所作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述训练预测网络还包括,初始化预测网络模型和训练数据集;将训练数据集分批输入至预测网络模型中;计算损失函数的值并优化网络;重复训练直至达到预测精度不再增加,输出训练后的预测网络模型。所作为本专利技术所述的基于深度神经网络的蛋白质接触图预测方法的一种优选方案,其中:所述训练中的损失函数为焦点损失函数,其计算公式为,其中,Jfocalloss的值越小,代表训练中过程中预测网络的预测结果精度越高。本专利技术的有益效果:本专利技术提出的基于深度神经网络的蛋白质接触图预测方法,能够弥补传统深度学习方法中交叉熵损失函数与蛋白质接触图预测之间的不和谐,得到的预测网络模型能够对蛋白质接触图进行更加准确的预测,具有很好的实用性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:图1为本专利技术所述基于深度神经网络的蛋白质接触图预测方法的整体流程示意图;图2为本专利技术所述基于深度神经网络的蛋白质接触图预测方法中预测网络的结构示意图;图3为本专利技术中作为测试数据输入预测网络中的蛋白质序列的结构示意图;图4为本专利技术中输入一种PDB目标进行预测后预测网络输出的蛋白质接触图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明,显然所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。其次,此处所称的“一个实施例”或“实施例”是指可包含于本专利技术至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。本专利技术结合示意图进行详细描述,在详述本专利技术实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本专利技术保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。同时在本专利技术的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指本文档来自技高网
...

【技术保护点】
1.一种基于深度神经网络的蛋白质接触图预测方法,其特征在于:包括,/n采集并构造测试数据集;/n构建预测网络模型;/n获取训练数据集并对预测网络进行训练;/n将测试数据集输入训练后的预测网络中进行预测;/n获取蛋白质接触图预测结果。/n

【技术特征摘要】
1.一种基于深度神经网络的蛋白质接触图预测方法,其特征在于:包括,
采集并构造测试数据集;
构建预测网络模型;
获取训练数据集并对预测网络进行训练;
将测试数据集输入训练后的预测网络中进行预测;
获取蛋白质接触图预测结果。


2.如权利要求1所述的基于深度神经网络的蛋白质接触图预测方法,其特征在于:所述采集数据还包括对蛋白质进行测序,得到蛋白质序列。


3.如权利要求1或2所述的基于深度神经网络的蛋白质接触图预测方法,其特征在于:所述预测网络模型包括卷积层、残差块和激活函数,且预测网络模型中的卷积层包括3×3的卷积核。


4.如权利要求3所述的基于深度神经网络的蛋白质接触图预测方法,其特征在于:所述残差块还包括卷积层、归一化层和激活函数,且卷积层为96个3×3的卷积核。


5.如权利要求4所述的基于深度神经网络的蛋白质接触图预测方法,其特征在于:所述预测网络模型的激活函数包括Sigmoid函数和ELU函数,Sigmoid函数计算公式为,

【专利技术属性】
技术研发人员:於东军宋晓宁冯振华
申请(专利权)人:上海蠡图信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1