当前位置: 首页 > 专利查询>苏州大学专利>正文

预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法技术方案

技术编号:16587679 阅读:38 留言:0更新日期:2017-11-18 15:19
本发明专利技术公开了一种预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法,该系统由氨基酸变异信息输入模块、氨基酸变异位点属性计算模块、蛋白质序列属性计算模块、预测稳定性变化模块、预测结果输出模块组成;该方法的步骤为录入并获取变异信息;提前约AAindex属性特征以及计算氨基酸微电物理化学属性特征;计算与氨基酸变异对应的蛋白质序列的保守性及其蛋白质属性;采用两层三分随机森林算法计算氨基酸变异对蛋白质稳定性的影响;储存并输出预测结果。本发明专利技术可以依据用户提供的氨基酸变异和对应的蛋白质序列,准确预测该氨基酸变异会导致所在蛋白质的结构稳定性升高、降低或不变,以及相应概率,并将结果存储并发送用户保存。

System and method for predicting protein structural stability affected by amino acid variation

The invention discloses a system and a method for predicting effect of amino acid mutation on protein structure stability, the system is composed of amino acid variation information input module, calculation module, attribute of amino acid mutation protein sequence attribute calculation module, prediction module, change of stability prediction results output module; the method comprises the following steps of entry and access to information in advance of variation; about AAindex attributes and the calculation of physical and chemical properties of amino acid micro electrical characteristics; conserved protein sequence calculation and the corresponding amino acid mutation and protein properties; using two layers of three random forest algorithm to calculate the amino acid variation effect on protein stability; storage and output forecast results. According to the amino acid variation provided by the user and the corresponding protein sequence, the amino acid mutation can accurately predict the structural stability of the protein, decrease or remain unchanged, and the corresponding probability, and store the result and send the user to save it.

【技术实现步骤摘要】
预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法
本专利技术属于生物医学数据分析
,具体涉及一种预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法。
技术介绍
预测氨基酸变异对蛋白质稳定性影响的重要指标是野生型蛋白质和变异后蛋白质的自由能变化值ddG。目前已有的预测方法分为两种:一种是直接基于能量用物理公式计算,但由于蛋白质物理结构的不明确,这样计算结果并不准确,且泛化性弱;另一种是基于已有实验数据,运用机器学习的方法来预测,但这种方法会存在以下这些问题:(1)准确性差,目前通用的实验数据库Protherm中的数据错、漏较多,导致训练数据集质量差,严重影响预测结果的准确性;(2)泛化性差,该方法使用了大量蛋白质结构相关的输入属性,但对于蛋白质结构未知的情况,则无法预测。(3)实用性差,该方法缺乏一个支持单个和批量输入,并能将预测结果分为三类(变异导致蛋白质稳定性升高、降低、不变)的系统。
技术实现思路
为了解决上述问题,本专利技术旨在提供一种预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法,该系统及其方法可以依据用户提供的氨基酸变异和对应的蛋白质序列,准确预测该氨基酸变异会导致所在蛋白质的结构稳定性升高、降低或不变,以及相应概率,并将结果存储并发送用户保存。为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种预测氨基酸变异对蛋白质结构稳定性影响的系统,由氨基酸变异信息输入模块、氨基酸变异位点属性计算模块、蛋白质序列属性计算模块、预测稳定性变化模块、预测结果输出模块组成,其中,所述氨基酸变异信息输入模块分别与所述氨基酸变异位点属性计算模块和所述蛋白质序列属性计算模块连接,所述氨基酸变异位点属性计算模块和所述蛋白质序列属性计算模块同时与所述预测稳定性变化模块连接,所述预测稳定性变化模块与所述预测结果输出模块连接;所述氨基酸变异信息输入模块的功能为获取用户提交的单个或成组的氨基酸变异及其蛋白质序列,并进行用户信息及数据的存储;所述氨基酸变异位点属性计算模块的功能为根据野生型和变异型位点上的氨基酸情况,提取相对应的AAindex属性特征值,并根据氨基酸变异数据,计算变异后的氨基酸位点物理化学属性特征;所述蛋白质序列属性计算模块的功能为根据氨基酸变异数据计算相关蛋白质的保守性以及蛋白质属性特征;所述预测稳定性变化模块的功能为通过基于随机森林的两层三分类算法将氨基酸变异对蛋白质稳定性的影响进行计算和分类,并给出相应概率,作为预测结果;所述预测结果输出模块的功能为将预测结果生成excel和pdf文件形式,存储并自动邮件发送用户,同时支持用户查询统计。一种预测氨基酸变异对蛋白质结构稳定性影响的方法,包括以下步骤:步骤1)所述氨基酸变异信息输入模块首先根据用户输入的氨基酸变异信息,获取其中的氨基酸变异及其蛋白质序列,然后所述氨基酸变异信息输入模块将获取到的氨基酸变异数据以及与氨基酸变异对应的蛋白质序列数据分别传输至所述氨基酸变异位点属性计算模块和所述蛋白质序列属性计算模块,同时,所有输入数据以及提交数据的用户信息将被系统存储;步骤2)在收到所述氨基酸变异数据后,所述氨基酸变异位点属性计算模块一方面从AAindex数据库中,根据野生型和变异型位点上的氨基酸情况,提取相对应的AAindex属性特征值,另一方面以该氨基酸变异位点为中心,计算相邻位点中各类氨基酸的分布情况,并换算成相应的氨基酸位点物理化学属性特征;然后,所述氨基酸变异位点属性计算模块将提取到的所述AAindex属性特征值和计算出的所述氨基酸位点物理化学属性特征同时传输至所述预测稳定性变化模块;步骤3)在收到所述与氨基酸变异对应的蛋白质序列数据后,所述蛋白质序列属性计算模块一方面调用BLAST方法寻找该蛋白质序列的同源序列,然后构造PSSM矩阵,计算该蛋白质序列的保守性,作为预测的输入属性特征;另一方面调用ProtDCal算法,计算该蛋白质序列的蛋白质属性特征;然后,所述蛋白质序列属性计算模块将计算出的该蛋白质序列的保守性和蛋白质属性同时传输至所述预测稳定性变化模块;步骤4)在收到所述AAindex属性特征值、所述氨基酸位点物理化学属性特征、所述蛋白质序列的保守性以及所述蛋白质属性特征后,所述预测稳定性变化模块采用基于随机森林的两层三分类模型预测方法,将氨基酸变异对蛋白质结构稳定性的影响归为影响蛋白质稳定性降低、升高和不变三类中的一类,并计算出相应的概率,作为预测结果;然后,所述预测稳定性变化模块将计算出的所述预测结果传输至所述预测结果输出模块;步骤5)在收到所述据测结果后,所述预测结果输出模块首先将所述预测结果进行存储,然后将所述预测结果生成excel和pdf文件形式,并按照任务发送邮件给对应的提交数据的用户;对于注册系统的用户,可输入任务名称以查看对应的预测结果,亦或输入某一个特定蛋白质,统计其上面所有变异对稳定性产生的影响。进一步的,步骤1)中,输入氨基酸变异信息的方法具体包括以下三种方式:1)输入单个变异及变异所在的蛋白质序列、实验温度和pH值;2)一次批量输入多个氨基酸变异及每个变异对应的蛋白质序列、实验温度和pH值;3)输入指定的蛋白质序列、实验温度和pH值(目的是预测该蛋白质上所有可能的氨基酸变异对蛋白质稳定性的影响)。进一步的,步骤4)中,所述的基于随机森林的两层三分类模型预测方法的具体步骤如下:1)按照所述氨基酸变异位点属性计算模块和所述蛋白质序列属性计算模块中的计算方法以及特征提取算法,分别构造两个基于随机森林的分类预测器,第一个分类预测器基于部分重要输入属性,将氨基酸变异分为导致蛋白质稳定性降低和不降低两类;第二个分类预测器基于另一部分输入属性,将变异分为导致蛋白质稳定性升高和不变两类;2)对所有待预测的氨基酸变异数据分别抽取对应的输入属性、运用所述第一个分类预测器,将氨基酸变异分类成导致蛋白质稳定性降低和不降低两类;3)对上一步中被预测为导致蛋白质稳定性不降低的变异数据,再次抽取相应的输入属性,运用所述第二个分类预测器,将这部分氨基酸变异分类为导致蛋白质稳定性升高和不变两类;由此,待预测的氨基酸变异就被分为了影响蛋白质稳定性降低、升高和不变三类。与现有技术相比,本专利技术的有益效果是:本专利技术的系统及其方法可以依据用户提供的氨基酸变异和对应的蛋白质序列,准确预测该氨基酸变异会导致所在蛋白质的结构稳定性升高、降低或不变,以及相应概率,并将结果存储并发送用户保存。这种三类预测实用性强,且具有较高的预测准确率,特别是在蛋白质结构未知的情况下也能预测变异的影响,泛化性强。对于蛋白质功能分析、辅助蛋白质工程和设计、药物设计等方面具有重大的意义。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,下面以本专利技术的较佳实施例,并结合附图进行详细说明。本专利技术的具体实施方式由以下实施例及其附图详细给出。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的预测氨基酸变异对蛋白质结构稳定性影响的系统的结构示意图;图2为本专利技术的预测氨基酸变异对蛋白质结构稳定性影响方法中两层三分本文档来自技高网...
预测氨基酸变异对蛋白质结构稳定性影响的系统及其方法

【技术保护点】
一种预测氨基酸变异对蛋白质结构稳定性影响的系统,其特征在于:由氨基酸变异信息输入模块(1)、氨基酸变异位点属性计算模块(2)、蛋白质序列属性计算模块(3)、预测稳定性变化模块(4)、预测结果输出模块(5)组成,其中,所述氨基酸变异信息输入模块(1)分别与所述氨基酸变异位点属性计算模块(2)和所述蛋白质序列属性计算模块(3)连接,所述氨基酸变异位点属性计算模块(2)和所述蛋白质序列属性计算模块(3)同时与所述预测稳定性变化模块(4)连接,所述预测稳定性变化模块(4)与所述预测结果输出模块(5)连接;所述氨基酸变异信息输入模块(1)的功能为获取用户提交的单个或成组的氨基酸变异及其蛋白质序列,并进行用户信息及数据的存储;所述氨基酸变异位点属性计算模块(2)的功能为根据野生型和变异型位点上的氨基酸情况,提取相对应的AAindex属性特征值,并根据氨基酸变异数据,计算变异后的氨基酸位点物理化学属性特征;所述蛋白质序列属性计算模块(3)的功能为根据氨基酸变异数据计算相关蛋白质的保守性以及蛋白质属性特征;所述预测稳定性变化模块(4)的功能为通过基于随机森林的两层三分类算法将氨基酸变异对蛋白质稳定性的影响进行计算和分类,并给出相应概率,作为预测结果;所述预测结果输出模块(5)的功能为将预测结果生成excel和pdf文件形式,存储并自动邮件发送用户,同时支持用户查询统计。...

【技术特征摘要】
1.一种预测氨基酸变异对蛋白质结构稳定性影响的系统,其特征在于:由氨基酸变异信息输入模块(1)、氨基酸变异位点属性计算模块(2)、蛋白质序列属性计算模块(3)、预测稳定性变化模块(4)、预测结果输出模块(5)组成,其中,所述氨基酸变异信息输入模块(1)分别与所述氨基酸变异位点属性计算模块(2)和所述蛋白质序列属性计算模块(3)连接,所述氨基酸变异位点属性计算模块(2)和所述蛋白质序列属性计算模块(3)同时与所述预测稳定性变化模块(4)连接,所述预测稳定性变化模块(4)与所述预测结果输出模块(5)连接;所述氨基酸变异信息输入模块(1)的功能为获取用户提交的单个或成组的氨基酸变异及其蛋白质序列,并进行用户信息及数据的存储;所述氨基酸变异位点属性计算模块(2)的功能为根据野生型和变异型位点上的氨基酸情况,提取相对应的AAindex属性特征值,并根据氨基酸变异数据,计算变异后的氨基酸位点物理化学属性特征;所述蛋白质序列属性计算模块(3)的功能为根据氨基酸变异数据计算相关蛋白质的保守性以及蛋白质属性特征;所述预测稳定性变化模块(4)的功能为通过基于随机森林的两层三分类算法将氨基酸变异对蛋白质稳定性的影响进行计算和分类,并给出相应概率,作为预测结果;所述预测结果输出模块(5)的功能为将预测结果生成excel和pdf文件形式,存储并自动邮件发送用户,同时支持用户查询统计。2.一种利用如权利要求1所述的系统的预测氨基酸变异对蛋白质结构稳定性影响的方法,其特征在于,包括以下步骤:步骤1)所述氨基酸变异信息输入模块(1)首先根据用户输入的氨基酸变异信息,获取其中的氨基酸变异及其蛋白质序列,然后所述氨基酸变异信息输入模块(1)将获取到的氨基酸变异数据以及与氨基酸变异对应的蛋白质序列数据分别传输至所述氨基酸变异位点属性计算模块(2)和所述蛋白质序列属性计算模块(3),同时,所有输入数据以及提交数据的用户信息将被系统存储;步骤2)在收到所述氨基酸变异数据后,所述氨基酸变异位点属性计算模块(2)一方面从AAindex数据库中,根据野生型和变异型位点上的氨基酸情况,提取相对应的AAindex属性特征值,另一方面以该氨基酸变异位点为中心,计算相邻位点中各类氨基酸的分布情况,并换算成相应的氨基酸位点物理化学属性特征;然后,所述氨基酸变异位点属性计算模块(2)将提取到的所述AAindex属性特征值和计算出的所述氨基酸位点物理化学属性特征同时传输至所述预测稳定性变化模块(4);步骤3)在收到所述与氨基酸变异对应的蛋白质序列数据后,所述蛋白...

【专利技术属性】
技术研发人员:杨洋朱斐严文颖钱福良郁春江
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1