一种蛋白质侧链预测的层次化建模方法技术

技术编号:8682997 阅读:280 留言:0更新日期:2013-05-09 02:55
本发明专利技术提供了一种蛋白质侧链预测的层次化建模方法。它包括以下步骤:(1)以主链信息作为输入,执行第一层推理单元,输出侧链扭转角x1;(2)以主链信息、侧链扭转角x1作为输入,执行第二层推理单元,输出侧链扭转角x2;(3)以主链信息、侧链扭转角x1、x2作为输入,执行第三层推理单元,输出侧链扭转角x3;(4)以主链信息、侧链扭转角x1、x2、x3作为输入,执行第四层推理单元,输出侧链扭转角x4。在该层次化建模方法基础上,针对上述各层推理单元,本发明专利技术还提供了层次化建模方法的训练流程。同时,针对所述各层推理单元,并结合训练流程输出的对应于各层推理单元的DBN模型,还提供了层次化建模方法的采样流程。

【技术实现步骤摘要】

本专利技术涉及蛋白质结构预测
,尤其涉及蛋白质侧链预测的层次化建模方法
技术介绍
蛋白质侧链(Side-chain)空间结构是影响蛋白质分子结构及功能的重要因素。一方面,不同氨基酸残基的“R”基团构成存在很大差异;另一方面,受蛋白质主链(Main-chain,或Backbone)构成及构象、分子溶液环境等影响,同一种氨基酸残基“R”基团也将呈现不同构象。通常将一种氨基酸残基“R”基团的特定结构状态称为该残基的旋转异构体(rotational isomer,或称rotamer)。为便于侧链预测,通常采用化学键的扭转角(torsion angles,或称二面角,dihedral angles)来描述旋转异构体。氨基酸残基中除参与肽键形成这一部分(主链)的二面角Φ、Ψ、ω外,侧链上还存在xl、χ2、χ3、χ4等O到4个不等的二面角。一组二面角序列可以确定蛋白质特定的空间结构。蛋白质结构预测就是找出最接近天然结构的这组二面角序列。通常认为蛋白质的结构组成单元——氨基酸残基的侧链形态与蛋白质主链形态密切相关。通常的蛋白质侧链预测分为两大阶段:一是基于主链形态分别为每个残基位置生成侧链旋转异构体库;二是基于该库进行采样,并结合主链形态组装最终构象。侧链旋转异构体库的生成实际上是一个机器学习问题,从大量已知数据集(训练集)中学习一个连续模型,然后基于该模型进行采样,从而构建所需的旋转异构体库,作为侧链预测离散空间的表达。目前广泛采用的侧链预测方法基于侧链形态与主链形态的关联性,通过机器学习的手段,将主链形态信息作为系统的重要输入,从而导出侧链形态的二面角描述。通常采用的主链信息包括残基类型aa、二级结构类型ss、主链扭转角Φ、主链扭转角Ψ四种。而描述侧链的信息则根据残基类型采用O 4个二面角:xl、x2、x3、x4。专利技术人认为,除主链对侧链的影响外,侧链二面角之间也有相互影响,而这种影响从侧链根部(靠近主链部分)到末梢逐级递减。换言之,残基侧链扭转角一方面受到残基类型以及主链信息的影响,另一方面还受到侧链内部接近主链一侧扭转角的影响。而目前常用的侧链预测方法往往忽略了这种影响。如果考虑到这种影响关系,在建模时就应当将4个X角的推理分别放在不同层次上。本专利技术基于动态贝叶斯网络(DynamicBayesianNetworks, DBN),结合xl、x2、x3、x4对旋转异构体结构贡献的不同,设计了蛋白质侧链预测层次化建模方法。
技术实现思路
针对现有技术的不足,本专利技术所要解决的技术问题在于提供一种用于蛋白质结构侧链预测的层次化建模方法,能够有效提高蛋白质侧链预测质量。为此,本专利技术采用以下技术方案,它包括以下步骤:(I).以主链信息作为输入,执行第一层推理单元,输出侧链扭转角Xl ;(2).以主链信息、侧链扭转角Xl作为输入,执行第二层推理单元,输出侧链扭转角x2 ;(3).以主链信息、侧链扭转角xl、x2作为输入,执行第三层推理单元,输出侧链扭转角x3 ;(4).以主链信息、侧链扭转角xl、x2、x3作为输入,执行第四层推理单元,输出侧链扭转角x4。本专利技术基于侧链形态既与主链形态有关,又受侧链上相邻二面角的影响这种认识,设计了蛋白质侧链预测的层次化建模方法。建模方法总体流程如图1所示。该方法输入为当前残基所对应的主链信息:残基类型aa、二级结构类型SS、主链扭转角0、主链扭转角V,输出为当前残基的侧链二面角描述:xl、x2、x3、x4。图中实线矩形为推理单元。所有推理单元按层次进行组织。在每一层中,分别根据各层的实际需求设计了数量不等的输入数据,而各层只有一个输出。只保留一个未知结点,有利于降低模型复杂程度,缓解数据稀疏现象。同时,对每一个侧链扭转角的推理,既考虑到主链信息的影响,又考虑到主链一侧X角的影响,符合对蛋白质侧链形态的认识。该方法针对各个层次分别单独操作。在第一层中,选取残基类型aa、二级结构类型ss、主链二面角0、主链二面角V4个属性作为推理输入,侧链扭转角xl为推理输出;第二层的输入在第一层基础上增加了 xl,侧链扭转角x2为推理输出。以下各层依次类推。由于氨基酸的侧链二面角个数可能为0 4,为便于模型操作,对于侧链二面角个数不足4个的情况,通过标记特殊值的方法加以区别,即在整理输出数据时,过滤掉特殊值,从而得到符合实际氨基酸结构特点的输出数据。本专利技术基于动态贝叶斯网络(DBN)设计推理单元。本专利技术还针对上述各层推理单元,提供了层次化建模方法的训练流程。训练流程的输入为蛋白质三维构象集合,输出为各层推理单元的最优DBN模型。其中,no Improve表示训练质量未提高次数,convergentlter表示收敛迭代阈值,bestLL表示最好似然值,bestBic表示最好Bic值,具体训练流程如下:(2.1).为当前层推理单元创建DBN模型对象,记为dbn ;(2.2).为该dbn对象创建EM引擎,记为em ;(2.3).将训练数据装入em引擎;(2.4).当 nolmprove < convergentlter 时,进入(2.5),否则退出训练流程; (2.5).执行 em 的 E 步骤;(2.6).计算em的似然值11 ;(2.7).执行 em 的 M 步骤;(2.8).如果 11 > bestLL,则用 11 更新 bestLL,同时将 nolmprove 清 0,否贝丨Jnolmprove 自增;(2.9).根据 bestLL 计算 bic 值;(2.10).如果 bic > bestBic,则用 bic 更新 bestBic。具体训练流程如图2所示。训练过程中,采用贝叶斯信息标准BIC打分函数评价DBN模型质量。随着训练参数的增加,模型极大似然值越来越大,因此只能依靠极大似然值来进行模型选择。而BIC是大样本前提下对边缘似然函数的一种逼近,是一种用于模型选择的统计方法。其公式如下:BIC = 21n(L)-pin(η) (公式 I)其中,L表示模型极大似然估计,P表示训练时参数个数,η表示训练集数据条数。BIC打分函数考虑了惩罚机制,使得没有出现似然值显著增长的参数增加被忽略掉。从而在给定数据情况下得到最优参数个数,避免得到过拟合模型。本专利技术采用Mocappy++l.0工具训练模型。Mocappy是一个通过MCMC (MarkovChain Monte Carlo)来进行动态贝叶斯网络参数学习和推理的工具。该工具可以方便地描述与蛋白质结构有关的概率模型,便于程序员将精力集中于模型本身,而不用过多考虑参数选择和学习算法。训练过程的输出是针对各层推理单元的最优DBN模型(根据bestBic确定),这些模型将用于下一步采样过程中。本专利技术将训练过程中获得的上述4个层次推理单元所对应的最优DBN模型分别标记为nip m2、m3、m4。本专利技术还提供了层次化建模方法的采样流程。基于训练流程所获 得的各层推理单元DBN模型,本专利技术针对目标主链构象,通过各层推理单元进行采样,以获得目标主链各个残基位置处的旋转异构体库。为此设计了层次化建模方法的采样流程。采样流程的输入为已知目标主链构象信息,包括上述残基类型aa、二级结构类型ss、主链扭转角Φ、主链扭转角Ψ等四种;输出为主链各残基位本文档来自技高网
...

【技术保护点】
一种蛋白质侧链预测的层次化建模方法,其特征在于它包括以下步骤:(1).以主链信息作为输入,执行第一层推理单元,输出侧链扭转角x1;(2).以主链信息、侧链扭转角x1作为输入,执行第二层推理单元,输出侧链扭转角x2;(3).以主链信息、侧链扭转角x1、x2作为输入,执行第三层推理单元,输出侧链扭转角x3;(4).以主链信息、侧链扭转角x1、x2、x3作为输入,执行第四层推理单元,输出侧链扭转角x4。

【技术特征摘要】
1.一种蛋白质侧链预测的层次化建模方法,其特征在于它包括以下步骤: (1).以主链信息作为输入,执行第一层推理单元,输出侧链扭转角Xl; (2).以主链信息、侧链扭转角Xl作为输入,执行第二层推理单元,输出侧链扭转角x2 ; (3).以主链信息、侧链扭转角xl、x2作为输入,执行第三层推理单元,输出侧链扭转角x3 ; (4).以主链信息、侧链扭转角xl、x2、x3作为输入,执行第四层推理单元,输出侧链扭转角x4。2.根据权利要求1所述的一种蛋白质侧链预测的层次化建模方法,其特征在于,针对上述各层推理单元,还提供了层次化建模方法的训练流程;训练流程输入为蛋白质三维构象集合,输出为对应于各层推理单元的DBN模型;训练流程涉及以下参数moImpiOve表示训练质量未提高次数,convergentlter表示收敛迭代阈值,bestLL表示最好似然值,bestBic表示最好Bic值;所述训练流程包括以下过程: (2.1).为当前层推理单元创建DBN模型对象,记为dbn ; (2.2).为该dbn对象创建EM引擎,记为em ; (2.3).将训练数据装入em引擎; (2.4).当 no Improve < convergentlter 时,进入(2.5),否则退出训练流程; (2.5).执行em的E步骤; (2.6).计算em的似然值11 ; (2.7).执行em的M步骤;(2.8).如果 11 > bestLL,则用 11 更新 bestLL,同时将 no Improve 清 O,否则 no Im...

【专利技术属性】
技术研发人员:蒋云良黄旭吕强缪大俊钱培德范婧
申请(专利权)人:湖州师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1