一类蛋白质二级结构智能预测模型构造技术制造技术

技术编号:2915993 阅读:346 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一类蛋白质二级结构智能预测模型构造技术,利用多层递阶、逐步求精的结构模型集成。此模型CPM融合了原创型KAAPRO方法、新型同源性分析方法、改进型SVM方法等;CPM打破了传统的单一物化属性分析或单一结构序列分析的技术线路,而是采取了结构序列分析与物化属性分析相结合的优选线路,确保了模型整体的优化与预测精度的同时具有更好的普适性;CPM采用高起点的alpha/beta库挖掘;并以领域知识与背景知识贯穿;CPM能够很好地对偏alpha/beta型蛋白质的二级结构进行预测,取得86%的最高精度(同类最高达81%)。

【技术实现步骤摘要】

本专利技术涉及蛋白质二级结构预测技术,特别涉及一种基于合成金子塔模型(CPM, Compound Pyramid Model)的智能预测技术,具体说是一类全新的逐步求精、多层递阶的蛋 白质二级结构预测模型j成金子塔才莫型构造技术。
技术介绍
一、蛋白质结构预测技术蛋白质结构预测是后基因组时代的一项重要任务。20世纪末至今,分子生物学和生物 信息学(Bioinformatics)领域取了长足进展,人类基因组计划目前已基本完成对人类基因序列 的测定工作,进而跨入后基因组时代。由于普遍认为蛋白质的结构决定其功能,同时蛋白质 序列数据的飞速增长使己知的蛋白质序列和已知的蛋白质结构之间的差距不断增大,蛋白质 的结构测定成为分子生物学和生物信息学领域最为关注的问题之一 。蛋白质是20种DNA编码的L型a氨基酸构成的具有空间构象和生物功能的大分子。人 类对蛋白质的研究始于19世纪,对其认识历史是曲折的,期间出现过大量的错误理论,即使 到今天人们对那些存在于生物体内的成千上万种功能和结构各异的蛋白质的认识还不够深 刻。1952年丹麦生物化学家Linderstrom-Lang提出蛋白质一级结构、二级结构和三级结构的 概念,才使蛋白质结构走上了正确道路。蛋白质的一级结构一般指构成蛋白质肽链的氨基酸 残基的排列顺序,是蛋白质最基本的结构。它是由基因上遗传密码的排列顺序所决定的,各 种氨基酸按遗传密码的顺序通过肽键连接起来。每一种蛋白质分子都有自己特有的氨基酸的 组成和排列顺序。是一个没有空间概念的结构;这种氨基酸排列顺序决定它的特定的空间结 构,也就是蛋白质的一级结构决定了蛋白质的二级三级等高级结构,这就是荣获诺贝尔奖的 著名的Anfinsen原理。氨基酸在空间折叠为一定的三维空间结构,包括二级结构、三级结构, 统称为蛋白质的高级结构。二级结构也称构象单元,是蛋白质复杂空间构象的基础,是多肽 链骨架在局部形成的结构单元(DSSP方法将蛋白质二级结构分为H(a螺旋),G(310、螺旋), I(兀螺旋),E(扩展的p折叠),B(单个的p折叠),T(转角),S(bend)和coil(无规巻曲)共8种, 二级结构预测问题中一般将转换为3类:H, G H;E, B转换成E;其他的转换成C。也即H代 指a螺旋,E代指卩折叠,C代指转角环形等)。这些构象单元在所有的蛋白质中普遍存在。 不同数目、不同尺寸的二级结构和其它无规则段以不同的方式排布连接成完整的蛋白质空间 结构,即蛋白质的三级结构。蛋白质的三级结构预测大致有两种路线其一是由蛋白质的一级结构直接预测;另一种是先根据蛋白质的一级结构预测二级结构,然后在二级结构的基础上再预测三级结构。由于 沿后一种路线的研究,同时探索一二级与二三级之间的影响,可以揭示更深层次的生物学问 题。因此,采用后一种路线将更具有理论意义。对这种路线,蛋白质的二级结构预测承上启 下,起着关键性的作用。蛋白质二级结构是确定蛋白质三维结构构象的重要一环。目前测定蛋白质二级结构的方 法主要分为两类其一是通过硬件手段,如X光射线、核磁共振与红外线方法;其二是利用 多种智能算法对蛋白质二级结构进行预测。前者的优点是结果精确,缺点是消耗的物资、人 力与时间都非常多,存在诸多局限。于是迫切需要一种不依赖晶体培养等而又筒便易行的预 测蛋白质结构的模型与方法。由此基于计算机程序的蛋白质二级结构预测已成为后基因组时 代的一项重要任务。基于计算机程序的蛋白质二级结构预测研究已经有30多年的历史,归纳各种不同的预测 方法,大致可以分成三类1 )基于机器学习的方法(如SVM方法);2)使用多序列排列信息 的方法(如BLAST方法);3 )使用规则和统计结合的方法(如ILP方法,Chou-Fasman方法等)。 然而近年来,蛋白质二级结构预测研究进展緩慢,虽然通过将机器学习与数据挖掘技术引入 蛋白质结构预测中等教育取得了一定成果,然而预测精度一般较低(低于80%);同时当前所 建立的模型与方法,无法完成揭示序列与空间构象的关系,成为本世纪初分子生物学和生物 信息学领域中国际性的一大难题。二、集成与混合预测模型技术目前在基于计算机程序的蛋白质二级结构预测领域,存在三大主流方法:基于机器学习 的、多序列排列信息的以及使用规则和统计结合的方法。正如前文所述,这些方法都假定蛋 白质的二级结构主要是由临近残基间的相互作用所决定的,然后通过对已知空间结构的蛋白 质分子进行分析和归纳,制定出一套预测规则,并根据这些规则对其它结构未知的蛋白质分 子的二级结构进行预测。这些方法各有侧重,多数方法只能在一小部分蛋白质中获得令人满 意的预测准确度,普适性较弱,因此难以推广应用。在最近的研究中,混合预测模型(Hybrid Prediction Model)与集成预测模型(Ensemble PredictionModel)被广泛应用于金融、生物、电信等多个领域。相对一般预测模型,混合预测 模型与集成预测模型综合优化多个单一预测模型的结果,使预测结果的准确度大大超过单一 模型。两者的区别在于混合预测模型一般使用多类预测方法,而集成预测模型中只采用一 种预测方法。最近的研究结果表明混合预测模型与集成预测模型通常可以获得更优的预测准确度, 吸引了一些生物信息学家的注意,并建立了一些混合预测模型,如HYPROSP模型等。这些模型在一定程度上,提高了预测精度, 一般可提高至80%左右,但仍然存在稳定性差的不足。然而这些方法的设计要不没有考虑各种方法结果的有机结合,要不没有结合氨基酸物化属性 等领域知识,这些不足严重局限了模型整体预测精度。这主要是由于这些方法基本采用单一 方法多次复用的形式,或利用神经网络对多方结果合成的形式,由于这类方法在整体设计中 未考虑方法的层次链接,因此不能有效利用各个独立的预测子模型,合成金字塔模型则利用 层次间的智能接口将各种子模型与方法有机融合,充分发挥各个预测子模型以及数据挖掘为 主体的方法群的优势,使整体效果达到最优。三、数据挖掘技术自二十世纪六十年代中期至今,在蛋白质二级结构预测的研究中,迫切需要提出一种新 的、精度更高的预测模型与方法。由于数据挖掘(或知识发现)在处理海量数据方面具有得天 独厚的优势,而且知识发现领域在处理生物序列信息和预测方面已有一些较为成熟的技术, 故越来越多的学者逐渐利用数据挖掘的技术方法研究蛋白质的结构预测问题并取得了 一定成 果。数据挖掘(知识发现)是国际学术前沿多学科交叉的新兴边缘学科,它是指从海量信息 中发现新颖的、潜在有用、最终可被用户理解的知识。它禹給了AX智能、冲g学习、模式i。劇、 统计学、l过居库、计#4则络、自然语言处理等众多学科的内容,它是针对生成收集数据的能力迅 猛发展,而对信息的处理仍然采用数据统计等传统的方法,这一矛盾而产生的,并迅速发展 起来的。通过数据挖掘(KDD, Knowledge Discovery in Database )过程,感兴趣的知识或高层信 息可以从数据库相关数据集中抽取出来并从不同角度进行研究。目前绝大部分KDD的算法 没有将KDD作为认知的复杂系统对其内在的规律性加以研究,且都没有深层次地考虑知识 库,挖掘出来的许多假设规则与知识库中的已有知识是本文档来自技高网...

【技术保护点】
一类蛋白质二级结构智能预测模型构造技术,其特征在于:包括综合分析层、辅助判定层、核心判定层、结果优化层; 1)综合分析层:本层综合了新型同源性分析与优化的SVM类化分析; 新型同源性分析:在多序列匹配阶段,采取基于退火进化的多序列匹配算法,使得比对的结果具有更强的生物敏感性;在模型构建阶段,利用持续的双向隐马尔可夫模型和神经网络的混合建模方法; 优化的SVM类化分析:在SVM方法的改进中,采取轮转策略,即构造H/~H、E/~E、C/~C、H/E、H/C、E/C六个二分类器,根据样本与超平面的距离对目标样本判定;同时使用采样集建立模型,进而修正的策略; 新型同源性分析方法基于序列结构,优化的SVM类化分析方法针对氨基酸物化属性,因此本层同时综合了结构序列分析与物化属性分析结果,打破了传统的单一性分析的研究线路; 2)辅助判定层:本层采用优化的SVM二分类方法,以及对C库挖掘所得的关联规则集为基础的关联分类算法;模型以人工选取的方式对C数据库进行构造,具体方式为对RS126数据集分割窗口化,收集中间残基结构为C的记录组合而成;在此基础上,在KDD*过程模型的作用下,获得分类效果较好的规则集,该集合可有效分离数据中的C结构,以最大程度避免向核心判定层引入该结构,避免精度衰退; 3)核心判定层:本层的核心方式是原创性的基于KDTICM理论的KDD*模型与Maradbcm算法,以及改进的关联规则分类CBA方法;该层的主要特征包括两方面:其一使用可信度与支持度的测度来作为一个复合型度量;其二根据蛋白质生物数据的特性,使用内容分别相对偏向alpha、beta的蛋白质库;此两个数据库是以CATH分类为基础,以同源性小于30%为条件,选择α型、β型的蛋白质而构成;利用基于KDD*模型的Maradbcm算法对纯度较高的α蛋白质库与β蛋白质库进行关联规则的挖掘,由此获得的挖掘结果是精化的规则;其在保证本层预测精度的同时,为生物学家对二级结构折叠的进一步分析提供了依据; 4)结果优化层:本层主要设计倾向性因子、位能函数及合情推理三类方法,前两类方法属于生物信息学固有方法,其主要利用生物信息背景知识进行结构预测;合情推理方法是建立在二级结构具备的不同物化属性规律的基础上的;三种方法从不同角度对其下三层的结果加以优化,以最大程度地提高整体预测精度。...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨炳儒
申请(专利权)人:北京科技大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1