一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法技术

技术编号:3939115 阅读:288 留言:0更新日期:2012-04-11 18:40
一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,属于蛋白质二级结构的工程预测方法领域,解决了现有蛋白质二级结构的预测方法在采用机器学习算法时,存在的数据权值存在局部极小值、预测效率低的问题。本发明专利技术所述的蛋白质二级预测方法是:首先基于PDB数据库构造非冗余蛋白质二级结构训练数据集,然后基于NCBI?nr数据库为目标蛋白质链构造多序列比对特征,最后调用大间隔最近中心点算法来构建蛋白质二级结构预测模型。所述的大间隔最近中心点算法利用欧氏距离的K-means聚类算法确定每类样本的中心点,通过最小化目标损失函数学习输入空间的线性变换。本发明专利技术实现了快速、高效率、高精度的蛋白质二级结构预测,适用于蛋白质的二级结构预测。

【技术实现步骤摘要】

本专利技术涉及的是一种基于机器学习的蛋白质二级结构的工程预测方法,特别涉及一种将大间隔最近中心点方法与多序列比对特征相结合的方法,属于蛋白质二级结构的工 程预测方法领域。
技术介绍
随着人类基因组图谱的公布,以及越来越多动物、植物、微生物的基因组全序列测 定的完成,生物科学进入了 "后基因组时代"。人类将在了解遗传物质DNA全部序列的基础 上研究和认识生命的奥秘,阐明基因编码产物(蛋白质)的功能己成为主要研究目标。一 系列的研究表明,一种蛋白质能够行使其特定的生物功能,是由它特定的结构所决定的。因 此,了解蛋白质的结构是对其功能获得彻底理解的先决条件。尽管采用X-ray晶体衍射和 核磁共振这两种实验方法可以测定蛋白质的三维结构,但由于其都具有周期长、成本高、技 术难度大等缺点,使得采用实验方法测定蛋白质结构的速度远远低于由大规模测序工程生 成的蛋白质序列的速度。为了縮小这一差距,采用理论预测蛋白质结构的方法势在必行。 蛋白质的氨基酸序列决定了它的三级结构,但是直接从氨基酸序列成功地预测蛋 白质三级结构就目前的技术水平而言仍然是一个艰难的任务。于是,本领域技术人员采用 一个折中却非常有效的步骤就是预测蛋白质二级结构,即将蛋白质序列中的每个氨基酸残 基归约为螺旋构象、折叠构象、或是巻曲构象。蛋白质二级结构预测提供的信息,不仅可用 于蛋白质三级结构的从头预测、蛋白质的互作与功能预测、蛋白质的分析和注释,还可以提 高蛋白质折叠识别的敏感性。 自20世纪60年代以来,已经有越来越多的科研人员致力于蛋白质二级结构预 测的研究并提出了各种各样的预测算法。按照算法的基本思想,它们大体上可以分为 三类l.基于规则的预测,包括生物规则、统计规则和组合规则。具有代表性的算法有 Chou-Fasman、Lim和GGBSM等。由于这类方法的预测精度普遍低于70%,目前已极少采用。 2.基于图模型的预测。由于图模型方法,包括隐马尔可夫模型、条件随机场和贝叶斯网等, 能够成功地处理序列数据问题,因此此类方法在蛋白质的二级结构预测中得到了广泛应 用。图模型方法是从生成模型的角度考虑蛋白质二级结构预测问题的。尽管图模型能融入 标签的相关性和长距离信息,但由于蛋白质的二级结构主要是由氨基酸残基间的局部相互 作用决定的,图模型并不适用于蛋白质二级结构的建模,长期的实验表明它们并不能给出 精确的蛋白质二级结构预测。3.基于机器学习的预测,比如神经网络和支持向量机。早期 的机器学习方法主要是基于单序列特征,它们的三态每残基预测精度只有65%左右。直到 1993, Rost和Sander把神经网络方法和多序列比对特征相结合,使得蛋白质二级结构预测 精度突破了70%。随后,Jones通过引入PSSM特征进一步改进了蛋白质二级结构预测精 度。目前,预测精度较好的蛋白质二级结构预测方法都是基于机器学习算法,其中基于集成 神经网络的蛋白质二级结构预测方法的预测精度已经达到了 80%左右。此外,基于支持向量机的预测方法也获得了较好的预测结果。 尽管神经网络或是支持向量机的方法都能获得较高的蛋白质二级结构预测精度, 但是它们都有不可克服的缺点。神经网络具有权值的训练存在局部极小值的风险,训练结 果的好坏显著地依赖初始权值的选择。支持向量机的缺点是训练蛋白质二级结构预测模型 会产生许多支持向量,因此不能快速地预测蛋白质二级结构。
技术实现思路
本专利技术的目的是针对现有蛋白质二级结构的预测方法在采用机器学习算法时,存 在的数据权值存在局部极小值、预测效率低的问题,提供了一种基于大间隔最近中心点的 蛋白质二级结构的工程预测方法。 本专利技术是通过下述方案予以实现的一种基于大间隔最近中心点的蛋白质二级结 构的工程预测方法,采用下列步骤实现 步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式 的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集; 步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标 蛋白质一级序列中的每个残基构造多序列比对特征向量; 步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最近中心点算法,获得目标蛋白质的二级结构预测数据, 在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的 步骤三 一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点算法的训练样本集; 步骤三 二、基于步骤三 一构造的训练样本集,利用欧氏距离的K-means聚类算 法确定各类样本的中心点,其中,螺旋类样本、巻曲类样本和折叠类样本对应的K值分别为 3,3禾口 2 ; 步骤三 三、基于步骤三 二确定的各类样本的中心点和给定的初始超参数P , 利用子梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩 阵,其中,目标损失函数形式化为凸半定规划问题。 本专利技术基于确定的超参数P 、从PDB数据库导出的非冗余蛋白质二级结构训练集 以及多序列比对特征向量构造方法,构造一种基于大间隔最近中心点的蛋白质二级结构预 测系统。 本专利技术采用大间隔最近中心点算法模型可以形式化为凸半定规划问题,因此参数 求解不存在局部极小值问题。通过引入正则化技术,大间隔最近中心点算法克服了过学习 的问题。此外,本专利技术的预测模型仅仅基于8个中心点和3个线性变换矩阵,因此可以快速 高效地实现蛋白质二级结构预测。并且8个中心点分别对应二级结构的8种结构定义,因 此,采用本专利技术所述的方法能够很好地拟合蛋白质氨基酸序列与其空间构象的关系,实现 了快速高效的对蛋白质的二级结构进行预测。附图说明 图1是的流程图; 图2是采用大间隔最近中心点算法流程图;图3是构造非冗余蛋白质二级结构训练数据集 的方法流程图;图4是为目标蛋白质一级序列中的每个残基构造多序列比对特征向量的方 法的流程图。具体实施例方式具体实施方式一 下面结合图1、图2具体说明本实施方式。 一种基于大间隔最近 中心点的蛋白质二级结构的工程预测方法,采用下列步骤实现 步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基于PDB格式 的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集; 步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据库为目标 蛋白质一级序列中的每个残基构造多序列比对特征向量; 步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最近中心点算法,获得目标蛋白质的二级结构预测数据, 在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的 步骤三 一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点算法的训练样本集; 步骤三 二、基于步骤三 一构造的训练样本集,利用欧氏距离的K-means聚类算 法确定各类样本的中心点,其中,螺旋类样本、巻曲类样本和折叠类样本对应的K值分别为 3,3禾口 2 ; 步骤三 三、基于步骤三 二确定的各类样本的中心点和给定的初始超参数P , 利用子梯度投影算法,本文档来自技高网
...

【技术保护点】
一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法,其特征是:采用下列步骤实现:步骤一、下载发布的NCBInr数据库和PDB格式的蛋白质结构数据,基于PDB格式的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集;步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBInr数据库为目标蛋白质一级序列中的每个残基构造多序列比对特征向量;步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调用大间隔最近中心点算法,获得目标蛋白质的二级结构预测数据,在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的:步骤三.一、基于步骤二中为非冗余蛋白质二级结构训练数据集中的所有残基构造的多序列比对特征向量,以残基对应的二级结构作为特征向量的标签构造大间隔最近中心点算法的训练样本集;步骤三.二、基于步骤三.一构造的训练样本集,利用欧氏距离的K-means聚类算法确定各类样本的中心点,其中,螺旋类样本、卷曲类样本和折叠类样本对应的K值分别为3,3和2;步骤三.三、基于步骤三.二确定的各类样本的中心点和给定的初始超参数μ,利用子梯度投影算法,通过最小化目标损失函数求解大间隔最近中心点模型的线性变换矩阵,其中,目标损失函数形式化为凸半定规划问题。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王宽全杨伟左旺孟袁永峰张宏志
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1