一种基于氨基酸序列的蛋白质折叠类型识别方法技术

技术编号:16701001 阅读:19 留言:0更新日期:2017-12-02 13:26
本发明专利技术公开一种基于氨基酸序列的蛋白质折叠类型识别方法,步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。采用本发明专利技术,能够扩大识别的样本覆盖范围并提高折叠类型识别的准确率,同时实现了折叠类型识别的自动化操作减少因人为因素造成的识别效果不佳的现象。

An identification method of protein folding type based on amino acid sequence

The invention discloses a protein fold recognition method based on the amino acid sequences of steps 1, alpha, beta, alpha / beta, alpha + beta four protein family and superfamily respectively to establish the hidden Markov model as a unit, fold recognition model with family and superfamily as the representative of the set, at the same time two models were set to expand the expansion of the formation and expansion of the family model set super family model set; step 2, according to the fold recognition model set for protein folding type automatic recognition. By adopting the invention, the sample coverage range can be enlarged, and the accuracy of folding type recognition can be increased. At the same time, automatic operation of folding type recognition is realized, and the phenomenon of poor recognition effect caused by human factors is reduced.

【技术实现步骤摘要】
一种基于氨基酸序列的蛋白质折叠类型识别方法
本专利技术属于生物信息学领域,特别是涉及一种基于氨基酸序列的蛋白质折叠类型识别方法。
技术介绍
由于蛋白质本身自身的复杂性以及其生存环境的复杂性使得蛋白质的研究一直是重点也是难点。蛋白质折叠类型识别一直是生命科学领域研究的重点,是蛋白质三维结构预测的主要方法之一。蛋白质折叠类型识别是一种依托于结构或者模型信息的方法,主要方法分为两类:机器学习和序列-序列比对(多序列比对)。机器学习主要有人工神经网络、随机森林、支持向量机等方法。多序列比对方法主要是依据两种序列模型进行识别:特殊位置分数矩阵和隐马尔科夫模型。研究中大部分主要针对少量的折叠类型,比如Ding等提出当然27中折叠类型。且识别的准确率也不是特别高,大部分保持在70%到90%之间,超过90%则会被认为识别准确率很高蛋白质的种类是是庞大的,仅仅研究少量的折叠类型是不能满足要求,需要扩大研究的范围。且在识别准确率的方面也需要一定的提高。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于氨基酸序列的蛋白质折叠类型识别方法,能够提高样本的识别范围和识别的准确率且能对折叠类型进行自动化识别不再需要人工的参与。为实现上述目的,本专利技术采用如下的技术方案:一种基于氨基酸序列的蛋白质折叠类型识别方法包括以下步骤:步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。作为优选,步骤1包括:第一步:确定好训练集,判断训练集是否满足条件,若满足条件则进行第二步,若不满足调整则对训练集进行调整,使其满足条件;第二步:对满足条件的训练集进行多结构比对;第三步:观察比对是否成功,若成功则进行第四步,若失败则对训练集进行调整,再进行多结构比对;第四步:提取比对结果中的序列比对信息;第五步:根据所提取比对信息进行模型构建;经过上述过程,一共建立了四个模型集;其中,家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型,采用属于一个折叠类型的家族模型共同代表该折叠类型,将所有模型组合到一起形成以家族为单位的折叠类型模型集,简称家族模型集,在采用该模型集进行折叠类型识别时,序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型,超家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型,采用属于一个折叠类型的超家族模型共同代表该折叠类型,将所有模型组合到一起形成以超家族为单位的折叠类型模型集,简称超家族模型集,采在用该模型集进行折叠类型识别时,序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型;扩充家族模型集:将一个折叠类型内未参加家族模型建模的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型,将所建的模型加入到家族模型集中组成扩充家族模型集;扩充超家族模型集:分为两个部分,①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对,对分割后的训练集建立模型,②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型,将①和②所建的模型加入到超家族模型集组成扩充超家族模型集。作为优选,步骤2具体包括:折叠类型识别步骤、根据所述折叠类型识别模型集,对待测的蛋白质序列进行所属的折叠类型识别;模型库更新步骤,对所含模型集进行更新,使模型集保持最新的使用状态。附图说明图1是本专利技术基于氨基酸序列的蛋白质折叠类型识别方法建立模型的流程图。具体实施方式本专利技术实施例提供一种基于氨基酸序列的蛋白质折叠类型识别方法,包括以下步骤:步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,用于对待测蛋白进行折叠类型识别,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集,四个模型集均可以用于蛋白质折叠类型识别,可以扩大样本的识别范围。本专利技术依据SCOPe数据库中α,β,α/β,α+β四类蛋白为研究对象。建模时所选的是SCOPe-2.05版本的数据。前期的研究表明隐马尔科夫模型在折叠类型识别中的识别效果显著,本专利技术所建的模型也是隐马尔科夫模型。具体的建模过程如下所述,如图1所示。第一步:确定好训练集,判断训练集是否满足条件,若满足条件则进行第二步,若不满足调整则对训练集进行调整,使其满足条件。第二步:对满足条件的训练集进行多结构(序列)比对。第三步:观察比对是否成功,若成功则进行第四步,若失败则对训练集进行调整,再进行多结构比对。第四步:提取比对结果中的序列比对信息。第五步:根据所提取比对信息进行模型构建。经过上述过程,一共建立了四个模型集。家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型。用属于一个折叠类型的家族模型共同代表该折叠类型。将所有模型组合到一起形成以家族为单位的折叠类型模型集,简称家族模型集。在用该模型集进行折叠类型识别时,序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型。超家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的超家族分别建立隐马尔科夫模型。用属于一个折叠类型的超家族模型共同代表该折叠类型。将所有模型组合到一起形成以超家族为单位的折叠类型模型集,简称超家族模型集。在用该模型集进行折叠类型识别时,序列的匹配的超家族模型所代表的折叠类型即是所测序列所属的折叠类型。扩充家族模型集:将一个折叠类型内未参加家族模型建模的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型。将所建的模型加入到家族模型集中组成扩充家族模型集。扩充超家族模型集:分为两个部分。①将由于样本量较大无法建立超家族模型集的超家族按家族进行随机分割使分割后的每个训练集中的晶体结构都能进行多结构比对。对分割后的训练集建立模型。②将一个折叠类型内未参加超家族模型建模和①过程的样本全部合并到一起,组成一个训练集,若训练集中的晶体结构样本量大于1,且该训练集能够进行多结构比对,则为该训练集建立隐马尔科夫模型。将①和②所建的模型加入到超家族模型集组成扩充超家族模型集。步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。自动化的识别可以不再需要人工的参与,减少因识别过程中人为因素造成的识别效果不佳。自动化识别包括两个部分:①折叠类型识别识别序列所属的折叠类型,用户只需提供待测的序列的信息,就可获得该序列所属的可能折叠类型。②模型集更新删除模型:可以删除错误或者过时的模型建立新模型:根据所提供的比对文件(.afasta形式),建立新的隐马尔科夫模型更本文档来自技高网...
一种基于氨基酸序列的蛋白质折叠类型识别方法

【技术保护点】
一种基于氨基酸序列的蛋白质折叠类型识别方法,其特征在于,包括以下步骤:步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。

【技术特征摘要】
1.一种基于氨基酸序列的蛋白质折叠类型识别方法,其特征在于,包括以下步骤:步骤1、为α,β,α/β,α+β四类蛋白分别以家族和超家族为单位建立隐马尔科夫模型,分别以家族和超家族为代表的折叠类型识别模型集,同时对两个模型集分别进行扩充形成扩充家族模型集和扩充超家族模型集;步骤2、根据所述折叠类型识别模型集,进行蛋白质折叠类型自动化识别。2.如权利要求1所述的基于氨基酸序列的蛋白质折叠类型识别方法,其特征在于,步骤1包括:第一步:确定好训练集,判断训练集是否满足条件,若满足条件则进行第二步,若不满足调整则对训练集进行调整,使其满足条件;第二步:对满足条件的训练集进行多结构比对;第三步:观察比对是否成功,若成功则进行第四步,若失败则对训练集进行调整,再进行多结构比对;第四步:提取比对结果中的序列比对信息;第五步:根据所提取比对信息进行模型构建;经过上述过程,一共建立了四个模型集;其中,家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构样本数量不少于两个的家族分别建立隐马尔科夫模型,采用属于一个折叠类型的家族模型共同代表该折叠类型,将所有模型组合到一起形成以家族为单位的折叠类型模型集,简称家族模型集,在采用该模型集进行折叠类型识别时,序列的匹配的家族模型所代表的折叠类型即是所测序列所属的折叠类型,超家族模型集:对α,β,α/β,α+β四类蛋白中晶体结构...

【专利技术属性】
技术研发人员:李晓琴景娅楠
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1