The invention provides a method for identifying intrinsic disordered proteins based on conditional random fields. By using the information of protein evolution, amino acid composition, secondary structure and relative solvent accessibility, an intrinsic disordered protein recognition method IDP_CRF is constructed by combining conditional random fields. Predicting the loci of biological sequence, how to include the dependency relationship between locus tags has always been an important problem, and it is also a problem that cannot be solved by the recognition method based on traditional classification algorithm. In addition, the use of abundant numerical features extracted from biological sequences is also the key to improve the performance of the method. Therefore, the present invention adopts conditional random field algorithm which can deal with numerical characteristics to construct prediction model. The model can not only contain the dependencies between locus tags, but also deal with numerical features, thus further improving the prediction performance.
【技术实现步骤摘要】
基于条件随机场的固有无序蛋白质的识别方法
本专利技术涉及生物信息学
,尤其涉及一种固有无序蛋白质的识别方法。
技术介绍
大部分固有无序蛋白质的识别方法是基于传统的分类算法构建的,例如支持向量机、随机森林、前馈神经网络等等。这类方法首先要利用滑动窗口技术将蛋白质序列切分为一系列的子序列,子序列中间的氨基酸为目标氨基酸(也就是待预测的氨基酸)。然后基于这些子序列提取特征,最后利用分类算法对每个子序列进行预测(也就是对目标氨基酸进行预测)。除此之外,还包括基于标注算法条件随机场CRF构建的只能处理字符型特征的识别方法。该方法是将蛋白质一级序列及其预测的二级结构序列利用特征模板转换为一系列的特征,基于这些特征利用条件随机场对目标氨基酸进行标注。PDB数据库和DisProt数据库是存储固有无序蛋白质的两个重要的数据库,而且近年来更新的速度较快。但是已有的预测模型的训练集大多数是根据旧版本的数据库中的蛋白质构建的。这样导致了预测模型没有包含最新的蛋白质序列,从而影响模型的泛化能力。此外,在一条蛋白质中,相邻的氨基酸在是否会形成固有无序状态方面具有相似的特征。但是基于传统 ...
【技术保护点】
1.一种基于条件随机场的固有无序蛋白质的识别方法,其特征在于:所述方法包括以下步骤:S1、构建条件随机场模型的特征,所述特征包括转移特征和状态特征;状态特征的构建首先要利用滑动窗口技术将蛋白质序列切割为一系列的子序列,然后对每个目标氨基酸构建其状态特征,即窗口内的进化信息特征和氨基酸组成特征、以及目标氨基酸的二级结构特征和相对溶剂可及性特征;S2、采用能够处理数值型特征的条件随机场软件,训练模型;在训练的过程中,首先要构建一定比例的正负样本集,构建的方法为随机去掉负样本,采用的平衡比例为正样本:负样本=1:2;S3、对训练集执行步骤S1以输入到条件随机场模型中,训练模型参数 ...
【技术特征摘要】
1.一种基于条件随机场的固有无序蛋白质的识别方法,其特征在于:所述方法包括以下步骤:S1、构建条件随机场模型的特征,所述特征包括转移特征和状态特征;状态特征的构建首先要利用滑动窗口技术将蛋白质序列切割为一系列的子序列,然后对每个目标氨基酸构建其状态特征,即窗口内的进化信息特征和氨基酸组成特征、以及目标氨基酸的二级结构特征和相对溶剂可及性特征;S2、采用能够处理数值型特征的条件随机场软件,训练模型;在训练的过程中,首先要构建一定比例的正负样本集,构建的方法为随机去掉负样本,采用的平衡比例为正样本:负样本=1:2;S3、对训练集执行步骤S1以输入到条件随机场模型中,训练模型参数;S4、对测试集执行步骤S1后输入到条件随机场模型中,得到识别结果。2.根据权利要求1所述的方法,其特征在于:假设氨基酸的标签集合为L={有序,无序},则转移特征如下式所示:其中yi-1和yi是蛋白质序列中位置在i-1和i的氨基酸的标签,y和y′属于L。3.根据权利要求1所述的方法,其特征在于:所述方法基于MobiDB数据库和DisProt数据库构建数据集,并基于此数据集构建预测模型。4.根据权利要求1所述的方法,其特征在于:窗口内的进化信息的构建过程为:首先利用PSI-B...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。