当前位置: 首页 > 专利查询>刘滨专利>正文

基于条件随机场的固有无序蛋白质的识别方法技术

技术编号:20007258 阅读:40 留言:0更新日期:2019-01-05 18:45
本发明专利技术提供了一种基于条件随机场的固有无序蛋白质的识别方法,利用蛋白质的进化信息、氨基酸组成信息、二级结构信息和相对溶剂可及性信息,结合条件随机场构建了固有无序蛋白质识别方法IDP‑CRF。对生物序列的位点进行预测,如何包含位点标签之间的依赖关系一直是重要的问题,也是基于传统的分类算法构建的识别方法不能解决的问题。此外,采用生物序列中提取的丰富的数值型特征也是提高方法性能的关键。所以,本发明专利技术采用了能够处理数值型特征的条件随机场算法构建预测模型。该模型不仅能够包含位点标签之间的依赖关系,而且能够处理数值型特征,从而进一步提高预测性能。

Recognition of intrinsic disordered proteins based on conditional random fields

The invention provides a method for identifying intrinsic disordered proteins based on conditional random fields. By using the information of protein evolution, amino acid composition, secondary structure and relative solvent accessibility, an intrinsic disordered protein recognition method IDP_CRF is constructed by combining conditional random fields. Predicting the loci of biological sequence, how to include the dependency relationship between locus tags has always been an important problem, and it is also a problem that cannot be solved by the recognition method based on traditional classification algorithm. In addition, the use of abundant numerical features extracted from biological sequences is also the key to improve the performance of the method. Therefore, the present invention adopts conditional random field algorithm which can deal with numerical characteristics to construct prediction model. The model can not only contain the dependencies between locus tags, but also deal with numerical features, thus further improving the prediction performance.

【技术实现步骤摘要】
基于条件随机场的固有无序蛋白质的识别方法
本专利技术涉及生物信息学
,尤其涉及一种固有无序蛋白质的识别方法。
技术介绍
大部分固有无序蛋白质的识别方法是基于传统的分类算法构建的,例如支持向量机、随机森林、前馈神经网络等等。这类方法首先要利用滑动窗口技术将蛋白质序列切分为一系列的子序列,子序列中间的氨基酸为目标氨基酸(也就是待预测的氨基酸)。然后基于这些子序列提取特征,最后利用分类算法对每个子序列进行预测(也就是对目标氨基酸进行预测)。除此之外,还包括基于标注算法条件随机场CRF构建的只能处理字符型特征的识别方法。该方法是将蛋白质一级序列及其预测的二级结构序列利用特征模板转换为一系列的特征,基于这些特征利用条件随机场对目标氨基酸进行标注。PDB数据库和DisProt数据库是存储固有无序蛋白质的两个重要的数据库,而且近年来更新的速度较快。但是已有的预测模型的训练集大多数是根据旧版本的数据库中的蛋白质构建的。这样导致了预测模型没有包含最新的蛋白质序列,从而影响模型的泛化能力。此外,在一条蛋白质中,相邻的氨基酸在是否会形成固有无序状态方面具有相似的特征。但是基于传统的分类算法构建的预测本文档来自技高网...

【技术保护点】
1.一种基于条件随机场的固有无序蛋白质的识别方法,其特征在于:所述方法包括以下步骤:S1、构建条件随机场模型的特征,所述特征包括转移特征和状态特征;状态特征的构建首先要利用滑动窗口技术将蛋白质序列切割为一系列的子序列,然后对每个目标氨基酸构建其状态特征,即窗口内的进化信息特征和氨基酸组成特征、以及目标氨基酸的二级结构特征和相对溶剂可及性特征;S2、采用能够处理数值型特征的条件随机场软件,训练模型;在训练的过程中,首先要构建一定比例的正负样本集,构建的方法为随机去掉负样本,采用的平衡比例为正样本:负样本=1:2;S3、对训练集执行步骤S1以输入到条件随机场模型中,训练模型参数;S4、对测试集执行...

【技术特征摘要】
1.一种基于条件随机场的固有无序蛋白质的识别方法,其特征在于:所述方法包括以下步骤:S1、构建条件随机场模型的特征,所述特征包括转移特征和状态特征;状态特征的构建首先要利用滑动窗口技术将蛋白质序列切割为一系列的子序列,然后对每个目标氨基酸构建其状态特征,即窗口内的进化信息特征和氨基酸组成特征、以及目标氨基酸的二级结构特征和相对溶剂可及性特征;S2、采用能够处理数值型特征的条件随机场软件,训练模型;在训练的过程中,首先要构建一定比例的正负样本集,构建的方法为随机去掉负样本,采用的平衡比例为正样本:负样本=1:2;S3、对训练集执行步骤S1以输入到条件随机场模型中,训练模型参数;S4、对测试集执行步骤S1后输入到条件随机场模型中,得到识别结果。2.根据权利要求1所述的方法,其特征在于:假设氨基酸的标签集合为L={有序,无序},则转移特征如下式所示:其中yi-1和yi是蛋白质序列中位置在i-1和i的氨基酸的标签,y和y′属于L。3.根据权利要求1所述的方法,其特征在于:所述方法基于MobiDB数据库和DisProt数据库构建数据集,并基于此数据集构建预测模型。4.根据权利要求1所述的方法,其特征在于:窗口内的进化信息的构建过程为:首先利用PSI-B...

【专利技术属性】
技术研发人员:刘滨刘羽朦
申请(专利权)人:刘滨
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利