一种基于支持向量机的跨膜蛋白残基作用关系预测方法技术

技术编号:10854438 阅读:119 留言:1更新日期:2015-01-01 03:18
本发明专利技术涉及一种基于支持向量机的跨膜蛋白残基作用关系预测方法,所述方法包括以下步骤:步骤S100、提取用于训练的跨膜蛋白所包含的残基对特征作为训练集;步骤S200、基于SVM对所述训练集进行训练得到预测模型;步骤S300、提取待预测跨膜蛋白所包含的残基对特征作为测试集;步骤S400、将所述测试集输入所述预测模型,输出分数S;步骤S500、将S与预设阈值T进行比较,若S≥T,则判定所述待预测跨膜蛋白包含的残基对为作用对,否则判定为非作用对。本发明专利技术提出的预测跨膜蛋白残基对作用关系的方法在精确度与覆盖度上优于现有技术中的TMhit、MEMPACK以及SVMcon。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及,所述方法包括以下步骤:步骤S100、提取用于训练的跨膜蛋白所包含的残基对特征作为训练集;步骤S200、基于SVM对所述训练集进行训练得到预测模型;步骤S300、提取待预测跨膜蛋白所包含的残基对特征作为测试集;步骤S400、将所述测试集输入所述预测模型,输出分数S;步骤S500、将S与预设阈值T进行比较,若S≥T,则判定所述待预测跨膜蛋白包含的残基对为作用对,否则判定为非作用对。本专利技术提出的预测跨膜蛋白残基对作用关系的方法在精确度与覆盖度上优于现有技术中的TMhit、MEMPACK以及SVMcon。【专利说明】 【
】 本专利技术涉及。 【
技术介绍
】 蛋白质作为一切细胞和组织结构必不可少的构成成分,是人类生命活动最重要的 物质基础之一。跨膜蛋白是埋嵌在生物膜脂质双层中的一类蛋白质,作为生物膜的基本构 成成分,膜蛋白约占生命体中蛋白质的30%。膜蛋白的主要功能包括作为转运体、酶、用于 接受识别信号以及连接结构等,膜蛋白在生命体中占有不可忽略的比重并发挥着重要的作 用。目前已知的以及正在研究的药物靶点中,膜蛋白约占6〇%。由于膜蛋白结构的实验解析 难度较大,因此在蛋白质数据库(Protein Data Bank,PDB)中超过9万个的已知蛋白质结 构里,膜蛋白结构仅占1%。 目前解析蛋白质三维结构的生物学实验解析法主要有X-RAY法和NMR法,这两种 方法复杂、耗时,且花费较高。正因为实验解析法存在上述缺陷,使得计算方法的发展成为 必然。目前用于蛋白质三维结构预测的计算方法主要有同源模建法、折叠识别法和从头预 测法。Gromiha 和 Selvaraj 在文献"Inter-residue interactions in protein folding and stability"中证明了将残基作用关系应用到从头预测法中,不仅可以大大节约三维结 构的预测时间,还可以提高预测的精度。因此研究蛋白质残基的作用关系对预测蛋白质结 构有着重大的意义。 现有技术中存在大量关于球蛋白残基作用关系的预测方法,如Cheng等人提出的 SVMcon方法等。但鉴于己知的膜蛋白结构十分有限,因此目前用于跨膜蛋白残基作用对的 预测方法较少,例如Nugent与Jones提出的MEMPACK方法以及Lo等人提出的TMhit方法, 这些方法的精度和覆盖度都不理想。 【
技术实现思路
】 本专利技术旨在解决上述现有技术中存在的问题,提出一种基于支持向量机的跨膜蛋 白残基作用关系预测方法。 本专利技术提出,所述方法包 括以下步骤:步骤S100、提取用于训练的跨膜蛋白所包含的残基对特征作为训练集;步骤 S200、基于SVM对所述训练集进行训练得到预测模型;步骤S3〇0、提取待预测跨膜蛋白所包 含的残基对特征作为测试集;步骤S400、将所述测试集输入所述预测模型,输出分数S ;步 骤S500、将S与预设阈值T进行比较,若S > T,则判定所述待预测跨膜蛋白包含的残基对 为作用对,否则判定为非作用对。 本专利技术提出的预测跨膜蛋白残基对作用关系的方法在精确度与覆盖度上优于现 有技术中的TMhit、MEMPACK以及SVMcon。 【【专利附图】【附图说明】】 图1为本专利技术一实施例的基于支持向量机的跨膜蛋白残基作用关系预测方法流 程图。 图2为本专利技术方法与现有技术的实验结果对比图。 【【具体实施方式】】 为了使本专利技术的目的、技术方案及优点更加清晰,以下结合具体实施例及附图,对 本专利技术作进一步详细说明。应当理解,文中所描述的具体实施例仅仅用以解释本专利技术的技 术方案,而不应当理解为对本专利技术的限制。 本专利技术提供,其中所述跨 膜蛋白包含N个α螺旋个数,其中NS2。所述跨膜蛋白残基对包括两个残基,所述两个残 基分别位于两个 α螺旋上。如图1所示,所述基于支持向量机(Support Vector Machine, SVM)的跨膜蛋白残基作用关系预测方法包括以下步骤:步骤S100、提取用于训练的跨膜蛋 白所包含的残基对特征作为训练集;步骤S200、基于SVM对所述训练集进行训练得到预测 模型;步骤S300、提取待预测跨膜蛋白所包含的残基对特征作为测试集;步骤S400、将所述 测试集输入所述预测模型,输出分数S ;步骤S500、将S与预设阈值T进行比较,判定所述待 预测跨膜蛋白包含的残基对作用关系,若S多T,则判定所述待预测跨膜蛋白包含的残基对 为作用对,否则判定为非作用对。 下面对所述基于支持向量机的跨膜蛋白残基作用关系预测方法中的各个步骤作 进一步详细描述。 在步骤S100中,提取用于训练的跨膜蛋白所包含的残基对特征作为训练集。具体 地,从 PDBTM (Protein Data Bank of Transmembrane Proteins)中下载 α 跨跨膜蛋白的 非冗余数据集,共405个。为了进一步减少冗余性,可利用PISCES(http://dunbrack·fccc· edu/PISCES. php)实施去冗余,选取序列相关性小于35%的跨膜蛋白。经PSICES处理后的 列表中的跨膜蛋白链由原来的405个缩减为168个。由于残基作用对只存在于包含2个及 以上的α螺旋的跨膜蛋白中,因此又从包含168个跨膜蛋白链的列表中选出了 α螺旋个 数在2及其以上的跨膜蛋白链。最终得到了 116个符合标准的跨膜蛋白链,以其中2012年 及之前解析的95个结构作为训练集,之后解析得到的21个结构作为测试集。 优选地,所述残基对特征包括PSSM(Position_Specific Scoring Matrix,位置特 异性得分矩阵)特征。所述PSSM矩阵可通过运行PSI-BLAST (下载自http://blast.ncbi. nlm. nih. gov/Blast. cgi)得到,其中,所用数据库为UNIREF90,迭代次数为2,E-value截断 值为le-10。PSSM中的每个残基都由一个20维的向量表示,代表20种氨基酸分别在残基 对中两残基和其邻近残基中出现的概率。优选地,针对每一残基对(i,j ),分别提取以残基 i为中心的附近7个残基(包括残基i)、以残基j为中心的附近7个残基(包括残基j)共14 个残基的PSSM值,同时提取以残基(i+j)/2为中心的附近3个残基的PSSM值,因此对于每 一残基对,共获取(14+3) X 20=340个PSSM特征数据。 优选地,所述残基对特征包括亲脂性特征,可通过对所述残基对中两残基的原始 亲脂性特征值进行归一化求得所述亲脂性特征。具体地,所述原始亲脂性特征通过运行 LIPS (http://tanto_ bioengr. uic· edu/lips/)获取,可采用 Z-Score 法进行归一化,公式 为X' =(x-μ )/σ,其中,X为残基原始亲脂性特征值,μ为残基原始亲脂性特征值的均值, σ为残基原始亲脂性特征值的标准差。对于每一残基对,可获取2个所述亲脂性特征数据。 优选地,所述残基对特征包括残基在α螺旋中的相对位置特征,所述相对距离特 征代表所述残基对中两残基各自在α螺旋上的位置。对于每一残基对中的两残基,可获取 2个所述残基在α螺旋中的相对位置特征数据。 优选地,所述残基本文档来自技高网
...

【技术保护点】
一种基于支持向量机的跨膜蛋白残基作用关系预测方法,所述跨膜蛋白包含N个α螺旋个数,其中N≥2,所述方法包括以下步骤:步骤S100、提取用于训练的跨膜蛋白所包含的残基对特征作为训练集;步骤S200、基于SVM对所述训练集进行训练得到预测模型;步骤S300、提取待预测跨膜蛋白所包含的残基对特征作为测试集;步骤S400、将所述测试集输入所述预测模型,输出分数S;步骤S500、将S与预设阈值T进行比较,若S≥T,则判定所述待预测跨膜蛋白包含的残基对为作用对,否则判定为非作用对。

【技术特征摘要】

【专利技术属性】
技术研发人员:张慧玲陈春魏彦杰彭丰斌孟金涛贝振东
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有1条评论
  • 来自[北京市联通] 2015年01月17日 09:54
    英语:Residue
    0
1