基于反馈式条件随机场的G蛋白偶联受体拓扑计算预测方法技术

技术编号:11644860 阅读:87 留言:0更新日期:2015-06-25 04:00
本发明专利技术涉及一种基于反馈式条件随机场的G蛋白偶联受体拓扑计算预测方法,该预测方法包括:(1)数据集准备;(2)数据预处理;(3)反馈式条件随机场,包括三个阶段:(31)基本条件随机场模型,(32)反馈式条件随机场框架,(33)反馈机制与算法。本发明专利技术的GPCR的拓扑结构进行预测的方法是基于反馈式基本条件随机场模型(FCRF);基于条件随机场的联合概率模型,不需要对观察序列进行独立性假设,从而解决隐马尔可夫模型的局部最优问题;其次,本发明专利技术改进了基本条件随机场方法,引入了反馈机制,在不断的反馈中自我完善条件随机场的建模能力,从而最终提高GPCR拓扑的预测精度。

【技术实现步骤摘要】

本专利技术属于G蛋白偶联受体预测领域,具体涉及一种基于反馈式条件随机场的G 蛋白欧联受体拓扑计算预测方法。
技术介绍
G蛋白偶联受体(G Protein-Coupled Receptor,GPCR)是一类具有7个跨膜螺旋 的受体蛋白质,其跨膜区域拓扑示意如图1所示。GPCR因能结合和调节G蛋白活性而得名, GPCR负责细胞与外部环境之间的信息传输,是一类非常重要的信号分子受体,对生物与药 物研宄有着重要的作用。但由于经典的X射线衍射方法与核磁共振(NMR)实验方法对GPCR 都失效了,到2015年3月,实验仅确定了 24个GPCR及配体的高精度三维结构。由此,急需 发展快速有效的计算机模拟方法来探索GPCR的结构。其中,关于确定GPCR拓扑的研宄成 为了开启GPCR结构与功能关系的钥匙,已成为当前该领域的热点。 GPCR结构拓扑预测是指以GPCR氨基酸序列作为输入,输出各氨基酸的结构拓扑 状态标签。典型的结构拓扑状态有:哪些区域是跨膜螺旋,哪些区域是卷曲;区分哪些是膜 内螺旋,哪些是膜外螺旋。Sikander Hayat与Arne Elofsson开发了一种名称为B0CT0PUS 的拓扑预测方法,B0CT0PUS的结构由两层组成(图2),第一层包括三个支持向量机来预测 本地偏好的残基是在一个特定的位置;第二层由该预测的拓扑的HMM模型。数据集被分成 10组,使得属于同一超家族蛋白是在同一组;在训练期间,9组用于测试的第10组的性能。 三个支持向量机,如图2中的A部分,用LIBSVM实现,以确定每个残基的偏好是在" I ","0" 或"M"的区域。尝试了径向基和线性内核,不同的窗口尺寸在1-31的范围内进行尝试。最 优窗口大小基于所述最高相关马氏系数(MCC)来确定。从三个支持向量机产生的概率产生 " IOM数据"被用作输入用于训练的HMM参数的不同组合。在B0CT0PUS使用的HMM,结构示 于图2中的B部分,描述了全局拓扑的HMM包括一个预测阶段的描述第一跨膜之前该区域 β链被检测。另外,TMB由四个不同的状态分别代表内环,外环和向上和向下链中所定义。 生物信息中常用的有监督与无监督学习方法,如:隐马尔可夫模型、神经网络、支 持向量机、动态贝叶都曾被使用于拓扑的预测。这些方法虽然预测结果都取得了一定的效 果,但很难有进一步的提尚。 现有的这些方法主要存在两个问题:第一,现有学习方法难以建模蛋白质序列的 全局相关性特点。隐马尔可夫模型作为一种产生式模型,是基于观察序列和状态序列的联 合概率密度的,隐马尔可夫模型的独立性假设使其不能考虑上下文的特征,这就限制了特 征的选择。同时,GPCR序列的多样性和相关性也使得基于隐马尔可夫模型的方法难以对 远距离残基的关系进行建模。最大熵模型解决了隐马尔可夫模型中的特征值选取的问题, 但同时也带来了标记偏见的问题一凡是训练集中未出现的情况都被忽略掉。条件随机场 (CRF)则不存在上述问题,和隐马尔可夫模型不同,条件随机场是一种概率图模型,不需要 对观察序列进行独立性假设,也就克服了隐马尔可夫模型局部最优的问题。条件随机场已 经被成功的应用于自然语言处理和生物信息处理等领域。 第二,现有模型难以进行自我改善,缺乏一个有效的反馈机制。在特征数量一定的 情况下,通过反馈机制可以把结果作为特征,增加了条件随机场的可用知识。高层模型及时 获取低层模型的结果,可以根据新的结果特征构建模型,及时纠正过高或过低估计的问题, 从而提高预测精度。
技术实现思路
为解决上述技术问题,本专利技术提供了一种反馈式基本条件随机场模型(FCRF)用 于对GPCR的拓扑结构进行预测。基于条件随机场的联合概率模型,不需要对观察序列进行 独立性假设,从而解决隐马尔可夫模型的局部最优问题;其次,本专利技术改进了基本条件随机 场方法,引入了反馈机制,在不断的反馈中自我完善条件随机场的建模能力,从而最终提高 GPCR拓扑的预测精度。 为达到上述目的,本专利技术的技术方案如下: -种基于反馈式条件随机场的G蛋白偶联受体拓扑计算预测方法,该预测方法包 括: (1)数据集准备:准备TMPDB_FB和roBTM_FB两个数据集,所述TMPDB_FB包含从 TMPB中选取的106条不同的α螺旋链,所述TOBTM_FB包含从TOBTM中选取的472条非冗 余的α螺旋链; (2)数据预处理:对所述数据集进行归一化,把残基的物理属性值和轮廓特征属 性值的值域映射到区间; (3)反馈式条件随机场,包括三个阶段: (31)基本基本条件随机场模型:条件随机场理论,标记序列Y和给定观察序列X 之间的条件概率分布如式(1)所示:【主权项】1. 一种基于反馈式条件随机场的G蛋白偶联受体拓扑计算预测方法,其特征在于,该 预测方法包括: (1) 数据集准备:准备TMPDB_FB和H)BTM_FB两个数据集,所述TMPDB_FB包含从TMPB 中选取的106条不同的α螺旋链,所述TOBTM_FB包含从TOBTM中选取的472条非冗余的 α螺旋链; (2) 数据预处理:对所述数据集进行归一化,把残基的物理属性值和轮廓特征属性值 的值域映射到区间; (3) 反馈式条件随机场,包括三个阶段: (31) 基本条件随机场模型:条件随机场理论,标记序列Y和给定观察序列X之间的条 件概率分布如式(1)所示: PffIX) = βχρ(Σ? Σ; t; {¥_,, J-0 + Σι Ii μ μ] (yt-x,0) (I) 其中,t^yg,yi,X,i)是一个关于整个观察序列和标记序列中在i和i-l位置上的标 记的转换特征函数,Sj(yi,X,i)是一个关于在i位置上的标记和整个观察序列的状态特征 函数,\和\中的j是特征序数,以表示不同的特征值,参数λ μ ^于特征、_和\相对 应,是通过学习得到的,Z(X)是归一化因子,它保证了式(1)中所有分布值的和为1 ; (32) 反馈式条件随机场框架:在反馈式条件随机场中,将低层模型的预测结果反馈给 高层模型,高层模型将从低层模型中提取的反馈特征作为自己模型特征的一部分,来构建 新的模型; (33) 反馈机制与算法:反馈特征的计算用公式2表示,Ti,j= P(M|Uk,j)八# Uk,j⑵, 即Fu所对应的反馈特征T u等于在区间Ulu条件下低层模型的预测标记为M的概率,其中 Um,Ulu中的j用于标识所在的列;得到反馈特征后,将其添加到归一化后的文件中, 特征值Tu所在的行为i,列不是j,将特征值放在非反馈特征值Fu的旁边,再通过分割和 合并,生成了高层模型的训练集和测试集。2. 根据权利要求1所述的基于反馈式条件随机场的G蛋白偶联受体拓扑计算预测方 法,其特征在于,步骤(2)中所述的数据预处理包括四步: (21) 标记转换:标记集大小为2,定义标记集合L= {N,M},其中N表示该残基非跨膜, M则表示该残基跨膜; (22) 特征提取:包括原始特征和反馈特征两种,所述原始特征包括残基的物理特征和 轮廓特征,所述反馈特征从预测结果中提取; (23) 归一化:将残基的物理特征属性值和轮廓特征属性值的取值区间进行归一化,将 特征值值域映射到区间中; (24) 训练集和测试集生本文档来自技高网
...
基于反馈式条件随机场的G蛋白偶联受体拓扑计算预测方法

【技术保护点】
一种基于反馈式条件随机场的G蛋白偶联受体拓扑计算预测方法,其特征在于,该预测方法包括:(1)数据集准备:准备TMPDB_FB和PDBTM_FB两个数据集,所述TMPDB_FB包含从TMPB中选取的106条不同的α螺旋链,所述PDBTM_FB包含从PDBTM中选取的472条非冗余的α螺旋链;(2)数据预处理:对所述数据集进行归一化,把残基的物理属性值和轮廓特征属性值的值域映射到[0,1]区间;(3)反馈式条件随机场,包括三个阶段:(31)基本条件随机场模型:条件随机场理论,标记序列Y和给定观察序列X之间的条件概率分布如式(1)所示:P(Y|X)=1z(X)exp(ΣiΣjλjtj(yi-1,yi,x,i)+ΣiΣjμjsj(yi,x,i))---(1)]]>其中,tj(yi‑1,yi,x,i)是一个关于整个观察序列和标记序列中在i和i‑1位置上的标记的转换特征函数,sj(yi,x,i)是一个关于在i位置上的标记和整个观察序列的状态特征函数,tj和sj中的j是特征序数,以表示不同的特征值,参数λj和μj于特征tj和sj相对应,是通过学习得到的,Z(X)是归一化因子,它保证了式(1)中所有分布值的和为1;(32)反馈式条件随机场框架:在反馈式条件随机场中,将低层模型的预测结果反馈给高层模型,高层模型将从低层模型中提取的反馈特征作为自己模型特征的一部分,来构建新的模型;(33)反馈机制与算法:反馈特征的计算用公式2表示,Ti,j=P(M|Uk,j),Fi,j∈Uk,j(2),即Fi,j所对应的反馈特征Ti,j等于在区间Uk,j条件下低层模型的预测标记为M的概率,其中Fi,j∈Uk,j,Uk,j中的j用于标识所在的列;得到反馈特征后,将其添加到归一化后的文件中,特征值Ti,j所在的行为i,列不是j,将特征值放在非反馈特征值Fi,j的旁边,再通过分割和合并,生成了高层模型的训练集和测试集。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈石敏吴宏杰陆卫忠王坤胡伏原付保川
申请(专利权)人:苏州科技学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1