用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品技术方案

技术编号:17746195 阅读:21 留言:0更新日期:2018-04-18 19:41
将用于预测蛋白质的至少一个适应度值的方法在计算机上执行,并且所述方法包括以下步骤:根据蛋白质数据库将所述蛋白质的氨基酸序列编码(100)成数值序列,所述数值序列包含序列中每个氨基酸的值;根据数值序列计算(110)蛋白质谱;以及对于每个适应度:将计算的蛋白质谱与预定数据库的蛋白质谱值进行比较(130),所述数据库包含针对所述适应度的不同值的蛋白质谱值,根据比较步骤预测(130)所述适应度的值。

【技术实现步骤摘要】
【国外来华专利技术】用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品本专利技术涉及用于预测蛋白质的至少一个适应度值(fitnessvalue)的方法和相关的电子系统,所述蛋白质包含氨基酸序列。本专利技术还涉及包括软件指令的计算机程序产品,所述程序产品被计算机执行,当被计算机执行时,所述程序产品执行这种方法。专利技术背景蛋白质是由至少一个氨基酸序列链组成的生物分子。蛋白质彼此相异主要在于它们的氨基酸序列,序列之间的差异被称为“突变”。蛋白质工程的最终目标之一是具有所需性质(统称为“适应度”)的肽、酶、蛋白质或氨基酸序列的设计和构建。用工程化的氨基酸置换、氨基酸的缺失或插入或氨基酸嵌段(嵌合蛋白质)修饰的氨基酸序列(即“突变体”)的构建允许评估任何特定氨基酸在适应度中的作用以及了解蛋白质结构与其适应度之间的关系。定量结构-功能/适应度关系分析的主要目的是调查和数学地描述蛋白质结构变化对其适应度的影响。突变的影响与不同氨基酸的物理化学和其它分子性质相关,并且可通过统计学分析来逼近。探索适应度景观,调查n个单点置换的所有可能的组合(排列)是一项非常困难的任务。确实,突变体的数量增加非常快(表1)。单点突变的数目突变体的数目24416664825610102412409614163841665536401.1x1012表1.针对n个突变的可能的突变体数目探索所有可能的突变体在实验上是困难的,特别是当n增加时。在实践中,在湿实验室中用单点置换产生突变体是相当容易和便宜的。对于它们中的每一个来说,适应度都可以很容易地表征。但在湿实验室中组合单点置换并不容易。产生被靶向的n个单点置换的所有可能的(2n)组合可以是非常荷求和昂贵的。大规模评估适应度是有问题的。已经开发了混合的体外和电脑模拟方法来帮助蛋白质的定向进化过程。它们需要从湿实验室(通过定点、随机或组合诱变)构建突变体文库,以从文库中检索有限数量样本的序列和/或结构(称为“学习数据集”)并评估每个取样突变体的适应度。它们还要求从电脑模拟提取每个突变体的描述符,以使用多变量统计方法来建立描述符和适应度(学习阶段)之间的关系,并建立模型来对未经实验测试的突变体进行预测。已经提出了基于3D结构的称为定量结构-功能关系(QFSR)的方法(DamborskyJ,Prot.Eng.(1998)Jan;11(1):21-30)。提出了仅基于序列而不基于3D结构并使用统计建模进行电脑模拟合理筛选的其它方法(FoxR.等,ProteinEng.(2003)16(8):589-97;FoxR.,JournalofTheoreticalBiology(2005),234:187–199;MinshullJ.等,CurrOpinChemBiol.2005Apr;9(2):202-9;FoxR.等,NatureBiotechnology(2007),25(3):338-344;FoxR.andHuismanGWTrendsBiotechnol.2008Mar;26(3):132-8)。最著名的是ProSAR(FoxR.,JournalofTheoreticalBiology(2005),234:187–199;FoxR.等,NatureBiotechnology(2007),25(3):338-344),其基于二进制编码(0或1)。QSFR方法是有效的,并且考虑到与非变体残基可能相互作用的信息。然而,QSFR需要目前仍然有限的关于3D蛋白质结构的信息,并且该方法还慢。相比之下,ProSAR不需要知道3D结构,因为它仅基于一级序列计算,并且可以使用线性和非线性模型。然而,ProSAR仍然有缺点,且其筛选能力有限。特别地,只有那些正在变化的残基被包括在建模中,因此,缺少关于突变残基和其他非变体残基之间可能的相互作用的信息。ProSAR依赖于不考虑氨基酸的物理化学或其他分子性质的突变的二进制编码(0或1)。另外,(i)可以测试的新序列只是在用于构建模型的学习集中使用的位置上具有突变或突变组合的序列;(ii)待筛选的新序列中突变的位置数目不能与训练集中的突变数目不同;和(iii)当在超级计算机上引入非线性项以建立模型时计算时间是非常长的(对于100个非线性项,直至2周)。因此,仍然需要通用且快速的电脑模拟方法来帮助蛋白质定向进化过程。本专利技术提供了满足这些要求并且基于数字信号处理(DSP)的方法。数字信号处理技术是分解和处理信号以揭示其中内含的信息的分析程序。信号可能是连续的(无休止的),或离散的诸如蛋白质残基。在蛋白质中,傅里叶变换方法已被用于生物序列(DNA和蛋白质)比较,蛋白质家族的表征和模式识别、分类和其它基于结构的研究(诸如对称性和重复结构单元或模式的分析,二级/三级结构的预测,疏水核心、基序、保守结构域的预测,膜蛋白的预测,保守区域的预测,蛋白质亚细胞定位的预测),用于氨基酸序列中二级结构含量的研究和用于蛋白质中的周期性的检测。最近提出了用于检测蛋白质结构中螺线管结构域的新方法。数字信号处理技术帮助了蛋白质相互作用的分析(CosicI.,IEEETransBiomedEng.(1994)41(12):1101-14),并使生物学功能性可计算。这些研究已在NwankwoN.和SekerH.(JProteomicsBioinform(2011)4(12):260-268)中进行了详细的综述。在这些方法中,首先使用来自数据库AAindex(Kawashima,S.和Kanehisa,M.NucleicAcidsRes.(2000),28(1):374;Kawashima,S等人,NucleicAcidsRes.Jan2008;36)的可用AAindex之一将蛋白质残基转化成数值序列,该数值序列代表每个氨基酸的生物化学性质或物理化学参数。然后通过离散傅立叶变换(DFT)处理这些数值序列,以信息谱的形式呈现蛋白质的生物学特征。该程序称为信息频谱法(ISM)(VeljkovicV.等,IEEETransBiomedEng.1985May;32(5):337-41)。ISM程序已被用于研究钙结合蛋白(ViariA.等,ComputApplBiosci.1990Apr;6(2):71-80)和流感病毒(VeljkovicV.,等BMCStructBiol.2009Apr7;9:21,VeljkovicV.等BMCStructBiol.2009Sep28;9:62)中的主要排列(principalarrangement)。采用称为电子-离子相互作用电位(EIIP)的氨基酸参数的ISM的变体被称为共振识别模型(RRM)。在该程序中,生物功能性被呈现为频谱特征。这种物理数学过程基于以下事实:具有相同生物学特性的生物分子在其价电子振荡并随后在电磁场中反射(reverberate)时识别它们自己并生物关联于(bio-attach)它们自己(CosicI.,IEEETransBiomedEng.(1994)41(12):1101-14;CosicI.,TheResonantRecognitionModelofMacromolecularBioactivityBirkhauserVerlag,1997)。共振识本文档来自技高网...
用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品

【技术保护点】
一种用于预测蛋白质的至少一个适应度值的方法,所述方法在计算机上执行,并且包括以下步骤:‑根据蛋白质数据库(51)将所述蛋白质的氨基酸序列编码(100)成数值序列,所述数值序列包含所述序列中的每个氨基酸的值;‑根据所述数值序列计算(110)蛋白质谱;以及对于每个适应度:‑将计算的蛋白质谱与预定数据库(55)的蛋白质谱值进行比较(130),所述数据库包含针对所述适应度的不同值的蛋白质谱值,‑根据比较步骤预测(130)所述适应度的值。

【技术特征摘要】
【国外来华专利技术】2015.04.14 EP 15305552.01.一种用于预测蛋白质的至少一个适应度值的方法,所述方法在计算机上执行,并且包括以下步骤:-根据蛋白质数据库(51)将所述蛋白质的氨基酸序列编码(100)成数值序列,所述数值序列包含所述序列中的每个氨基酸的值;-根据所述数值序列计算(110)蛋白质谱;以及对于每个适应度:-将计算的蛋白质谱与预定数据库(55)的蛋白质谱值进行比较(130),所述数据库包含针对所述适应度的不同值的蛋白质谱值,-根据比较步骤预测(130)所述适应度的值。2.根据权利要求1的方法,其中计算的蛋白质谱包括至少一个频率值,并将计算的蛋白质谱与每个频率值的所述蛋白质谱值进行比较。3.根据权利要求1或2的方法,其中,在所述蛋白质谱计算步骤期间,将傅立叶变换,诸如快速傅立叶变换,应用于编码步骤后的数值序列。4.根据权利要求3的方法,其中每个蛋白质谱验证以下方程式:其中j是蛋白质谱|fj|的指数;所述数值序列包括指示xk的N数值,其中0≤k≤N-1且N≥1;以及i定义虚数,使得i2=-1。5.根据前述权利要求中任一项的方法,其中,在所述编码步骤(100)期间,所述蛋白质数据库(51)包括生物化学或物理化学特性值的至少一个指数,每个特性值被赋予相应的氨基酸;以及其中,对于每个氨基酸,所述数值序列中的值等于给定的指数中所述氨基酸的特性值。6.权利要求5的方法,其中,在所述编码步骤(100)期间,所述蛋白质数据库(51)包括特性值的几个指数;以及其中所述方法还包括以下步骤:-基于样本蛋白质的测量的适应度值与根据每个指数对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指数;然后使用所选择的指数执行所述编码步骤(100)。7.权利要求6的方法,其中,在所述选择步骤期间,所选择的指数是具有最小均方根误差的指数,其中每个指数的均方根误差验证以下方程式:其中yi为第i个样本蛋白质的测量的适应度,为第i个样本蛋白质用第j个指数预测的适应度,且S为样本蛋白质的数量。8.权利要求6的方法,其中,在所述选择步骤期间,所选择的指数是决定系数最接近于1的指数,其中每个指数的决定系数验证以下方程式:

【专利技术属性】
技术研发人员:N·冯塔因F·卡德特
申请(专利权)人:皮阿赛勒公司
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1