鉴定具有相互作用的组分的生物分子的方法、系统和软件技术方案

技术编号:12487211 阅读:48 留言:0更新日期:2015-12-11 01:37
本发明专利技术提供了用于快速并有效搜索生物学上相关的数据空间的方法。更特别地,本发明专利技术提供了用于从复杂的生物分子文库或多组此类文库的中鉴定具有期望的特性的生物分子或最适于获得此类特性的生物分子的方法。本发明专利技术还提供了用于对序列-活性关系建模的方法,包括但不限于递加或递减技术(stepwise addition or substraction techniques)、贝叶斯回归、集成回归(ensemble regression)和其他方法。本发明专利技术还提供了用于执行本文提供的方法的数字化系统和软件。

【技术实现步骤摘要】
【国外来华专利技术】鉴定具有相互作用的组分的生物分子的方法、系统和软件相关申请的交叉引用该申请基于35U.S.C.§119(e)要求2013年1月31日提交的题为“鉴定具有相互作用的组分的生物分子的方法、系统和软件”的美国临时专利申请号61/759,276和2013年3月15日提交的题为“使用乘法型模型(MODELOFMULTIPLICATIVEFORM)鉴定生物分子的方法、系统和软件”的美国临时专利申请号61/799,377的权益,其被为了所有目的通过引用全部并入本文。
本公开内容涉及分子生物学、分子进化、生物信息学和数字化系统的领域。更具体地,本公开内容涉及用于通过计算预测生物分子的活性和/或指导定向进化的方法。还提供了用于执行这些方法的系统,包括数字化系统和系统软件。本公开内容的方法在优化用于工业和治疗用途的蛋白方面具备实用性。背景蛋白设计长久以来被认为是艰巨的任务,只因为一个原因,构成可搜索的序列空间的可能分子的激增。蛋白的序列空间是巨大的并且利用本领域已知的现有方法不可能探索详尽。由于这种复杂性,很多近似的方法已被用于设计更好的蛋白;其中首当其冲的是定向进化法。如今,蛋白的定向进化被通过往往迭代进行的多种高通量筛选和重组方式来主导。并行地,已提出了多种计算技术用于搜索序列-活性空间。虽然每种计算技术在特定情况下具有优势,但是有效地搜索序列空间以鉴定功能性蛋白的新方法是高度期望的。概述本公开内容展现了用于生成并利用序列-活性模型的技术,所述序列-活性模型使用非线性项,特别是解释序列中的两个或更多个亚单位之间的相互作用的项。序列-活性模型将生物分子的活性、特征或特性描述为多个生物序列的函数。这些非线性项可以是涉及两个或更多个变量的乘法的“交叉乘积”项,所述两个或更多个变量中的每一个代表参与相互作用的亚单位的存在(或不存在)。一些实施方案涉及选择最佳地描述序列的活性的非线性项的技术。注意,存在远多于亚单位之间存在的实际相互作用的可能的非线性交互作用项。因此,为了避免过度拟合,通常只有有限数目的非线性项被考虑并且所使用的那些非线性项应反映明显地影响活性的相互作用。本公开内容的一方面提供了制作序列-活性模型的方法,所述序列-活性模型能够帮助鉴定具有增强的期望活性的生物分子,所述方法包括:(a)接收针对多个生物分子的序列和活性数据;(b)由所述序列和活性数据制作基础模型,其中所述基础模型将活性预测为序列的亚单位的存在或不存在的函数;(c)通过对所述基础模型加上或减去至少一个新交互作用项来制作至少一个新模型,其中所述新交互作用项代表两个或更多个相互作用的亚单位之间的相互作用;(d)确定所述至少一个新模型将活性预测为亚单位的存在或不存在的函数的能力;和(e)基于在(d)中确定的所述至少一个新模型的预测活性的能力以及对添加新交互作用项的偏倚来决定是否对所述基础模型加上或减去所述新交互作用项。然后所得到的模型可被用于多种应用,诸如用于蛋白文库的定向进化以鉴定具有期望的生物活性和特性的蛋白。在一些实施方案中,其中所述方法确定了新的交互作用项应被添加至基础模型以产生更新的模型,所述方法还包括搜索能进一步改进更新的模型的另外的交互作用项的另外的步骤。特别地,所述方法包括:(f)使用更新的模型代替基础模型来重复(c),并加上或减去与(c)中加上或减去的交互作用项不同的交互作用项;以及(g)使用更新的模型代替基础模型来重复(d)和(e)。在一些实施方案中,所述方法还包括(h)使用另外的更新的模型重复(f)和(g)。在多个实施方案中,序列可以是完整的基因组、完整的染色体、染色体片段、对于相互作用的基因的基因序列的集合、基因、核酸序列、蛋白、多糖等。在一个或更多个实施方案中,序列的亚单位可以是染色体、染色体片段、单体型、基因、核苷酸、密码子、突变、氨基酸、碳水化合物(单体、二体、三体或寡聚)等。在符合实施方案的一个或更多个实施方式中,提供了用于找出蛋白变体文库中待被修饰的氨基酸残基的方法。在这些实施方案中,多个生物分子构成蛋白变体文库的训练组(trainingset)。蛋白变体文库可包括来自多种来源的蛋白。在一个实例中,成员包括天然存在的蛋白,诸如由一个基因家族的成员编码的蛋白。在另一个实例中,序列包括通过利用基于重组的多样性生成机制获得的蛋白。例如,可对编码用于该目的的一种或更多种天然存在的亲本蛋白的全长或部分的核酸进行DNA片段化介导的重组、合成的寡核苷酸介导的重组或其组合。又在另一个实例中,这些成员可通过实施鉴定系统地变异的(systematicallyvaried)序列的实验设计(DOE)方案获得。在一些实施方案中,至少一个交互作用项是交叉乘积项,包含代表一个相互作用残基的存在的一个变量和代表另一个相互作用残基的存在的另一个变量的乘积。序列-活性模型的形式可以是至少一个交叉乘积项和一个或更多个线性项的和,每个线性项代表蛋白变体文库的训练组中的可变残基的作用。所述至少一个交叉乘积项可通过包括递加或递减多个项(而不是置换)的多种技术从一组可能的交叉乘积项中选择。在一个或更多个实施方案中,利用贝叶斯回归技术,包括交叉乘积项的模型被应用至给定的数据,其中先前的知识被用于确定该模型的后验概率分布。在一个或更多个实施方案中,生成了两个或更多个新模型,其各自包括至少一个不同的交互作用项。在此类实施方案中,所述方法还包括制作基于两个或更多个新模型的集成模型。所述集成模型包括来自所述两个或更多个新模型的交互作用项。集成模型根据所述两个或更多个新模型预测感兴趣的活性的能力对交互作用项加权。序列-活性模型可通过很多不同的技术由训练组产生。在某些实施方案中,所述模型为回归模型,诸如偏最小二乘模型、贝叶斯回归模型或主成分回归模型。在另一个实施方案中,所述模型为神经网络。使用序列-活性模型鉴定固定的或变异的残基可涉及很多不同的可能的分析技术中的任一种。在一些情形中,“参考序列”被用来定义变异。此类序列可以是通过所述模型预测的具有期望活性的最高值(或多个最高值中的一个)的序列。在另一种情形中,参考序列可以是初始蛋白变体文库的成员。根据参考序列,所述方法可选择实现变异的子序列。另外地或可选地,序列-活性模型按影响期望的活性的次序排列残基的位置(或处于特定位置的特定残基)。该方法的一个目的可以是为了生成新的蛋白变体文库。作为该过程的一部分,该方法可鉴定待被用来生成该新的文库的序列。此类序列包括在以上(e)、(g)或(h)中鉴定的残基上的变异,或者此类序列是被用来随后引入这些变异的前体。这些序列可通过进行诱变或基于重组的多样性生成机制来修饰以生成新的蛋白变体文库。这可形成定向进化程序的一部分。新的文库还可被用于开发新的序列-活性模型。分析新的蛋白变体文库以评价对特定活性,诸如稳定性、催化活性、治疗活性、对病原体或毒素的耐受性、毒性等的影响。在一些实施方案中,所述方法涉及选择用于产生新的蛋白变体文库的一个或更多个成员。然后可在表达系统中合成和/或表达这些成员中的一个或更多个。在特定的实施方案中,所述方法以以下方式继续:(i)提供表达系统,新的蛋白变体文库的选定的成员可由该表达系统表达;以及(ii)表达新的蛋白变体文库的该选定的成员。在一些实施方案中,所本文档来自技高网...
鉴定具有相互作用的组分的生物分子的方法、系统和软件

【技术保护点】
一种用于鉴定影响期望活性的生物分子方法,所述方法包括:(a)接收针对多个生物分子的序列和活性数据;(b)由所述序列和活性数据制作基础模型,其中所述基础模型将活性预测为所述序列的亚单位的存在或不存在的函数;(c)通过对所述基础模型加上或减去至少一个新交互作用项来制作至少一个新模型,其中所述新交互作用项代表两个或更多个相互作用的亚单位之间的相互作用;(d)确定所述至少一个新模型将活性预测为所述亚单位的存在或不存在的函数的能力;以及(e)基于在(d)中确定的所述至少一个新模型的预测活性的能力以及对包括另外的新交互作用项的偏倚来决定是否对所述基础模型加上或减去所述新交互作用项。

【技术特征摘要】
【国外来华专利技术】2013.01.31 US 61/759,276;2013.03.15 US 61/799,3771.一种用于鉴定影响期望活性的生物分子方法,所述方法包括:(a)接收针对多个生物分子的序列和活性数据;(b)由所述序列和活性数据制作基础模型,其中所述基础模型将活性预测为所述序列的亚单位的存在或不存在的函数,并且所述基础模型不包括来自限定的交互作用项集合的交互作用项;(c)制作多个新模型,其中每个新模型通过从所述限定的交互作用项集合选择交互作用项并将所选择的交互作用项加入到所述基础模型来获得,以使得每个新模型包括单个交互作用项;(d)确定所述多个新模型将所述活性预测为所述亚单位的存在或不存在的函数的能力;(e)基于在(d)中确定的每个新模型的预测活性的能力以及每个新模型对包括另外的交互作用项的偏倚在所述多个新模型中鉴定至少一个最佳模型;(f)使用所述至少一个最佳模型代替所述基础模型来重复(c),并加上与(c)中加上的交互作用项不同的交互作用项;(g)使用所述至少一个最佳模型代替所述基础模型来重复(d)和(e);以及(h)重复(f)和(g)一次或更多次。2.一种用于鉴定影响期望活性的生物分子方法,所述方法包括:(a)接收针对多个生物分子的序列和活性数据;(b)由所述序列和活性数据制作基础模型,其中所述基础模型将活性预测为所述序列的亚单位的存在或不存在的函数并且所述基础模型包括限定的交互作用项集合内的所有交互作用项;(c)制作多个新模型,其中每个新模型通过从所述限定的交互作用项集合选择交互作用项并从所述基础模型减去所选择的交互作用项来获得,以使得每个新模型包含所述限定的集合内少一个的所有交互作用项;(d)确定所述多个新模型将所述活性预测为所述亚单位的存在或不存在的函数的能力;(e)基于在(d)中确定的每个新模型预测活性的能力以及每个新模型对包括另外的交互作用项的偏倚在所述多个新模型中鉴定至少一个最佳模型;(f)使用所述至少一个最佳模型代替所述基础模型来重复(c),并减去与(c)中减去的交互作用项不同的交互作用项;(g)使用所述至少一个最佳模型代替所述基础模型来重复(d)和(e);以及(h)重复(f)和(g)一次或更多次。3.根据权利要求1或2所述的方法,其中(c)中的制作所述多个新模型包括利用先验信息来确定所述多个新模型的后验概率分布。4.根据权利要求3所述的方法,其中制作基础模型和/或所述多个新模型包括利用吉布斯抽样使模型符合所述序列和活性数据。5.根据权利要求1或2所述的方法,其中所述至少一个最佳模型包括各自包含不同的交互作用项的两个或更多个最佳模型。6.根据权利要求5所述的方法,所述方法还包括基于所述两个或更多个新模型制作集成模型,其中所述集成模型包括来自所述两个或更多个最佳模型的交互作用项,并且所述交互作用项通过(d)中确定的所述两个或更多个最佳模型预测活性的能力被加权。7.根据权利要求1或2所述的方法,其中(d)中的所述多个新模型预测活性的能力通过赤池信息准则或贝叶斯信息准则来测量。8.根据权利要求1或2所述的方法,其中所述序列为完整的基因组、完整的染色体、染色体片段、对于相互作用基因的基因序列的集合、基因或蛋白。9.根据权利要求1或2所述的方法,其中所述亚单位为染色体、染色体片段、单体型、基因、核苷酸、密码...

【专利技术属性】
技术研发人员:格雷戈里·艾伦·科普
申请(专利权)人:科德克希思公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1