使用相乘形式的模型鉴定生物分子的方法、系统和软件技术方案

技术编号:20392672 阅读:19 留言:0更新日期:2019-02-20 03:59
本申请提供了用于从复杂的生物分子文库或此类文库的组鉴定具有期望的特性或最适于获得此类特性的生物分子的方法。更特别地,本申请的一些实施方案提供了建立包含相乘项的序列‑活性模型并利用这些模型指导定向进化的方法。在一些实施方案中,这些序列‑活性模型包括一个或更多个交互作用项,其每个包括表示两个或更多个特定残基对活性的贡献的交互作用系数。在一些实施方案中,这些模型描述了蛋白或核酸序列与蛋白活性之间的关系。在一些实施方案中,本申请还提供了用于制作序列‑活性模型的方法,包括但不限于递加或递减技术(stepwise addition or subtraction technique)、贝叶斯回归、集成回归和其他方法。本申请还提供了用于执行本文提供的方法的数字化系统和软件。

【技术实现步骤摘要】
使用相乘形式的模型鉴定生物分子的方法、系统和软件本申请是申请日为2014年1月29日,申请号为201480019389.2,专利技术名称为“使用相乘形式的模型鉴定生物分子的方法、系统和软件”的申请的分案申请。相关申请的交叉引用该申请基于35U.S.C.§119(e)要求2013年1月31日提交的题为“鉴定具有相互作用的组分的生物分子的方法、系统和软件”的美国临时专利申请号61/759,276和2013年3月15日提交的题为“使用乘法型模型(MODELOFMULTIPLICATIVEFORM)鉴定生物分子的方法、系统和软件”的美国临时专利申请号61/799,377的权益,其被为了所有目的通过引用全部并入本文。背景本公开内容涉及分子生物学、分子进化、生物信息学和数字化系统的领域。更具体地,本公开内容涉及用于通过计算预测生物分子的活性和/或指导定向进化的方法。还提供了用于执行这些方法的系统,包括数字化系统和系统软件。本公开内容的方法在优化用于工业和治疗用途的蛋白方面具备实用性。蛋白设计长久以来被认为是艰巨的任务,只因为一个原因,构成可搜索的序列空间的可能分子的激增。蛋白的序列空间是巨大的并且利用本领域已知的现有方法不可能探索详尽。由于这种复杂性,很多近似的方法已被用于设计更好的蛋白;其中首当其冲的是定向进化法。如今,蛋白的定向进化被通过往往迭代进行的多种高通量筛选和重组方式来主导。并行地,已提出了多种计算技术用于搜索序列-活性空间。虽然每种计算技术在特定情况下具有优势,但是有效地搜索序列空间以鉴定功能性蛋白的新方法是高度期望的。概述本专利技术提供了用于从复杂的生物分子文库或此类文库的组鉴定具有期望的特性或最适于获得此类特性的生物分子的方法。更特别地,本专利技术的一些实施方案提供了建立包括多个相乘项的乘积的序列-活性模型并利用该模型指导定向进化的方法。模型的形式本文公开的一些实施方案提供了用于建立序列-活性模型的方法。每个模型包括多个相乘项的乘积。所述相乘项中的至少一些为非交互作用相乘项,其每个包含代表特定的氨基酸或核苷酸对感兴趣的活性的贡献的系数。所述特定氨基酸或核苷酸在蛋白或和核酸序列中特定位置处具有特定的残基类型。每个非交互作用相乘项还包括自变量(通常只有一个自变量),其可采取哑变量的形式。自变量代表了在特定的序列位置处特定类型的特定氨基酸或核苷酸的存在或不存在。这些相乘项被称为非交互作用项,因为其每一个代表了蛋白或核酸序列中单个位置处的单个残基的贡献。非交互作用项形式的自变量不代表两个或更多个相互作用残基。另外,一些实施方案中的每个序列-活性模型包括代表蛋白变体的活性的因变量,其中模型描述蛋白变体的活性和多个相乘项的乘积之间的关系。在本专利技术的一些实施方案中,序列-活性模型还包括多个交互作用项,每个交互作用项包括代表(i)蛋白序列中第一位置处的第一氨基酸或核苷酸和(ii)蛋白序列中第二位置处的第二氨基酸或核苷酸的特定组合对活性的贡献的交互作用系数。通过交互作用系数代表的贡献是独立的并且不同于第一残基和第二残基中的每个的单独贡献。在一些实施方案中,模型通过相乘组合交互作用项。在一些实施方案中,模型通过相加组合交互作用项。在一些实施方案中,模型通过相乘或相加将交互作用项与非交互作用相乘项组合。在一些实施方案中,模型单纯地相乘,将非交互作用项和交互作用项组合成一个乘积。在其他实施方案中,模型包括通过加法与一个或更多个其他项组合的多个项的至少一个乘积。在本专利技术的一些实施方案中,序列-活性模型具有相加形式,所述相加形式包括一个或更多个非交互作用项和至少一个交互作用项的和。在与相加模型有关的背景下,非交互作用项也被称为线性项,而交互作用项也被称为非线性项或交叉乘积项。每个非交互作用项代表特定序列位置处特定类型的特定残基在蛋白变体文库的训练组中的存在。所述至少一个交互作用项是交叉乘积项,其包含代表一个相互作用残基的存在的一个变量和代表另一个相互作用残基的存在的另一个变量的乘积。在一些实施方案中,非交互作用相乘项和/或交互作用项具有(系数×自变量)的形式。在其他实施方案中,这些项采取(1+系数×自变量)的形式。当保持模型的相乘性质的情况下,本领域技术人员可采用其它的项表达式。在一些实施方案中,系数被提供于查阅表中。在一些实施方案中,所述方法采用核苷酸序列产生这些模型并预测活性,而不使用氨基酸序列。多组核苷酸例如密码子中的变异影响这些核苷酸序列编码的多肽的活性。在一些实施方案中,所述模型可提供取决于所采用的表达肽的宿主的对优先表达(与编码相同氨基酸的其他密码子相比)的密码子的偏好。在一些实施方案中,提供了用于定向进化的方法。虽然定向进化可被应用于蛋白或编码蛋白的核酸,但是在一些情况中,定向进化被应用于上述生物分子和蛋白之外的生物分子。在此类实施方案中,序列-活性模型可被用来表征多个生物分子的活性和序列之间的关系。例如,序列可以是完整的基因组、完整的染色体、染色体片段、相互作用基因的基因序列的集合、基因、核酸序列、蛋白、多糖等的序列。在一个或更多个实施方案中,序列的亚单位可以是染色体、染色体片段、单体型、基因、核苷酸、密码子、突变、氨基酸、碳水化合物(单体碳水化合物、二体碳水化合物、三体碳水化合物或寡聚碳水化合物)、脂质等。在一些实施方案中,用于生物分子的定向进化的方法可如下表征:(a)获得针对多个生物分子的序列和活性数据,每个生物分子包含具有多种类型的亚单位和序列位置的序列;(b)从所获得的数据构建序列-活性模型,其中所述序列-活性模型将活性预测为亚单位的类型和序列位置的函数,所述序列-活性模型包含多个非交互作用相乘项的乘积,每个非交互作用相乘项包括(1)代表特定序列位置处特定类型的特定亚单位的存在/不存在的哑变量,和(2)代表所述特定亚单位对活性的贡献的系数;以及(c)使用所述序列-活性模型鉴定影响生物分子的期望活性的用于变异的特定位置处的特定类型的一个或更多个亚单位。建立和优化模型在符合以上的实施方案的一个或更多个实施中,用于生成序列活性模型的训练组源自多个蛋白变体,所述多个蛋白变体可作为蛋白文库被提供。蛋白变体文库可包括来自多种来源的蛋白。在一个实例中,成员包括天然存在的蛋白,诸如由一个基因家族的成员编码的蛋白。在另一个实例中,序列包括通过利用基于重组的多样性生成机制获得的蛋白。例如,可对编码用于该目的的一种或更多种天然存在的亲本蛋白的全长或部分的核酸进行DNA片段化介导的重组、合成的寡核苷酸介导的重组或其组合。又在另一个实例中,这些成员可通过实施鉴定系统地变异的(systematicallyvaried)序列的实验设计(DOE)方案获得。在一些实施方案中,针对多个蛋白变体中的每一个的序列和活性数据通过以下获得:(i)测定所述多个蛋白变体中的每一个以确定其活性,和(ii)对所述多个蛋白变体中的每一个测序以确定其序列。所获得的针对每个序列的数据也被称为观察值。总体地,这些观察值构成训练组。一些实施方案提供了用于为最佳地描述序列的活性的模型选择项和系数的技术。注意,经常存在远多于残基之间存在的实际相互作用的可能的成对的或更高阶的交互作用项。因此,为了避免过度拟合,通常只有有限数目的交互作用项被考虑并且所使用的那些非本文档来自技高网...

【技术保护点】
1.一种进行定向进化的方法,所述方法包括,(a)获得多个蛋白变体中每一个的序列和活性数据;(b)从针对所述多个蛋白变体中的每一个的所述序列和活性数据生成相乘性序列‑活性模型,其中所述相乘性序列‑活性模型包括:多个相乘项的乘积,其中:所述相乘项包含至少一些非交互作用相乘项,每一个非交互作用相乘项包括系数和自变量的乘积,所述系数代表蛋白序列或编码所述蛋白序列的核酸序列中特定位置处的特定氨基酸或核苷酸对活性的贡献,和所述自变量代表蛋白序列或编码所述蛋白序列的核酸序列中特定位置处的特定氨基酸或核苷酸的存在或不存在,和代表所述蛋白变体的活性的因变量;(c)用所述相乘性序列‑活性模型来选择用于一轮定向进化的一个或更多个多肽或多核苷酸。

【技术特征摘要】
2013.01.31 US 61/759,276;2013.03.15 US 61/799,3771.一种进行定向进化的方法,所述方法包括,(a)获得多个蛋白变体中每一个的序列和活性数据;(b)从针对所述多个蛋白变体中的每一个的所述序列和活性数据生成相乘性序列-活性模型,其中所述相乘性序列-活性模型包括:多个相乘项的乘积,其中:所述相乘项包含至少一些非交互作用相乘项,每一个非交互作用相乘项包括系数和自变量的乘积,所述系数代表蛋白序列或编码所述蛋白序列的核酸序列中特定位置处的特定氨基酸或核苷酸对活性的贡献,和所述自变量代表蛋白序列或编码所述蛋白序列的核酸序列中特定位置处的特定氨基酸或核苷酸的存在或不存在,和代表所述蛋白变体的活性的因变量;(c)用所述相乘性序列-活性模型来选择用于一轮定向进化的一个或更多个多肽或多核苷酸。2.根据权利要求1所述的方法,其中(c)包括:通过评价所述相乘性序列-活性模型的一个或更多个系数鉴定对所述活性有贡献的一个或更多个特定位置处的一个或更多个特定氨基酸或核苷酸,其中所述一个或更多个系数代表所述一个或更多个特定位置的特定氨基酸或核苷酸对活性的贡献。3.根据权利要求2所述的方法,其中(c)还包括:选择用于一轮定向进化的一个或更多个突变,...

【专利技术属性】
技术研发人员:格雷戈里·艾伦·科普尼古拉斯·约翰·阿加德
申请(专利权)人:科德克希思公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1