核酸文库、肽文库及它们的用途制造技术

技术编号:29501656 阅读:14 留言:0更新日期:2021-07-30 19:16
本发明专利技术涉及核酸文库、肽文库及它们的用途。本发明专利技术涉及编码多于一种肽的核酸文库,所述多于一种肽代表天然存在的蛋白质的片段。具体地,本发明专利技术涉及一种核酸文库,每种核酸包含编码肽的确定的核酸序列的编码区,所述肽具有25和110个氨基酸之间的长度,并且具有为选自一种或更多种生物体的天然存在的蛋白质的氨基酸序列中的序列区域的氨基酸序列;其中该文库包含编码至少10,000种不同的此类肽中的多于一种肽的核酸,并且其中至少50种此类肽中每一种肽的氨基酸序列是多于一种不同的此类天然存在的蛋白质中的不同蛋白质的氨基酸序列中的序列区域。

【技术实现步骤摘要】
【国外来华专利技术】核酸文库、肽文库及它们的用途描述本专利技术涉及编码多于一种肽的核酸文库,所述肽代表天然存在的蛋白质的片段。每种肽可以选自物种或生物体的蛋白质组,并且多于一种肽可以共同代表物种或生物体的蛋白质组,或者此类肽可以选自一个以上的蛋白质组,并且因此多于一种肽可以共同代表宏蛋白质组。肽也可以选自在细胞或组织类型之间差异表达的蛋白质。本专利技术还涉及此类肽的文库,涉及牵涉核酸和/或肽的此类文库的方法,和/或涉及包含与此类文库相关的信息的计算机可读介质或数据处理系统。鉴定新的治疗靶是药物发现的关键起点。药物发现工作传统上集中于鉴定经典的可成药靶(druggabletarget),例如激酶、G蛋白偶联受体(GPCR)和离子通道。然而,此类化学上容易获得的靶并不总是代表生物学上最重要的用于治疗干预的靶。将蛋白质:蛋白质相互作用(PPI)成药(drugging)特别令人感兴趣,因为它们代表了参与癌细胞利用的缺陷信号传导途径中的主要靶类型,以及人类疾病中一大组潜在可作用的接口。不幸的是,对将PPI和其他“不可成药”的靶成药的系统尝试受到技术的限制,这在很大程度上是由于当前基于高通量DNA和RNA的基因组学技术对于能够在蛋白质组水平上鉴定新的可成药空间的限制。可以使用无偏的“表型”测定来鉴定与疾病生物学相关的候选药物靶的目前的基于基因组学的技术,通常使用基因敲除(例如CRISPR)来执行,或者在转录物组水平上使用RNAi来执行。这些方法产生了关于哪些靶可以代表疾病进展和疾病治疗干预中的重要节点的重要信息,但是受到严重限制:因为它们是在基因水平而不是蛋白质水平上进行筛选,所以它们无法确定如何将那些靶成药,也无法作为过程中固有的一部分来确定那些靶是否代表可成药的候选物。这是因为这样的基因筛选去除了靶蛋白而不是抑制它们。为了获得此类重要的关于可成药性的另外信息,将需要使用新的高通量蛋白质组水平筛选技术;一种可以处理比基因功能(~30,000个基因及其剪接变体)更高复杂度的筛选蛋白质功能(>300,000个独特的蛋白质转录本和数百万个独特的PPI)的筛选技术。最近,随着DNA编码的、蛋白片段表达文库的引入,直接在人类蛋白质组中系统鉴定新的药物靶位点获得了一定程度的可操作性和关注,这些文库可以在表型测定中以高通量筛选(诸如WO2013/116903中所描述的);常被称为“蛋白质干扰”(Protein-i)。此类蛋白质片段文库(通常来源于不同的细菌基因组),由形成更大蛋白质的进化构建模块的小的自折叠子结构域组成。当组装为用于哺乳动物细胞中细胞内表达的文库时,它们代表用于对接靶蛋白和探索跨越人蛋白质组的候选的新的可成药位点的三维形状的高度多样化集合。至关重要的是,这些蛋白质片段小到足以描述靶蛋白质中离散的空间位点(discretespatialsites),并且因此可以用随后设计成与该形状匹配的小分子药物重现。此外,由于蛋白质片段文库描述了比目前的小分子文库多得多的形状,这为指导对于新的经验证的靶的未来小分子药物的合理设计提供了更加可靠的方法。尽管由于细菌基因组主要由编码序列组成,细菌衍生的蛋白质片段文库已显示在Protein-i筛选中是成功的,并且通过片段化和克隆到表达文库中而直接地产生,然而,与使用哺乳动物或人类蛋白质组本身的片段相比,它们可能在拥有大比例的能与哺乳动物(例如人类)蛋白功能性地相互作用的蛋白片段方面力不从心。然而,直接从哺乳动物(例如人类)的基因组创建蛋白质片段文库的复杂性在于,高等生物的DNA主要含有非编码序列(估计>95%的人类DNA是非编码的)以及绝对数量要大得多的编码序列,并且因此通常需要较大程度的人工定制克隆来将其片段组装为用于表型筛选的表达文库。迄今为止描述的那些细菌衍生的蛋白质片段文库(例如在W02013/116903中)是通过机械剪切(mechanicallyshearing)基因组并将片段随机插入载体中获得的。这产生对于细菌中的原始基因为符合读框(1:6的机会)或不符合读框(5:6的机会)的许多随机大小的片段。对于真核生物来说,同样的策略是行不通的,因为它们的DNA大部分是非编码的。此外,细菌衍生的蛋白质片段文库诸如这些没有“清单”,即,因为序列是随机克隆的,所以除了通过非常深度的测序之外,不可能准确说出给定文库中包含的序列。这些实际的限制导致了在人类细胞的靶鉴定和验证筛选中,挖掘直接相关蛋白质折叠结构多样性的潜在丰富的替代矿脉时存在显著的惰性。其他筛选方法描述于例如WO2001/86297中。这里产生随机短肽(40-mer和20-mer)噬菌体展示文库,并将该文库用于寻找结合到预先选择的靶或已知的、预先鉴定的共有基序的肽。这依赖于已知/已识别的现有的疾病靶,并且不协助鉴定新的靶。WO2007/097923公开了肽结构的文库和产生此类文库的方法,所述肽结构代表了自然界中存在的全部蛋白质结构。然而,选择此类文库以包含那些不依赖于人工支架或它们所来源的蛋白质中的侧翼序列就能够折叠或呈现其天然构象的肽。WO2010/129310描述了编码来自蛋白质的肽的核酸文库,所述蛋白质包含完整的天然蛋白质组(或已知的生物活性肽),所述蛋白质在每种情况下被表达并分泌到细胞外。其中描述了使用这样的文库来分离生物活性分泌肽(“BASP”),以及如何从高通量寡核苷酸合成开始构建这样的文库,但未公开合成的序列或在这样的文库中编码的肽。事实上,其中很少描述关于所编码的肽的氨基酸序列或其他特定(例如有利)特征或编码此类肽的核酸的序列或其他特定(例如有利)特征的信息,也没有描述关于选择此类肽以包含在(或排除于)此类文库中的方法,或选择为此类文库合成的核酸的设计(和特征,例如序列的特征)的信息。在该技术的相应科学出版物(Natarajan等人,2014;PNAS111:E474)中提供了很少的关于文库设计的此类重要事项(例如计算机模拟构建)的信息。还存在若干已知的噬菌体展示文库。WO2015/095355涉及检测针对病原体的抗体。它描述了包含病毒蛋白质序列的噬菌体展示文库。一篇相关论文:Xu等人,2015;Science348描述了VirScan技术,并且据称它将DNA微阵列合成和噬菌体展示相结合,创建了组成人类病毒组(virome)的肽表位的统一、合成展示。同一研究组的更早出版物,Larman等人,2011,NatBiotechnol29:535描述了类似的方法,但涉及T7“肽组(peptidome)”噬菌体展示文库,该文库包含来自人类基因组的肽(即,来自人类基因组的大约24,000个独特ORF的36个氨基酸的肽)。因此,本专利技术的一个目的是提供编码蛋白质片段/肽的文库,其中此类文库可用于筛选方法,包括但不限于PPI筛选。在其他目的中,本专利技术提供了解决这些或其他问题中的一个或更多个的替代的、改进的、更简单的、更便宜的和/或集成的手段或方法。本专利技术的一个目的通过本文任何地方公开或定义的主题,例如通过所附权利要求的主题来解决。附图显示了:图1:描绘筛选在HuPEx文库中表达的能够克服6-硫鸟嘌呤毒性的S本文档来自技高网...

【技术保护点】
1.一种核酸文库,每种核酸包含编码肽的确定的核酸序列的编码区,所述肽具有25和110个氨基酸之间的长度,并且具有为选自一种或更多种生物体的天然存在的蛋白质的氨基酸序列中的序列区域的氨基酸序列;其中所述文库包含编码至少10,000种不同的此类肽中的多于一种肽的核酸,并且其中至少50种此类肽中的每一种肽的氨基酸序列是多于一种不同的此类天然存在的蛋白质中的不同蛋白质的氨基酸序列中的序列区域,并且其中每种编码的氨基酸序列的等电点(pI)大于8.0或小于6.0。/n

【技术特征摘要】
【国外来华专利技术】20181009 GB 1816440.01.一种核酸文库,每种核酸包含编码肽的确定的核酸序列的编码区,所述肽具有25和110个氨基酸之间的长度,并且具有为选自一种或更多种生物体的天然存在的蛋白质的氨基酸序列中的序列区域的氨基酸序列;其中所述文库包含编码至少10,000种不同的此类肽中的多于一种肽的核酸,并且其中至少50种此类肽中的每一种肽的氨基酸序列是多于一种不同的此类天然存在的蛋白质中的不同蛋白质的氨基酸序列中的序列区域,并且其中每种编码的氨基酸序列的等电点(pI)大于8.0或小于6.0。


2.根据权利要求1中任一项所述的核酸文库,其中所述多于一种不同的天然存在的蛋白质中的每一种满足一个或更多个预定标准。


3.根据权利要求2所述的核酸文库,其中所述多于一种天然存在的蛋白质中的每一种与给定的疾病诸如癌症相关。


4.根据权利要求3所述的核酸文库,其中所述疾病是乳腺癌。


5.根据权利要求2所述的核酸文库,其中所述多于一种天然存在的蛋白质中的每一种蛋白质是细胞质蛋白质。


6.根据权利要求5所述的核酸文库,其中所述多于一种天然存在的蛋白质中的每一种蛋白质是细胞质激酶。


7.根据权利要求2所述的核酸文库,其中所述多于一种天然存在的蛋白质中的每一种蛋白质与给定的蛋白质或来自蛋白质(功能)类中的至少一种蛋白质相互作用。


8.根据权利要求7所述的核酸文库,其中所述多于一种天然存在的蛋白质中的每一种蛋白质与KRas相互作用。


9.根据权利要求1至8中任一项所述的核酸文库,其中所述文库包含编码至少50,000种不同的此类肽中的多于一种肽的核酸,并且其中至少100种此类肽的每一种肽的氨基酸序列是至少100种不同的天然存在的蛋白质的氨基酸序列中的序列区域;特别地,其中所述文库包含编码至少100,000种不同的此类肽中的多于一种肽的核酸,并且其中至少150种此类肽的每一种肽的氨基酸序列是至少150种不同的天然存在的蛋白质的氨基酸序列中的序列区域。


10.根据权利要求1至9中任一项所述的核酸文库,其中所述文库包含编码至少10,000种不同的此类肽中的多于一种肽的核酸,并且其中至少1,000种此类肽的每一种肽的氨基酸序列是此类多于一种不同的天然存在的蛋白质的不同蛋白质的氨基酸序列中的序列区域。


11.根据权利要求1至10中任一项所述的核酸文库,其中所述文库包含编码至少200,000种不同的此类肽中的多于一种肽的核酸,并且其中至少20,000种此类肽的每一种肽的氨基酸序列是至少20,000种不同的天然存在的蛋白质的氨基酸序列中的序列区域;特别地,其中所述文库包含编码至少300,000种不同的此类肽中的多于一种肽的核酸,并且其中至少25,000种此类肽的每一种肽的氨基酸序列是至少25,000种不同的天然存在的蛋白质的氨基酸序列中的序列区域。


12.根据权利要求1或11任一项所述的核酸文库,其中对于至少约1%的天然存在的蛋白质,多于一种所述核酸编码来自此类天然存在的蛋白质的氨基酸序列的不同肽。


13.根据权利要求12所述的核酸文库,其中对于至少约50%的天然存在的蛋白质,多于一种所述核酸编码来自此类天然存在的蛋白质的氨基酸序列的不同肽。


14.根据权利要求13所述的核酸文库,其中所述多于一种核酸编码不同的肽,并且所述不同的肽的氨基酸序列是沿着所述天然存在的蛋白质的氨基酸序列间隔的序列区域。


15.根据权利要求14所述的核酸文库,其中所述序列区域沿着所述天然存在的蛋白质的氨基酸序列被一个氨基酸窗口或多于一个此类窗口分隔开,其中所述窗口在1和约55个氨基酸之间;特别地其中所述窗口在约5和约20个氨基酸之间;最特别地,其中所述间隔窗口是约8、10、12或15个氨基酸。


16.根据权利要求1至14中任一项所述的核酸文库,所述核酸文库包含编码来自至少10,000种不同的天然存在的蛋白质的至少100,000种不同肽的核酸。


17.根据权利要求1至16中任一项所述的核酸文库,其中每种核酸编码不同的肽。


18.根据权利要求1至17中任一项所述的核酸文库,其中编码来自所述天然存在的蛋白质的不同肽的核酸的平均数目大于1;特别地每种此类蛋白质约1.01和1...

【专利技术属性】
技术研发人员:马库斯·米尔纳乔安妮·L·雅克
申请(专利权)人:福慕斯特有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1