核苷酸序列的虚拟代表制造技术

技术编号:1755117 阅读:288 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了可以用来与核酸序列代表杂交的寡核苷酸探针。还提供了含有诸如微阵列这类探针的组合物。本发明专利技术还提供了在治疗、诊断和研究应用中使用这些探针的方法。提供了可以快速和准确地计数特定字符串(即核苷酸)出现在核苷酸序列(例如基因组)中的次数的字计数算法的系统和使用方法。这种算法可以用于鉴定本发明专利技术的寡核苷酸探针。该算法使用了基因组变换和辅助数据结构以计数特定字出现在基因组中的次数。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及分子生物学。更具体的说,本专利技术涉及用于产生作为指定来源DNA(例如基因组)的代表之核苷酸序列的物质和方法。
技术介绍
用于基因组分析的通用方法已经用遗传成分对癌症和其它疾病或情况的病理生理学提供了透彻理解。这类方法包括核型分析、倍性测定、比较基因组杂交(CGH)、代表性差异分析法(RDA)(例如,参见美国专利US5,436,142)和基因组代表性分析(1999年5月14日公布的WO99/23256)。一般来说,这些方法包括使用探针探询特定基因的表达或检验基因组自身中的改变。使用寡核苷酸阵列,这些方法可以用于获得细胞中遗传改变的高分辨通用影像。然而,这些方法需要特定探针的序列知识。这种情况特别限于cDNA阵列,因为这类阵列仅探询有限的一组基因。它们还限于基因组范围内筛选,因为许多为阵列设计的寡核苷酸可能不在探询的群体中出现,导致分析无效或无效率。专利技术概述本专利技术提供了用于探询核酸分子群体的组合物和方法。这些组合物和方法可以,任选地与微阵列技术结合,用于分析复杂的基因组(例如哺乳动物基因组)。本专利技术的特征在于至少100个的多个核酸分子(A),其中(a)核酸分子各自与至少Z个碱基对的基因组中的序列特异性杂交;和(b)所述的多个核酸分子中至少P%具有(i)至少K个核苷酸长度;(ii)与存在于或预计存在于来源于所述基因组的代表中的至少一个核酸分子特异性杂交,所述的代表具有不大于所述基因组复杂性的R%;和(iii)不大于X的与所述基因组(或所述代表)的L1核苷酸的完全匹配(exact match),和不小于Y的与所述基因组(或所述代表)的L1核苷酸的完全匹配;和(B)其中(a)Z≥1×108;(b)300≥K≥30;(c)70≥R≥0.001;(d)P≥90-R;(e)与(log4(Z)+2)最接近的整数≥L1≥与log4(Z)最接近的整数;(f)X为与D1x(K-L1+1)最接近的整数;(g)Y为与D2x(K-L1+1)最接近的整数;(h)1.5≥D1≥1;和(i)1>D2≥0.5。在某些其它实施方案中,(1)所述的多个核酸分子包括至少500个、1,000个、2,500个、5,000个、10,000个、25,000个、50,000个、85,000个、190,000个、350,000个或550,000个核酸分子;(2)Z至少为3×108、1×109、1×1010或1×1011;(3)R为0.001、1、2、4、10、15、20、30、40、50或70;(4)P与R彼此独立且至少为70、80、90、95、97或99;(5)D1为1;(6)L1为15、16、17、18、19、20、21、22、23或24;(7)P为91、92、93、94、95、96、97、98、99或100;和/或(8)K为40、50、60、70、80、90、100、110、120、140、160、180、200或250。在某些实施方案中,与另一个核酸分子特异性杂交的核酸分子与其它一核酸分子中相同长度的序列具有至少90%的序列同一性。在其它实施方案中,它具有至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性。在某些其它实施方案中,所述多个核酸分子中的所述P%各自进一步具有不大于A的与所述基因组的L2核苷酸的完全匹配,和不小于B的与所述基因组的L2核苷酸的完全匹配,其中(a)L1>L2≥最接近log4(Z)-3的整数;(b)A为与D3x((K-L2+1)x(Z/4L2))最接近的整数;(c)B为与D4x((K-L2+1)x(Z/4L2))最接近的整数;(d)4≥D3≥1;和(e)1>D4≥0.5。可以通过所述基因组的序列特异性切割产生DNA群体代表,例如使用限制性内切核酸酶进行。它还可以来源于另一种代表。即,所得代表为化合物的代表。可通过一种方法鉴定本专利技术的核酸分子,该方法包括(a)在计算机上(in silico)用限制酶切割所述基因组而产生多个预计的核酸分子;(b)通过鉴定各自带有所述基因组的200-1,200个(含两端点)碱基对在内长度的预计核酸分子,具有0.001%-70%(含两端点)复杂性的虚拟代表而产生所述基因组的虚拟代表;(c)选择具有30-300个(含两端点)核苷酸在内的长度和与(b)中的预计核酸分子具有至少90%序列同一性的寡核苷酸;(d)计算所述虚拟代表与所述基因组相比的复杂性;(e)鉴定在所述寡核苷酸出现的所有L1核苷酸序列段;和(f)证实所述序列段各自在所述基因组中出现的次数满足不同的预定要求。本专利技术的核酸分子可以用作分析样品DNA的探针。可以将这些探针固定在固相表面,包括半固体表面上。固相包括,但不限于尼龙膜、硝酸纤维素膜、载玻片和微球(例如顺磁微珠)。在某些实施方案中,核酸分子在所述固相上的位置是已知的,例如作为微阵列形式使用。本专利技术的特征还在于分析核酸样品(例如基因组代表)的方法,所述方法包括(a)使样品与本专利技术的核酸探针杂交;和(b)确定所述样品与所述多个核酸分子中的哪个杂交。本专利技术还构思了分析两个基因组之间基因组序列拷贝数变化的方法,所述方法包括(a)提供两个可检测标记的代表,它们各自由相应的基因组用至少一种相同的限制酶制备;(b)使这两个代表与本专利技术的核酸探针接触以便在所述代表与所述探针之间进行杂交;(c)分析两个代表与探针组的杂交水平,其中所述水平与探针组成员之间的差异表示两个基因组之间在所述成员靶向的基因组序列方面拷贝数变化。在某些实施方案中,以可区分方式标记所述代表,和/或两个代表的接触同时进行。本专利技术还构思了比较两个基因组之间基因组序列的甲基化状态的方法,所述方法包括由相应的基因组提供两个可检测标记的代表,每一代表通过甲基化敏感性方法制备。例如,使用第一种限制酶制备第一个基因组的第一个代表,使用第二种限制酶制备第二个基因组的第二个代表,其中所述的第一种和第二种限制酶识别相同的限制位点,但一种是甲基化敏感性的,而另一种不是。还可以在使用非甲基化敏感性限制酶制备代表后,可以用化学方式裂解带有甲基-C的序列,使得来源于甲基化基因组的代表不同于来源于非甲基化基因组的代表。然后使两个代表与本专利技术的探针接触以便所述代表与所述探针之间进行杂交。随后分析两个代表与所述探针的杂交,其中所述代表之间在与特定探针的杂交水平方面的差异表示两个基因组在由所述探针靶向的基因组序列方面的甲基化状态差异。正如下文进一步解释的,类似方法也可以用于分析复杂基因组的多态性。本专利技术的某些实施方案提供了用于准确和有效检测和计数字(word)在基因组中出现的次数的算法。这种算法在本文中有时称作搜索引擎或mer-引擎,它使用基因组变换(例如Burrows-Wheeler变换)和辅助数据结构以便计数特定字出现在基因组中的次数。″字″指的是确定长度的核苷酸序列。一般来说,所述引擎通过首次找到字的最后字符搜索特定的字。然后它进行寻找紧靠在最后字符之前的字符。如果发现第一个紧跟的在前字符,那么它就寻找紧跟所述字最后一个字符之前的第二个字符,依此类推直到找到该字。如果没有找到进一步的在前字符,那么就可以推断该字在基因组中不存在。如果找到了该字的第一个字符,那么本文档来自技高网...

【技术保护点】
多个核酸分子,其中:    (a)所述的多个由N个核酸分子组成;    (b)所述的多个核酸分子各自具有与Z个碱基对的基因组中的序列特异性杂交的核苷酸序列;和    (c)所述多个核酸分子中至少P%具有:    (i)K个核苷酸长度;    (ii)与存在于或预计存在于来源于所述基因组的代表中的至少一种核酸分子特异性杂交,所述代表具有不超过R%的所述基因组的复杂性;和    (iii)不大于X的与所述基因组的L↓[1]核苷酸的完全匹配和不小于Y的与所述基因组的L↓[1]核苷酸的完全匹配;且其中:    (A)N≥500;    (B)Z≥1×10↑[8];    (C)300≥K≥30;    (D)70≥R≥0.001;    (E)P=(N×R+(3×σ))/N;    (F)σ为(N×R×(1-R))的平方根;    (G)与(log↓[4](Z)+2)最接近的整数≥L↓[1]≥与log↓[4](Z)最接近的整数;    (H)X为与D↓[1]×(K-L↓[1]+1)最接近的整数;    (I)Y为与D↓[2]×(K-L↓[1]+1)最接近的整数;    (J)1.5≥D↓[1]≥1;和    (K)1≥D↓[2]≥0.5。...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:MH威格勒J希利R卢西托
申请(专利权)人:冷泉港实验室
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1