用于定量RNA转录物变体的方法和产物技术

技术编号:14737465 阅读:110 留言:0更新日期:2017-03-01 10:55
本发明专利技术涉及转录组学领域,并提供了用于样品中转录物变体的受控鉴定和/或定量的方法,包括提供模拟转录物变体的人工多核酸分子的参照集,并将所述参照集作为外部对照添加到包含转录物变体的样品。本发明专利技术还提供这样的参照集以及产生这样的参照集的方法。

【技术实现步骤摘要】
【国外来华专利技术】专利
本专利技术涉及转录组学、特别是全转录组鸟枪测序(“RNA-seq”)领域。更具体地,其涉及适合于通过RNA-seq或微阵列分析或定量PCR(qPCR)分析的样品中的RNA转录物变体的鉴定和定量的方法和产物。
技术介绍
当对核酸样品进行测序时,下一代测序(NGS)技术产生大量短的读长(read)。下一代测序中的一个重要步骤是文库制备(librarypreparation,或者简写为libraryprep)。该过程使用mRNA或cDNA作为输入并产生短cDNA片段的文库,每个片段对应于mRNA分子的一段。然后通过NGS测序仪对这些片段进行测序,通常不是全部,而是部分地在其起始和/或终止时。这导致称为读长的短核苷酸序列,并且最通常由NGS测序仪存储为代表遗传密码核碱基的一组四个ASCII字符(诸如A、C、G、T或0、1、2、3)的序列。为了推断哪些mRNA分子存在于原始样品中,将所述读长作图或比对到参照基因组或转录组上,或基于序列重叠从头组装。下一代测序已经用于各种基因组作图程序(US2013/110410A1)或DNA鉴定方法,例如,通过使用经作图的基因组将序列读长与某种生物体变体相关联(WO2009/085412A1)。WO2009/091798A1描述了用于获得生物体的转录组谱的方法,所述方法包括:对一个或多个cDNA分子进行测序以获得测序读长;将每个测序读长与参照序列比对。然而,使用短序列读长的转录组分析的主要内在问题是在如下文段落中描述的转录物变体的情况下的比对步骤。通常难以将短序列读长正确地与一个转录物变体进行比对,特别是难以可靠地定量样品中存在的所有转录物变体。EP2333104A1涉及对来源于潜在不同RNA分子库的核酸分子片段序列进行排序的RNA分析方法。基因不仅在一个转录物变体中表达,而且许多转录物同种型可以从给定的基因组区域转录(参见例如Nilsen和Graveley,2010;Wang等人,2009;Koscielny等人,2009),其外显子-内含子组成和转录起始(TSS)和终止位点(TES)有变化。转录物同种型也可以在其丰度上不同达六个数量级,增加了额外的复杂度层(Aird等人,2013)。Zhang等人的文献涉及合成的选择性剪接数据库。通过RNA-Seq分析转录组中的复杂度需要将短的读长与注释的参照基因组比对,并从独特的特征(诸如重叠群覆盖和告诉外显子-外显子连接)得到转录物类似物和假说(参见例如Wang等人,2009)。这些算法远不准确,遭受不足和不同的注释以及分辨相似特征并以相似水平表达的转录物变体的固有问题。不使用基因组序列和注释的转录组从头组装甚至更加困难和低效,并且主要应用于未充分表征的生物体。本专利技术的目的是提供允许样品中转录物变体的更准确评估(即鉴定和定量)的方法和产品。专利技术概述本专利技术提供了用于在一个或多个样品中受控鉴定和/或定量转录物变体的方法,包括:a)提供模拟转录物变体的人工核酸(NA)分子的参照集,包括至少一个、优选至少两个、更优选至少三个、特别是至少五个不同家族的NA分子,每个家族由至少两种、优选至少三种、更优选至少四种、特别是至少五种不同NA分子组成,其中,独立地对于每个家族,所述每个家族的所有NA分子是相同人工基因的参照转录物变体,和其中,独立地对于每个家族,所述每个家族的NA分子共有长度为至少80个核苷酸(nt)、优选至少100nt、更优选至少150nt、特别是至少200nt的序列,并且所述每个家族的至少两种NA分子相差至少80nt长度、优选至少100nt、更优选至少150nt、甚至更优选至少200nt、特别是至少300nt的至少另一个序列,和其中所述NA分子中至少两种、优选每种以预设的摩尔量存在;和b)将所述参照集作为外部对照添加到包含转录物变体的一个或多个样品;和c1)基于读长生成和分配进行NA测序,其中使用参照集的读长产生参照读长分配,并且所述参照读长分配用于控制、验证或修饰一个或多个样品的转录物变体的读长分配;或者c2)对所述一个或多个样品进行NA检测或定量方法,优选微阵列分析或qPCR,其中至少一个探针结合参照集的至少一个NA分子,并且基于从至少一个探针结合参照集的至少一个NA分子产生的信号的测量结果用于控制、验证或修饰基于在所述NA检测或定量方法中一个或多个样品的转录物变体结合探针产生的信号的测量结果。本专利技术进一步提供了非常适合用于上述方法的人工NA分子的参照集,以及产生这样的参照集的方法,以及适合包含在这样的参照集中的NA分子。除非明确指出,否则以下详细描述和优选实施方案适用于本专利技术的所有方面,并且可以彼此组合而没有限制。优选实施方案和方面在权利要求中进一步限定。专利技术详细公开内容内部、外部、相对和绝对标准对于确定包含转录物变体(适用于几乎所有来自真核细胞的转录物样品)的样品和努力分析这样的复杂转录物样品的方法的不同质量度量是必要的。定量数据可以用相对或绝对术语表示。每种不同的方法(例如微阵列、qPCR或NGS)在关于标准化测量结果的数据分析中具有许多特性。对于微阵列和qPCR中的相对定量,使用内部或外部对照在样品之间比较RNA水平,以对样品浓度和上样的差异进行标准化。NGS实验使用不同的标准化程序来测定读长的数量,以及鉴定的转录物的长度。结果取决于许多变量,如基因注释的质量和状态,或文库制备与比对和装配算法的测序偏差之间的一致性。例如需要对照以补偿文库制备效率的差异。对照是在整个样品集中以恒定水平表达的内部基因(内部参照)或掺入的RNA(外部参照)。对于表示实验基因的表达水平的定量信号强度(荧光单位或读长计数),外显子或标签与含有已知量或比率的标准相关,并且所述标准被定义为绝对或相对参照。US2004/009512A1公开了使用内部对照探针分析mRNA剪接产物的方法(该文献的权利要求7,第[0097]和[0106]段)。没有公开代表具有本专利技术涉及的分子长度的变体的内部对照。市售有许多复杂RNA标准样品,例如通用人参照RNA和通用人脑参照RNA(Ambion,LifeTechnologies)。这些标准从多个供体和若干组织/脑区域汇集,因此旨在用于基因表达的广泛无偏和可再现的覆盖。对这些标准样品的实验提供参照数据,并用于验证和评价实验方法。为了将未知样品的测量与彼此和所述标准样品联结起来,需要内部或外标。内部RNA标准是在所有待分析的样品中以相对恒定的水平表达的基因。内标应在生物体的不同组织之间、在所有发育阶段以及对照和实验处理的细胞类型中同样地表达,并且通常称为“持家”基因。不幸的是,尽管在最广泛的实验条件下18SrRNA似乎接近是理想的内部对照,在所有这些情况下没有具有恒定表达水平的单一RNA。然而,rRNA的相对高丰度导致文库制备方法,其特异性耗尽rRNA以释放测序空间。因此,有必要为特定的实验问题确定合适的对照RNA,其将最可能是mRNA。这进而需要考虑mRNA同种型对标准的适用性的影响。虽然可以发现一些内标(β-肌动蛋白、甘油醛-3-磷酸脱氢酶(GAPDH)或亲环蛋白mRNA),只有外标提供受控且可靠的参照值。来自其他物种的RNA样品的恒定来源可以用作外标,例如,细菌转录组加入到哺乳动物样品中。然而,本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/27/201580035408.html" title="用于定量RNA转录物变体的方法和产物原文来自X技术">用于定量RNA转录物变体的方法和产物</a>

【技术保护点】
一种用于在一个或多个样品中受控鉴定和/或定量转录物变体的方法,包括:a)提供模拟转录物变体的人工核酸(NA)分子的参照集,该参照集包含至少一个、优选至少两个、更优选至少三个、特别是至少五个不同家族的NA分子,每个家族由至少两种、优选至少三种、更优选至少四种、特别是至少五种不同NA分子组成,其中,独立地对于每个家族,所述每个家族的所有NA分子是相同人工基因的参照转录物变体,和其中,独立地对于每个家族,所述每个家族的NA分子共有长度为至少80个核苷酸(nt)的序列,并且所述每个家族的至少两种NA分子相差至少80nt长度的至少另一个序列,和其中所述NA分子中至少两种、优选每种以预设的摩尔量存在;和b)将所述参照集作为外部对照添加到包含转录物变体的一个或多个样品;和c1)基于读长生成和分配进行NA测序,其中使用参照集的读长产生参照读长分配,并且所述参照读长分配用于控制、验证或修饰一个或多个样品的转录物变体的读长分配;或者c2)对所述一个或多个样品进行NA检测或定量方法,优选微阵列分析或qPCR,其中至少一个探针结合参照集的至少一个NA分子,并且基于从至少一个探针结合参照集的至少一个NA分子产生的信号的测量结果用于控制、验证或修饰基于在所述NA检测或定量方法中一个或多个样品的转录物变体结合探针产生的信号的测量结果。...

【技术特征摘要】
【国外来华专利技术】2014.07.09 EP 14176417.51.一种用于在一个或多个样品中受控鉴定和/或定量转录物变体的方法,包括:a)提供模拟转录物变体的人工核酸(NA)分子的参照集,该参照集包含至少一个、优选至少两个、更优选至少三个、特别是至少五个不同家族的NA分子,每个家族由至少两种、优选至少三种、更优选至少四种、特别是至少五种不同NA分子组成,其中,独立地对于每个家族,所述每个家族的所有NA分子是相同人工基因的参照转录物变体,和其中,独立地对于每个家族,所述每个家族的NA分子共有长度为至少80个核苷酸(nt)的序列,并且所述每个家族的至少两种NA分子相差至少80nt长度的至少另一个序列,和其中所述NA分子中至少两种、优选每种以预设的摩尔量存在;和b)将所述参照集作为外部对照添加到包含转录物变体的一个或多个样品;和c1)基于读长生成和分配进行NA测序,其中使用参照集的读长产生参照读长分配,并且所述参照读长分配用于控制、验证或修饰一个或多个样品的转录物变体的读长分配;或者c2)对所述一个或多个样品进行NA检测或定量方法,优选微阵列分析或qPCR,其中至少一个探针结合参照集的至少一个NA分子,并且基于从至少一个探针结合参照集的至少一个NA分子产生的信号的测量结果用于控制、验证或修饰基于在所述NA检测或定量方法中一个或多个样品的转录物变体结合探针产生的信号的测量结果。2.一种用于评估NA测序方法或用于评估NA检测或定量方法的方法,包括:a)提供模拟转录物变体的人工NA分子的参照集,该参照集包含至少一个、优选至少两个、更优选至少三个、特别是至少五个不同家族的NA分子,每个家族由至少两种、优选至少三种、更优选至少四个种、特别是至少五个不同NA分子组成,其中,独立地对于每个家族,所述每个家族的所有NA分子是相同人工基因的参照转录物变体,和其中,独立地对于每个家族,所述每个家族的NA分子共有长度为至少80nt的序列,并且所述每个家族的至少两种NA分子相差至少80nt长度的至少另一个序列,和其中所述NA分子中至少两种、优选每种以预设的摩尔量存在;和b1)对于评估NA测序方法,基于读长生成和分配执行NA测序,其中利用所述参照集的读长来生成参照读长分配;或者b2)对于评估NA检测或定量方法,对参照集执行所述NA检测或定量方法,其中至少一种探针结合所述参照集的至少一个NA分子;和c)将任意参照集的至少一种NA分子的步骤b)的输出结果,特别是输出摩尔量,输出浓度,和/或,在评估NA测序方法的情况下,分配读长的数量,和/或所述参照集的至少两种NA分子的上述结果的至少一个比率,与所述预设的摩尔量进行比较和/或,在评估NA测序方法的情况下与分配读长的数量,和/或由此计算或预期的比率和/或输出进行比较。3.根据权利要求1或2的方法,其中所述NA是RNA或DNA,特别是RNA。4.一种产生模拟转录物变体的人工NA分子、优选RNA或DNA分子的参照集的方法,包括:A)从天然存在的真核生物基因、优选动物或植物基因、更优选脊椎动物基因、甚至更优选哺乳动物基因、特别是人类基因的组选择至少一个、优选至少两个、更优选至少三个、特别是至少五个基因;和B)为每个选择的基因选择至少两个、优选至少三个、更优选至少四个、特别是至少五个天然存在的mRNA转录物变体,其中每个转录物变体具有至少100nt的长度,并且包含至少一个外显子;和C)提供每个所述选择的包含至少一个外显子的天然存在的mRNA转录物变体的序列,任选地其中所述序列被转换为另一种NA类型,诸如DNA序列;和D)通过以下步骤修饰步骤C)的每个序列:将每个序列的每个外显子的序列替换为大约相同长度的序列,其中所述大约相同长度的序列选自:病毒序列、噬菌体序列、其反向序列,任何其他反向的天然存在的序列,非天然存在的序列,及其组合,优选所述大约相同长度的序列选自:病毒序列、噬菌体序列、其反向序列,非天然存在的序列,及其组合,优选所述大约相同长度的序列选自:病毒序列、噬菌体序列、其反向序列,及其组合,优选其中大约相同长度的序列通过任意其它二核苷酸,优选通过GT、GC或AT替换至多10个、优选至多5个、特别是至多2个或1个二核苷酸而相互独立地修饰,和/或通过任意其它二核苷酸,优选通过AG、AC或AT替换至多10个、优选至多5个、特别是至多2个或1个二核苷酸而相互独立地修饰,从而获得人工转录物序列集,条件是从相同选择的基因的所选择的天然存在的mRNA转录物变体的序列所获得的人工转录物序列共有长度至少为80nt的序列,其优选包含在单个外显子序列中,和优选条件是当步骤C)的序列的外显子序列与步骤C)的序列的另一个外显子序列相同时,外显子序列和另一外显子序列被大约相同长度的同一所述序列替换;和E)任选地复制步骤D)的集中的至少一个人工转录物序列,并将所述复制的序列添加到所述集中,从而获得包括用于步骤F)-J)中的一个或多个中的选择性修饰的拷贝的集;F)任选地将至少一个序列插入所述集中至少一个人工转录物序列,其中所述至少一个插入的序列中的每一个与步骤D)中的任何人工转录物序列的相同长度的有义或反义序列相同;G)任选地从所述集中至少一个人工转录物序列中去除至少一个长度范围为1nt至10000nt的序列,其中所述一个或多个人工转录物序列中的每一个保持在至少100nt的大小并且保持包含至少一个外显子序列;H)任选地通过5'截短序列直到5'末端是鸟苷,通过将第一碱基改变为鸟苷或通过在5'末端添加鸟苷,建立鸟苷为每个人工转录序列的第一核苷酸,优选通过5'截短序列直到5'末端是鸟苷或通过将第一碱基改变为鸟苷,特别是通过5'截短序列直到5'末端是鸟苷;I)任选地修饰所述集中的至少一个人工转录物序列,使得所述人工转录物序列集具有基本上随机分布出现的5'起始三核苷酸,所述5'起始三核苷酸选自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT,或者5'起始二核苷酸,所述5'起始二核苷酸选自AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,和/或3’终止二核苷酸,所述3’终止二核苷酸选自AC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TT;J)优选将多聚A尾序列添加到该集中人工转录物序列中的一个或多个、优选全部人工转录物序列,所述多聚A尾优选由至少10个、特别是至少20个腺苷组成;K)或优选步骤E-J中的至少两个的任何组合,优选其中每个方法步骤仅进行一次;和L)对于所述集中的每个人工转录物序列:物理合成包含完整人工转录物序列的NA分子;和M)优选地,如果步骤L)的NA分子是RNA分子,则向RNA分子物理添加5'帽结构;从而物理地获得模拟转录物变体的人工NA分子的参照集,优选是RNA或DNA分子的参照集。5.根据权利要求4所述的方法,其中进行步骤D)-G),优选所有步骤,条件是人工NA分子的参照集应当模拟真核生物基因、优选为动物或植物基因、更优选为脊椎动物基因、甚至更优选为哺乳动物基因、特别是人类基因的天然存在的选择性转录事件,并且所述事件优选选自:选择性转录物起始位点(TSS)、选择性转录物终止位点(TES)、反义转录物、重叠转录物,并且选择性剪接事件选自跳读的盒式外显子(CE)、内含子保留(IR)、相互排斥的外显子(MXE)、选择性3'剪接位点(A3SS)、选择性5'剪接位点(A5SS)、选择性第一个外显子(AFE)、选择性最后一个外显子(ALE)和反式剪接;和/或人工NA分子的参照集模拟选自以下的至少一种、优选至少两种、更优选至少三种、甚至更优选至少五种、特别是所有的选择性转录事件:选择性转录物起始位点(TSS)、选择性转录物终止位点(TES)、反义转录物、重叠转录物,并且选择性剪接事件选自跳读的盒式外显子(CE)、内含子保留(IR)、相互排斥的外显子(MXE)、选择性3'剪接位点(A3SS)、选择性5'剪接位点(A5SS)、选择性第一个外显子(AFE)、选择性最后一个外显子(ALE)和反式剪接;和/或其中所述人工NA分子的参照集的所有外显子序列内的所有内含子起始二核苷酸的至少50%、优选至少75%、特别是至少95%是GT,其中每个所述内含子起始二核苷酸是在参照集的另一种人工NA分子中不存在并从而代表所述另一种人工NA分子的内含子的序列的5'末端二核苷酸;和/或其中所述人工NA分子的参照集的所有外显子序列内的所有内含子末端二核苷酸的至少50%、优选至少75%、特别是至少95%是AT,其中每个所述内含子末端二核苷酸是在参照集的另一种人工NA分子中不存在并从而代表所述另一种人工NA分子的内含子的序列的5'末端二核苷酸;和/或其中所述人工NA分子的参照集具有500nt至2000nt、优选750nt至1500nt、特别是1000nt至1400nt的平均序列长度;并且优选具有300nt至1200nt、优选600nt至900nt、特别是700nt至800nt的标准偏差;其最小大小为至少100nt;并且优选具有10000nt的最大大小;和/或其中所述人工NA分子的参照集具有25%至55%的平均GC含量;和/或其中所述人工NA分子的参照集具有基本上随机分布出现的5'起始三核苷酸,所述5'起始三核苷酸选自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT,或者5'起始二核苷酸,所述5'起始二核苷酸选自AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,和/或3’终止二核苷酸,所述3’终止二核苷酸选自AC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TT;和/或其中所述参照集的每个人工NA分子具有鸟苷作为5'起始核苷酸;和/或其中所述参照集的人工NA分子中的至少一个、优选每个人工NA分子如果是RNA分子,则具有5'帽结构和/或具有至少10个、优选至少20个腺苷的多聚A尾。6.根据权利要求4或5所述的方法,还包括提供所述人工NA分子的参照集,其中所述参照集的至少两种、优选每种所述NA分子以预设的摩尔量存在,优选在相同的容器中;和优选其中至少两种NA分...

【专利技术属性】
技术研发人员:L·保罗P·库巴拉T·莱达
申请(专利权)人:莱科赛根有限公司
类型:发明
国别省市:奥地利;AT

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1