【技术实现步骤摘要】
【国外来华专利技术】专利
本专利技术涉及转录组学、特别是全转录组鸟枪测序(“RNA-seq”)领域。更具体地,其涉及适合于通过RNA-seq或微阵列分析或定量PCR(qPCR)分析的样品中的RNA转录物变体的鉴定和定量的方法和产物。
技术介绍
当对核酸样品进行测序时,下一代测序(NGS)技术产生大量短的读长(read)。下一代测序中的一个重要步骤是文库制备(librarypreparation,或者简写为libraryprep)。该过程使用mRNA或cDNA作为输入并产生短cDNA片段的文库,每个片段对应于mRNA分子的一段。然后通过NGS测序仪对这些片段进行测序,通常不是全部,而是部分地在其起始和/或终止时。这导致称为读长的短核苷酸序列,并且最通常由NGS测序仪存储为代表遗传密码核碱基的一组四个ASCII字符(诸如A、C、G、T或0、1、2、3)的序列。为了推断哪些mRNA分子存在于原始样品中,将所述读长作图或比对到参照基因组或转录组上,或基于序列重叠从头组装。下一代测序已经用于各种基因组作图程序(US2013/110410A1)或DNA鉴定方法,例如,通过使用经作图的基因组将序列读长与某种生物体变体相关联(WO2009/085412A1)。WO2009/091798A1描述了用于获得生物体的转录组谱的方法,所述方法包括:对一个或多个cDNA分子进行测序以获得测序读长;将每个测序读长与参照序列比对。然而,使用短序列读长的转录组分析的主要内在问题是在如下文段落中描述的转录物变体的情况下的比对步骤。通常难以将短序列读长正确地与一个转录物变体进行比对,特别是难以可靠地定量样品中存 ...
【技术保护点】
一种用于在一个或多个样品中受控鉴定和/或定量转录物变体的方法,包括:a)提供模拟转录物变体的人工核酸(NA)分子的参照集,该参照集包含至少一个、优选至少两个、更优选至少三个、特别是至少五个不同家族的NA分子,每个家族由至少两种、优选至少三种、更优选至少四种、特别是至少五种不同NA分子组成,其中,独立地对于每个家族,所述每个家族的所有NA分子是相同人工基因的参照转录物变体,和其中,独立地对于每个家族,所述每个家族的NA分子共有长度为至少80个核苷酸(nt)的序列,并且所述每个家族的至少两种NA分子相差至少80nt长度的至少另一个序列,和其中所述NA分子中至少两种、优选每种以预设的摩尔量存在;和b)将所述参照集作为外部对照添加到包含转录物变体的一个或多个样品;和c1)基于读长生成和分配进行NA测序,其中使用参照集的读长产生参照读长分配,并且所述参照读长分配用于控制、验证或修饰一个或多个样品的转录物变体的读长分配;或者c2)对所述一个或多个样品进行NA检测或定量方法,优选微阵列分析或qPCR,其中至少一个探针结合参照集的至少一个NA分子,并且基于从至少一个探针结合参照集的至少一个NA分子产生 ...
【技术特征摘要】
【国外来华专利技术】2014.07.09 EP 14176417.51.一种用于在一个或多个样品中受控鉴定和/或定量转录物变体的方法,包括:a)提供模拟转录物变体的人工核酸(NA)分子的参照集,该参照集包含至少一个、优选至少两个、更优选至少三个、特别是至少五个不同家族的NA分子,每个家族由至少两种、优选至少三种、更优选至少四种、特别是至少五种不同NA分子组成,其中,独立地对于每个家族,所述每个家族的所有NA分子是相同人工基因的参照转录物变体,和其中,独立地对于每个家族,所述每个家族的NA分子共有长度为至少80个核苷酸(nt)的序列,并且所述每个家族的至少两种NA分子相差至少80nt长度的至少另一个序列,和其中所述NA分子中至少两种、优选每种以预设的摩尔量存在;和b)将所述参照集作为外部对照添加到包含转录物变体的一个或多个样品;和c1)基于读长生成和分配进行NA测序,其中使用参照集的读长产生参照读长分配,并且所述参照读长分配用于控制、验证或修饰一个或多个样品的转录物变体的读长分配;或者c2)对所述一个或多个样品进行NA检测或定量方法,优选微阵列分析或qPCR,其中至少一个探针结合参照集的至少一个NA分子,并且基于从至少一个探针结合参照集的至少一个NA分子产生的信号的测量结果用于控制、验证或修饰基于在所述NA检测或定量方法中一个或多个样品的转录物变体结合探针产生的信号的测量结果。2.一种用于评估NA测序方法或用于评估NA检测或定量方法的方法,包括:a)提供模拟转录物变体的人工NA分子的参照集,该参照集包含至少一个、优选至少两个、更优选至少三个、特别是至少五个不同家族的NA分子,每个家族由至少两种、优选至少三种、更优选至少四个种、特别是至少五个不同NA分子组成,其中,独立地对于每个家族,所述每个家族的所有NA分子是相同人工基因的参照转录物变体,和其中,独立地对于每个家族,所述每个家族的NA分子共有长度为至少80nt的序列,并且所述每个家族的至少两种NA分子相差至少80nt长度的至少另一个序列,和其中所述NA分子中至少两种、优选每种以预设的摩尔量存在;和b1)对于评估NA测序方法,基于读长生成和分配执行NA测序,其中利用所述参照集的读长来生成参照读长分配;或者b2)对于评估NA检测或定量方法,对参照集执行所述NA检测或定量方法,其中至少一种探针结合所述参照集的至少一个NA分子;和c)将任意参照集的至少一种NA分子的步骤b)的输出结果,特别是输出摩尔量,输出浓度,和/或,在评估NA测序方法的情况下,分配读长的数量,和/或所述参照集的至少两种NA分子的上述结果的至少一个比率,与所述预设的摩尔量进行比较和/或,在评估NA测序方法的情况下与分配读长的数量,和/或由此计算或预期的比率和/或输出进行比较。3.根据权利要求1或2的方法,其中所述NA是RNA或DNA,特别是RNA。4.一种产生模拟转录物变体的人工NA分子、优选RNA或DNA分子的参照集的方法,包括:A)从天然存在的真核生物基因、优选动物或植物基因、更优选脊椎动物基因、甚至更优选哺乳动物基因、特别是人类基因的组选择至少一个、优选至少两个、更优选至少三个、特别是至少五个基因;和B)为每个选择的基因选择至少两个、优选至少三个、更优选至少四个、特别是至少五个天然存在的mRNA转录物变体,其中每个转录物变体具有至少100nt的长度,并且包含至少一个外显子;和C)提供每个所述选择的包含至少一个外显子的天然存在的mRNA转录物变体的序列,任选地其中所述序列被转换为另一种NA类型,诸如DNA序列;和D)通过以下步骤修饰步骤C)的每个序列:将每个序列的每个外显子的序列替换为大约相同长度的序列,其中所述大约相同长度的序列选自:病毒序列、噬菌体序列、其反向序列,任何其他反向的天然存在的序列,非天然存在的序列,及其组合,优选所述大约相同长度的序列选自:病毒序列、噬菌体序列、其反向序列,非天然存在的序列,及其组合,优选所述大约相同长度的序列选自:病毒序列、噬菌体序列、其反向序列,及其组合,优选其中大约相同长度的序列通过任意其它二核苷酸,优选通过GT、GC或AT替换至多10个、优选至多5个、特别是至多2个或1个二核苷酸而相互独立地修饰,和/或通过任意其它二核苷酸,优选通过AG、AC或AT替换至多10个、优选至多5个、特别是至多2个或1个二核苷酸而相互独立地修饰,从而获得人工转录物序列集,条件是从相同选择的基因的所选择的天然存在的mRNA转录物变体的序列所获得的人工转录物序列共有长度至少为80nt的序列,其优选包含在单个外显子序列中,和优选条件是当步骤C)的序列的外显子序列与步骤C)的序列的另一个外显子序列相同时,外显子序列和另一外显子序列被大约相同长度的同一所述序列替换;和E)任选地复制步骤D)的集中的至少一个人工转录物序列,并将所述复制的序列添加到所述集中,从而获得包括用于步骤F)-J)中的一个或多个中的选择性修饰的拷贝的集;F)任选地将至少一个序列插入所述集中至少一个人工转录物序列,其中所述至少一个插入的序列中的每一个与步骤D)中的任何人工转录物序列的相同长度的有义或反义序列相同;G)任选地从所述集中至少一个人工转录物序列中去除至少一个长度范围为1nt至10000nt的序列,其中所述一个或多个人工转录物序列中的每一个保持在至少100nt的大小并且保持包含至少一个外显子序列;H)任选地通过5'截短序列直到5'末端是鸟苷,通过将第一碱基改变为鸟苷或通过在5'末端添加鸟苷,建立鸟苷为每个人工转录序列的第一核苷酸,优选通过5'截短序列直到5'末端是鸟苷或通过将第一碱基改变为鸟苷,特别是通过5'截短序列直到5'末端是鸟苷;I)任选地修饰所述集中的至少一个人工转录物序列,使得所述人工转录物序列集具有基本上随机分布出现的5'起始三核苷酸,所述5'起始三核苷酸选自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT,或者5'起始二核苷酸,所述5'起始二核苷酸选自AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,和/或3’终止二核苷酸,所述3’终止二核苷酸选自AC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TT;J)优选将多聚A尾序列添加到该集中人工转录物序列中的一个或多个、优选全部人工转录物序列,所述多聚A尾优选由至少10个、特别是至少20个腺苷组成;K)或优选步骤E-J中的至少两个的任何组合,优选其中每个方法步骤仅进行一次;和L)对于所述集中的每个人工转录物序列:物理合成包含完整人工转录物序列的NA分子;和M)优选地,如果步骤L)的NA分子是RNA分子,则向RNA分子物理添加5'帽结构;从而物理地获得模拟转录物变体的人工NA分子的参照集,优选是RNA或DNA分子的参照集。5.根据权利要求4所述的方法,其中进行步骤D)-G),优选所有步骤,条件是人工NA分子的参照集应当模拟真核生物基因、优选为动物或植物基因、更优选为脊椎动物基因、甚至更优选为哺乳动物基因、特别是人类基因的天然存在的选择性转录事件,并且所述事件优选选自:选择性转录物起始位点(TSS)、选择性转录物终止位点(TES)、反义转录物、重叠转录物,并且选择性剪接事件选自跳读的盒式外显子(CE)、内含子保留(IR)、相互排斥的外显子(MXE)、选择性3'剪接位点(A3SS)、选择性5'剪接位点(A5SS)、选择性第一个外显子(AFE)、选择性最后一个外显子(ALE)和反式剪接;和/或人工NA分子的参照集模拟选自以下的至少一种、优选至少两种、更优选至少三种、甚至更优选至少五种、特别是所有的选择性转录事件:选择性转录物起始位点(TSS)、选择性转录物终止位点(TES)、反义转录物、重叠转录物,并且选择性剪接事件选自跳读的盒式外显子(CE)、内含子保留(IR)、相互排斥的外显子(MXE)、选择性3'剪接位点(A3SS)、选择性5'剪接位点(A5SS)、选择性第一个外显子(AFE)、选择性最后一个外显子(ALE)和反式剪接;和/或其中所述人工NA分子的参照集的所有外显子序列内的所有内含子起始二核苷酸的至少50%、优选至少75%、特别是至少95%是GT,其中每个所述内含子起始二核苷酸是在参照集的另一种人工NA分子中不存在并从而代表所述另一种人工NA分子的内含子的序列的5'末端二核苷酸;和/或其中所述人工NA分子的参照集的所有外显子序列内的所有内含子末端二核苷酸的至少50%、优选至少75%、特别是至少95%是AT,其中每个所述内含子末端二核苷酸是在参照集的另一种人工NA分子中不存在并从而代表所述另一种人工NA分子的内含子的序列的5'末端二核苷酸;和/或其中所述人工NA分子的参照集具有500nt至2000nt、优选750nt至1500nt、特别是1000nt至1400nt的平均序列长度;并且优选具有300nt至1200nt、优选600nt至900nt、特别是700nt至800nt的标准偏差;其最小大小为至少100nt;并且优选具有10000nt的最大大小;和/或其中所述人工NA分子的参照集具有25%至55%的平均GC含量;和/或其中所述人工NA分子的参照集具有基本上随机分布出现的5'起始三核苷酸,所述5'起始三核苷酸选自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT,或者5'起始二核苷酸,所述5'起始二核苷酸选自AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,和/或3’终止二核苷酸,所述3’终止二核苷酸选自AC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TT;和/或其中所述参照集的每个人工NA分子具有鸟苷作为5'起始核苷酸;和/或其中所述参照集的人工NA分子中的至少一个、优选每个人工NA分子如果是RNA分子,则具有5'帽结构和/或具有至少10个、优选至少20个腺苷的多聚A尾。6.根据权利要求4或5所述的方法,还包括提供所述人工NA分子的参照集,其中所述参照集的至少两种、优选每种所述NA分子以预设的摩尔量存在,优选在相同的容器中;和优选其中至少两种NA分...
【专利技术属性】
技术研发人员:L·保罗,P·库巴拉,T·莱达,
申请(专利权)人:莱科赛根有限公司,
类型:发明
国别省市:奥地利;AT
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。