当前位置: 首页 > 专利查询>康希尔公司专利>正文

核酸重复序列计数的自动调用方法技术

技术编号:13634233 阅读:70 留言:0更新日期:2016-09-02 18:42
本公开涉及用于测定包含核酸重复序列区的DNA片段中核酸重复序列数目的方法。一个示例方法可以包括:接收通过解析DNA扩增产物生成的DNA大小和丰度数据。可以通过将低通滤波器应用于DNA大小和丰度数据来生成一组低通数据,可以通过将带通滤波器应用于DNA大小和丰度数据来生成一组带通数据。可以基于从低通数据和带通数据鉴别的峰来鉴别代表DNA中核酸重复序列数目的DNA大小和丰度数据中的峰。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请要求于2013年11月13日提交的题为“核酸重复序列计数的自动调用方法”的美国临时序列号61/903847和于2013年11月14日提交的题为“核酸重复序列计数的自动调用方法”的美国临时序列号61/904439的优先权,其全部内容通过引用并入本文用于所有目的。领域下面的公开一般涉及确定基因型,更具体地涉及确定与核酸重复序列相关的基因型。背景核酸重复序列与各种疾病相关。例如,在FMR1基因(OMIM*309550)的5'UTR中CGG三联体重复序列的扩展与智力迟钝最常见的遗传形式脆性X综合征(FXS,OMIM#300624)相关。这种重复序列扩展到全突变范围(>200个重复序列)引发FMR1的甲基化和转录沉默,导致FXS。在“正常”范围(5-44个重复序列)内,重复序列在几代之间是稳定的;中间的等位基因(45-54个重复序列)需要至少两代扩展到全突变;前突变等位基因(55-200个重复序列)当从母亲传给她的孩子时可以扩展到全突变。由于扩增长的三联体重复序列的难度,对于FXS携带者状态的传统测试依赖于Southern印迹法来检测扩展的CGG重复序列。聚合酶链式反应(PCR)方法的最新进展允许以相当于Southern印迹法的精度和灵敏度来检测这些重复序列。PCR产物的毛细管电泳使得量化CGG重复序列计数成为可能,但需要费力的峰调用和计数。概述本公开涉及用于测定包含核酸重复序列区(例如,CGG富集区)的DNA片段中核酸重复序列(例如,CGG重复序列)数目的方法。一个实例方法可以包括:接收通过解析DNA扩增产物生成的DNA大小和丰度数据。可以通过将低通滤波器应用于DNA大小和丰度数据来生成一组低通数据,可以通过将带通滤波器应用于DNA大小和丰度数据来生成一组带通数据。可以基于从低通数据和带通数据鉴别的峰来鉴别代表DNA中核酸重复序列数目的DNA大小和丰度数据中的一个或多个峰。因此,在一个方面,本公开提供了测定包含核酸重复序列区的DNA片段中核酸重复序列数目的方法。这些方法可以包括将DNA序列的高频信号与低频信号分离,以使混合的引物信号去卷积。在另一个方面,提供了确定与涉及个体中核酸重复序列的疾病相关的基因型的方法。这种方法有利于例如评估个体作为疾病等位基因携带者的风险,以及个体有患有这种疾病的儿童的概率。还提供了用于执行这些方法的系统和非临时性计算机可读存储介质。本文描述的所有参考文献通过引用整体并入本文。附图简要说明图1示出用于测定根据各种实施例的基因中核苷酸序列的重复序列数目的示例性方法。图2示出显示通过对示例性电泳痕迹采样而生成的信号或一组数据的曲线图,其中X轴标准化为CGG重复序列计数。图3示出显示低通和带通过滤图2所示的信号或一组数据的结果的曲线图。图4示出用于确定根据各种实施例的基因中核苷酸序列的重复序列数目的示例计算系统。图5示出60个表征的Coriell样本的验证和性能。图6示出通过自报种族划分的等位基因大小分布的对数级直方图。图7示出通过种族划分的等位基因大小的累积分布。图8示出大等位基因的分布。详述计算核酸重复序列的方法在一个方面,本公开提供了测定包含核酸重复序列区的DNA片段中的核酸重复序列数目的计算机实现方法。在一些实施方案中,提供了一种测定包含核酸重复序列区的DNA片段中核酸重复序列数目的计算机实现方法,该方法包括:a)将低通滤波器和带通滤波器应用于DNA扩增产物的DNA大小和丰度数据以生成一组低通数据和一组带通数据,该DNA扩增产物是通过使用引物组由包含核酸重复序列区的DNA片段生成,该引物组包括识别核酸重复序列区的第一引物和识别核酸重复序列区外部的区域的第二引物;b)基于低通数据和带通数据鉴别一个或多个终峰,其中该一个或多个终峰代表核酸重复序列区中的核酸重复序列的数目。在一些实施方案中,该引物组还包括识别核酸重复序列区外部的区域(其位于第二引物所识别的区域的对侧)的第三引物,其中第二引物和第三引物允许包含整个核酸重复序列区的区域的扩增。在一些实施方案中,核酸重复序列为2、3、4、5、6、7、8、9、10或更多个核苷酸的重复序列。在一些实施方案中,核酸重复序列是三核苷酸重复序列,包括但不限于CGG、GCC、GAA、CTG和CAG。在一些实施方案中,提供了一种用于测定包含核酸重复序列区的DNA片段中的核酸重复序列数目的计算机实现方法,该方法包括:a)由一个或多个处理器接收DNA扩增产物的DNA大小和丰度数据,该DNA扩增产物是通过使用引物组由包含核酸重复序列区的DNA片段生成,该引物组包括识别核酸重复序列区的第一引物和识别核
酸重复序列区外部的区域的第二引物;b)由一个或多个处理器通过以采样频率对DNA大小和丰度数据进行采样而生成一组样本数据;c)由一个或多个处理器通过将低通滤波器应用于该组样本数据而生成一组低通数据;d)由一个或多个处理器通过将带通滤波器应用于该组样本数据而生成一组带通数据;e)由一个或多个处理器鉴别低通数据中的一个或多个峰;f)由一个或多个处理器鉴别带通数据中的一个或多个峰;和g)基于低通数据中的一个或多个峰和带通数据中的一个或多个峰,由一个或多个处理器鉴别代表核酸重复序列数目的最终峰。在一些实施方案中,该引物组还包括识别核酸重复序列区外部的区域(其位于第二引物所识别的区域的对侧)的第三引物,其中第二引物和第三引物允许包含整个核酸重复序列区的区域的扩增。在一些实施方案中,提供了一种用于确定包含CGG富集区的DNA片段中CGG重复序列数目的计算机实现方法,该方法包括:a)由一个或多个处理器接收DNA扩增产物的DNA大小和丰度数据,该DNA扩增产物是通过使用引物组由包含CGG富集区的DNA片段生成,该引物组包括识别CGG富集区的第一引物和识别CGG富集区外部的区域的第二引物;b)由一个或多个处理器通过以采样频率对DNA大小和丰度数据进行采样而生成一组样本数据;c)由一个或多个处理器通过将低通滤波器应用于该组样本数据而生成一组低通数据;d)由一个或多个处理器通过将带通滤波器应用于该组样本数据而生成一组带通数据;e)由一个或多个处理器鉴别低通数据中的一个或多个峰;f)由一个或多个处理器鉴别带通数据中的一个或多个峰;和g)基于低通数据中的一个或多个峰和带通数据中的一个或多个峰,由一个或多个处理器鉴别代表包含CGG富集区的DNA片段中CGG重复序列数目的最终峰。在一些实施方案中,该引物组还包括识别CGG富集区外部的区域(其位于第二引物所识别的区域的对侧)的第三引物,其中第二引物和第三引物允许包含整个核酸重复序列区的区域的扩增。在根据上述任何方法的一些实施方案中,该方法还包括在步骤a)之前解析DNA扩增产物以生成DNA大小和丰度数据。解析可通过例如毛细管电泳进行。在一些实施方案中,电泳图是通过毛细管电泳生成的。在根据上述任何方法的一些实施方案中,该方法还包括在步骤b)之前由一个或多个处理器将DNA大小和丰度数据从采样(例如,时间)域转换为碱基对长度域。在一些实施方案中,使用DNA梯带将DNA大小和丰度数据从时域转换到碱基对长度域。在一些实施方案中,采样频率相当于每个碱基对2、3、4、5、6或更多样本的任一个。在根据上述任本文档来自技高网
...

【技术保护点】
一种用于测定包含CGG富集区的DNA中CGG重复序列数目的计算机实现方法,所述方法包括:a)由一个或多个处理器接收DNA扩增产物的DNA大小和丰度数据,所述DNA扩增产物通过使用引物组由包含CGG富集区的DNA生成,所述引物组包括识别CGG富集区的第一引物和识别CGG富集区外部的区域的第二引物;b)由一个或多个处理器通过以采样频率对DNA大小和丰度数据进行采样而生成一组样本数据;c)由一个或多个处理器通过将低通滤波器应用于该组样本数据而生成一组低通数据;d)由一个或多个处理器通过将带通滤波器应用于该组样本数据而生成一组带通数据;e)由一个或多个处理器鉴别低通数据中的一个或多个峰;f)由一个或多个处理器鉴别带通数据中的一个或多个峰;和g)基于低通数据中的一个或多个峰和带通数据中的一个或多个峰,由一个或多个处理器鉴别代表CGG富集区中CGG重复序列数目的最终峰。

【技术特征摘要】
【国外来华专利技术】2013.11.13 US 61/903,847;2013.11.14 US 61/904,4391.一种用于测定包含CGG富集区的DNA中CGG重复序列数目的计算机实现方法,所述方法包括:a)由一个或多个处理器接收DNA扩增产物的DNA大小和丰度数据,所述DNA扩增产物通过使用引物组由包含CGG富集区的DNA生成,所述引物组包括识别CGG富集区的第一引物和识别CGG富集区外部的区域的第二引物;b)由一个或多个处理器通过以采样频率对DNA大小和丰度数据进行采样而生成一组样本数据;c)由一个或多个处理器通过将低通滤波器应用于该组样本数据而生成一组低通数据;d)由一个或多个处理器通过将带通滤波器应用于该组样本数据而生成一组带通数据;e)由一个或多个处理器鉴别低通数据中的一个或多个峰;f)由一个或多个处理器鉴别带通数据中的一个或多个峰;和g)基于低通数据中的一个或多个峰和带通数据中的一个或多个峰,由一个或多个处理器鉴别代表CGG富集区中CGG重复序列数目的最终峰。2.根据权利要求1所述的计算机实现方法,还包括在步骤a)之前解析DNA扩增产物以生成DNA大小和丰度数据。3.根据权利要求2所述的计算机实现方法,其中所述解析是通过毛细管电泳进行。4.根据权利要求1-3任一项所述的计算机实现方法,还包括在步骤b)之前由一个或多个处理器将DNA大小和丰度数据从时间域转换为碱基对长度域。5.根据权利要求4所述的计算机实现方法,其中使用DNA梯带将DNA大小和丰度数据从时间域转换到碱基对长度域。6.根据权利要求1-5任一项所述的计算机实现方法,其中所述
\t采样频率等于每个碱基对4个样本。7.根据权利要求1-6任一项所述的计算机实现方法,其中所述带通滤波器具有为采样频率的2/13的低截止频率和为采样频率的2/11的高截止频率。8.根据权利要求1-7任一项所述的计算机实现方法,其中所述低通滤波器具有采样频率乘以1.0*10-5的截止频率。9.根据权利要求1-8任一项所述的计算机实现方法,其中所述低通滤波器和所述带通滤波器是使用汉明窗口实现的零相位有限脉冲响应(FIR)滤波器。10.根据权利要求1-9任一项所述的计算机实现方法,其中通过以所述采样频率对DNA大小和丰度数据采样而生成样本数据组包括:生成DNA大小和丰度数据的线性内插;和以所述采样频率对DNA大小和丰度数据的线性内插进行采样。11.根据权利要求1-10任一项所述的计算机实现方法,其中该组样本数据包括代表CGG富集区的CGG系列和包含CGG富集区的DNA的全长扩增子的组合的信号,该组带通数据包括代表CGG富集区的CGG系列的信号,该组低通数据包括代表包含CGG富集区的DNA的全长扩增子的信号。12.根据权利要求1-11任一项所述的计算机实现方法,其中鉴别代表包含CGG富集区的DNA中的CGG重复序列数目的最终峰包括:从低通数据中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈值的峰;从带通数据中的一个或多个峰中除去宽度小于4.5个碱基对且高度小于阈值的峰;从带通数据中的一个或多个峰中除去高度小于具有较大碱基对长度的相邻峰的高度的峰;响应于低通数据中的一个或多个峰中的某一峰,其高度小于带通
\t数据中的一个或多个峰中的某一峰的高度,且其在低通数据的一个或多个峰的峰的3个碱基对内,将低通数据中的一个或多个峰的某一峰的中心设定为带通数据中的一个或多个峰的某一峰的中心,将低通数据中的一个或多个峰的某一峰的边界设定为低通数据中的一个或多个峰的某一峰和带通数据中的一个或多个峰的某一峰的并集;将低通数据中的一个或多个峰中和带通数据中的一个或多个峰中碱基对长度大于165个碱基对且在彼此的30个碱基对内的峰合并;和将低通数据中的一个或多个峰中和带通数据中的一个或多个峰中碱基对在15个内且其高度相差大于两倍的峰合并;其中低通数据中的一个或多个峰的其余峰是最终峰。13.根据权利要求1-12任一项所述的计算机实现方法,其中所述含CGG富集区的DNA是脆性X智力迟钝1基因(FMR1)的5'-UTR。14.根据权利要求1-13任一项所述的计算机实现方法,其中所述包含CGG富集区的DNA是脆性X智力迟钝2基因(FMR2)的5'-UTR。15.根据权利要求1-14任一项所述的计算机实现方法,其中所述第一引物包含至少4个CGG或CCG重复序列。16.根据权利要求1-15任一项所述的计算机实现方法,其中所述引物组还包括识别CGG富集区外部的且位于第二引物所识别的区域对侧的区域的第三引物。17.一种用于测定与个体脆性X综合征相关的基因型的计算机实现方法,所述方法包括:a)使用引物组执行DNA扩增反应,所述引物组包括识别FMR1基因的5'UTR上的CGG富集区的第一引物和识别FMR1基因的5'UTR上的CGG富集区外部的区域的第二引物;b)解析DNA扩增产物以获得DNA大小和丰度数据;c)将低通滤波器和带通滤波器应用于DNA大小和丰度数据,以鉴别代表FMR1基因的...

【专利技术属性】
技术研发人员:A·S·帕特森I·S·哈奎E·A·伊万斯C·查
申请(专利权)人:康希尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1