用于估算全基因组拷贝数变异的方法技术

技术编号:8910791 阅读:185 留言:0更新日期:2013-07-12 03:13
本文公开了确定位于样品中靶序列的检测位置处的基因组区域的拷贝数的方法。对样品中靶序列的基因组区域进行测序并且获得序列覆盖范围的测量数据。校正序列覆盖偏差并且可针对基线样品进行标准化。进行隐马尔可夫模型(HMM)分段、评分以及输出,并且在一些实施方案中,还可进行基于群体的无读取与低置信区域的鉴定。然后估算多个区域的总拷贝数值与区域特异的拷贝数值。

【技术实现步骤摘要】
【国外来华专利技术】用于估算全基因组拷贝数变异的方法专利技术背景基因组异常通常与各种遗传疾病、退行性疾病以及癌症关联。例如,癌症中基因拷贝的缺失或增加与基因片段或特定区域的缺失或扩增屡见不鲜。例如,原癌基因与肿瘤抑制基因各自的改变经常是肿瘤发生特有的。因此在肿瘤发生的研究与研发更好的诊断与预后方法中都对关联癌症和各种遗传疾病的特定基因区域的鉴定与克隆感兴趣。对应相对于同一组织类型的正常细胞,癌性细胞、原癌细胞或低转移潜能细胞中拷贝数的改变的多核苷酸的鉴定,为诊断工具提供了基础,通过为候选剂提供靶标促进药物发现,并且还用来鉴定更适合待被治疗的癌症类型的癌症治疗的治疗靶标。在诊断性基因组测序中,临床诊断的精确度要求进一步地加剧了涉及人类基因组中三十亿碱基对的序列分析的计算复杂性,从而使得必须分析600亿或更多的序列数据点以提供一个精确的基因组序列。早期的测序方法中通过从数以千计的孤立的、非常长的DNA片段中产生序列数据,从而保留序列信息的语境完整性并且减少精确数据所需的冗余测试来处理这一复杂性。然而,这种方法,用于产生第一个完整的人类基因组,在每一基因组上耗费了数亿美元,这是由于制备基因组片段的前期复杂性以及许多单独的生化试验的相对较高的成本。另外,每一人类细胞中基因组的两个不同的拷贝的存在进一步地加剧了基因组中的语境信息,从而使得精确的临床分析与诊断需要根据基因组拷贝辨别DNA序列的能力。因此,主要的挑战为辨别散布着数百万遗传的单核苷酸多态性(SNPs)、成千上万的短的插入与缺失以及数以百计的自发突变的三十亿DNA碱基的两个独特的拷贝间序列差异的能力。已研发了一些帮助鉴定完整的DNA序列中拷贝数变体(“CNV”)以及有助于基于序列与参照序列或与序列的多种不同的拷贝比较的鉴定可信性的方法。在这些方法中,拷贝数的鉴定与其确认都基于样品的不同系列,并且此类方法中所用的数据相对地易于出错,众所周知地含有某些人为偏差。专利技术概述本专利技术提供了用于确定位于样品中靶多核苷酸序列的检测位置处的基因组区域的拷贝数的方法。所述方法包括:获得所述样品序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中序列覆盖偏差校正包括进行关注倍性的基线校正;以及估算多个基因组区域的总拷贝数值与区域特异的拷贝数值。在一实施方案中,方法包括进行隐马尔可夫模型(HMM)分段、评分以及输出。在另一实施方案中,方法包括进行基于群体的无读取(no-calling)与低置信区域的鉴定。在一方面,方法还包括通过与基线样品比较来标准化序列覆盖范围。在一方面,方法还包括通过测量样品基因组的每一位置处的序列覆盖深度来确定序列覆盖范围。在一方面,方法还包括通过计算窗口-求平均值的覆盖范围校正序列偏差。在一方面,方法还包括在文库构建与测序过程中进行解释GC偏差的调整。在另一实施方案中,方法还包括基于与个体图谱关联的其它权重因子进行调整以弥补偏差。在一方面,方法还包括通过测序仪所进行的步骤,所述步骤包括:a)提供多个扩增子,其中:i)每一扩增子包含靶核酸的片段的多个拷贝,ii)每一扩增子在片段的确定的位点处包含多个散布的接头,每一接头包含至少一个锚定探针杂交位点,以及iii)所述多个扩增子包含基本上覆盖靶核酸的片段;b)提供以这样的密度固定于表面上的所述扩增子的随机阵列,所述密度使得所述扩增子的至少大多数为光学可分辨的;c)将一种或多种锚定探针与所述随机阵列杂交;d)将一种或多种测序探针与所述随机阵列杂交,从而在所述一种或多种测序探针与靶核酸片段间形成极度匹配的双螺旋;e)将锚定探针连接至测序探针;以及f)鉴定邻近至少一个散布的接头的至少一个核苷酸;以及g)重复步骤(c)-(f)直到鉴定出所述靶核酸的核苷酸序列。在一方面,方法还包括通过进行以下的步骤测定测量数据,所述步骤包括:a)测定代表样品中基因组的多个大约随机的片段的序列的读数,其中所述多个提供了样品基因组的抽样,借此基因组平均一个碱基位置被抽样一次或多次;b)通过将所述读数映射至参照基因组,或通过将所述读数映射至组合序列(例如诸如样品自身的组合序列或有关的基线样品的组合序列)获得所述读数的图谱数据;以及c)通过沿着参照基因组或沿着组合序列测量所述读数的强度获得覆盖数据,其中测量数据包括图谱数据与覆盖数据。在另一实施方案中,方法还包括初始模型的生成,所述初始模型基于整体覆盖分布估算状态数与它们的平均数。在另一实施方案中,方法还包括通过向模型顺序添加状态然后从模型顺序移除状态或其组合,优化初始模型。在另一实施方案中,标准化还包括标准化的校正的覆盖范围的测定。在另一实施方案中,方法还包括通过片段复制测定序列覆盖范围和获得将图谱极少地归因于每一检测位置的置信测量值。在一方面,方法包括进行HMM计算以确定每一检测位置处倍数。在另一实施方案中,方法还包括产生对应于各自拷贝数的多个隐马尔可夫模型(HMM)状态,其中如果样品为正常样品,则进行HMM分段、评分以及输出,其包括:对于拷贝数N大于0至N/2乘以预期为二倍体的样品部分中覆盖范围的中位数的每一状态,初始化HMM的发射分布的平均值;以及对于拷贝数为0-正值(小于具有拷贝数1的状态所用的)的状态,初始化发射分布的平均值。在另一实施方案中,方法还包括产生对应各自拷贝数的多个HMM状态,其中如果样品为肿瘤样品,则进行HMM分段、评分以及输出,其包括估算状态数与基于覆盖分布的每一状态的平均值以产生HMM初始模型;通过修改模型中的状态数以及优化每一状态的参数来优化初始模型;以及通过向模型顺序添加状态然后顺序移除状态或其组合,修改模型中的状态数。在另一实施方案中,方法还包括,调整初始模型,其包括:a)如果添加新的状态将与HMM关联的似然提高至超过第一预定的阈值,则在一对状态间添加所述新的状态;b)在每一对状态间循环地重复步骤(a)直到不可能有更多的添加;c)如果状态的移除没有将似然减少超过第二预定的阈值,则从HMM移除所述状态;以及d)对所有的状态反复地重复步骤(c)。另一实施方案包括在其上面具有存储指令的计算机可读的永久性存储介质,其用于测定在样品中靶多核苷酸序列的检测位置处基因组区域的拷贝数,当由计算机处理器执行时,所述指令引起处理器进行以下操作:使用从配对图谱所产生的数据获得所述样品序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;以及至少基于校正的测量数据,估算多个基因组区域的每一个区域的总拷贝数值与区域特异的拷贝数值。另一个实施方案包括具有明确呈现在其上的指令的计算机可读的永久性存储介质,当由计算机处理器执行时,所述指令引起处理器进行以下操作:获得包含靶序列的生物样品的序列覆盖范围的测量数据;校正测量数据的序列覆盖偏差,其中校正测量数据包括进行关注倍性的基线校正;基于校正的测量数据,进行隐马尔可夫模型(HMM)分段、评分以及输出;基于HMM得分与输出,进行基于群体的无读取与低置信区域的鉴定;以及估算多个区域的总拷贝数值与区域特异的拷贝数值。另一实施方案包括用于确定靶序列的检测位置处基因组区域的拷贝数变异的系统,其包含:a.计算机处理器;以及b.与所述处理器连接的计算机可读的存储介质,所述存储介质具有明确呈现其上的指令,当由计算机处理器本文档来自技高网...
用于估算全基因组拷贝数变异的方法

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.10.13 US 61/392,567;2011.06.30 US 61/503,327;1.通过一个或多个计算机系统进行的、用于确定样品中靶多核苷酸序列的检测位置处的基因组区域的拷贝数的方法,所述方法包括:使用从配对图谱所产生的数据获得所述样品的序列覆盖范围的测量数据;校正所述测量数据的序列覆盖偏差,其中校正所述测量数据包括进行关注倍性的基线校正;以及至少基于校正的测量数据,估算多个基因组区域中每一个的总拷贝数值与区域特异的拷贝数值。2.如权利要求1所述的方法,其中所述方法还包括基于校正的测量数据进行隐马尔可夫模型HMM分段、评分以及输出。3.如权利要求1所述的方法,其中所述方法还包括进行基于群体的无读取与低置信区间的鉴定。4.如权利要求1所述的方法,其中所述方法还包括通过与从基线样品获得的序列数据进行比较来标准化序列覆盖范围的测量数据。5.如权利要求1所述的方法,其中获得所述序列覆盖范围的测量数据包括测量基因组每个位置处的序列覆盖深度。6.如权利要求1所述的方法,其中校正所述测量数据的序列覆盖偏差包括计算窗口-求平均值的覆盖范围。7.如权利要求1所述的方法,其中校正所述测量数据的序列覆盖偏差包括进行调整以解释文库构建与测序过程中的GC偏差。8.如权利要求1所述的方法,其中校正所述测量数据的序列覆盖偏差包括基于与个体图谱有关的其它加权因子进行调整以弥补偏差。9.如权利要求1所述的方法,其中所述序列覆盖范围ci通过以下确定其中,DNB为核酸纳米球的序列,Mi为所有DNB上的图谱集,从而使得每一图谱中读取的碱基与位置i对齐,DNBm为通过图谱m所述的DNB,N(m)为涉及DNBm的所有图谱集,以及α为以不允许DNB绘制参照的方式产生DNB的概率。10.如权利要求1所述的方法,其中获得序列覆盖的测量数据包括:a)测定代表样品中基因组的多个随机的片段的序列的读数,其中所述多个提供了样品基因组的抽样,借此基因组平均一个碱基位置被抽样一次或多次;b)通过将所述读数映射至参照基因组,或通过将所述读数映射至组合序列来获得图谱数据;以及c)通过沿着所述参照基因组或沿着所述组合序列测量所抽样的序列的强度来获得覆盖数据,其中所述测量数据包括所述图谱数据与所述覆盖数据。11.如权利要求10所述的方法,其中测定所述读数还包括以下步骤:(a)提供多个扩增子,其中:i)每一扩增子包含靶核酸的片段的多个拷贝,ii)每一扩增子在所述片段的确定的位点处包含多个散布的接头,每一接头包含至少一个锚定探针杂交位点,iii)所述多个扩增子包含覆盖靶核酸的片段;(b)以使所述扩增子的大多数为光学可分辨的密度来提供固定于表面上的所述扩增子的随机阵列;(c)将一种或多种锚定探针与所述随机阵列杂交;(d)将一种或多种测序探针与所述随机阵列杂交,从而在所述一种或多种测序探针与靶核酸片段间形成极度匹配的双螺旋;(e)将所述锚定探针连接至所述测序探针;(f)鉴定邻近至少一个散布的接头的至少一个核苷酸;以及(g)重复步骤(c)-(f)直到鉴定出所述靶核酸的核苷酸序列,其中,步骤(a)至(g)通过测序仪进行。12.如权利要求2所述的方法,其中进行HMM分段还包括产生初始模型,所述初始模型基于总体覆盖分布估算状态数与它们的平均值。13.如权利要求12所述的方法,其中进行HMM分段包括通过修改模型中的状态数以及优化每一状态的参数中的一种或多种来优化初始模型。14.如权利要求12所述的方法,其中位置i处校正的覆盖范围为:其中,qm为图谱m的校正系数,DNB为核酸纳米球的序列,DNBm为通过图谱m所述的DNB,N(m)为涉及DNBm的所有图谱集,以及α为以不允许DNB绘制参照的方式产生DNB的概率。15.如权利要求4所述的方法,其中标准化测量数据包括通过使用以下等式确定标准化的校正的覆盖范围:其中,为标准化的校正的覆盖范围,为校平的覆盖范围,为基线样品的典型的二倍体覆盖范围的估算值,di’为基线样品位置i处的覆盖范围,pi为基线样品位置i处的倍性。16.如权利要求1所述的方法,其还包括使用序列覆盖估算以产生测序的片段至基因组上超过一个位置的映射,并且使用每一映射上的置信测量结果以将所述每一映射部分地归于每一检测位置。17.如权利要求1所述的方法,其还包括进行HMM计算以测定每一检测位置处的倍数。18.如权利要求1所述的方法,其还包括进行HMM计算以测定每一检测位置处的倍性得分,所述倍性得分代表所述检测位置处测定的倍数为正确的置信性。19.如权利要求1所述的方法,其还包括进行HMM计算以测定每一检测位置处的CNV类型得分,所述CNV类型得分代表在所述检测位置处所述测定的倍数正确地指示所述检测位置处减少的倍性,预测的倍性,或增加的倍性的置信性。20.如权利要求2所述的方法,其中HMM的多个状态对应于各自的拷贝数,并且其中如果样品为正常的样品,进行HMM分段、评分以及输出,其包括:对于拷贝数N大于0至N/2乘以预期为二倍体的样品部分中覆盖范围的中位数的每一状态,初始化HMM的发射分布的平均值;以及对于拷贝数为0至正值的状态,初始化发射分布的平均值,所述正值小于具有拷贝数1的状态所用的。21.如权利要求2所述的方法,其中HMM的多个状态对应于各自的拷贝数,并且其中如果样品为肿瘤样品,进行HMM分段、评分以及输出,其包括:估算状态数与基于覆盖分布的每一状态的平均值以产生HMM初始模型;通过修改模型中的状态数以及优化每一状态的参数来优化初始模型;以及通过向模型顺序添加状态然后顺序移除状态或其组合,修改模型中的状态数。22.如权利要求21所述的方法,其中修改初始模型包括:a)如果添加新的状态将与HMM关联的似然提高至超过第一预定的阈值,则在一对状态间添加所述新的状态;b)在每一对状态间循环地重复步骤a)直到不可能有更多的添加;c)如果状态的移除没有将似然减少超过第二预定的阈值,则从HMM移除所述状态;以及d)对所有的状态反复地重复步骤c)。23.如权利要求2所述的方法,其中HMM的多个状态对应于各自的拷贝数,并且其中进行HMM分段、评分以及输出,其包括,对于拷贝数N至常数乘以所述状态的发射分布的平均值的每一状态,初始化HMM的发射分布的方差。24....

【专利技术属性】
技术研发人员:亚伦·哈珀恩克利须那·潘特
申请(专利权)人:考利达基因组股份有限公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1