用于估算全基因组拷贝数变异的方法技术

技术编号：8910791 阅读：185 留言：0更新日期：2013-07-12 03:13

本文公开了确定位于样品中靶序列的检测位置处的基因组区域的拷贝数的方法。对样品中靶序列的基因组区域进行测序并且获得序列覆盖范围的测量数据。校正序列覆盖偏差并且可针对基线样品进行标准化。进行隐马尔可夫模型(HMM)分段、评分以及输出，并且在一些实施方案中，还可进行基于群体的无读取与低置信区域的鉴定。然后估算多个区域的总拷贝数值与区域特异的拷贝数值。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于估算全基因组拷贝数变异的方法专利技术背景基因组异常通常与各种遗传疾病、退行性疾病以及癌症关联。例如，癌症中基因拷贝的缺失或增加与基因片段或特定区域的缺失或扩增屡见不鲜。例如，原癌基因与肿瘤抑制基因各自的改变经常是肿瘤发生特有的。因此在肿瘤发生的研究与研发更好的诊断与预后方法中都对关联癌症和各种遗传疾病的特定基因区域的鉴定与克隆感兴趣。对应相对于同一组织类型的正常细胞，癌性细胞、原癌细胞或低转移潜能细胞中拷贝数的改变的多核苷酸的鉴定，为诊断工具提供了基础，通过为候选剂提供靶标促进药物发现，并且还用来鉴定更适合待被治疗的癌症类型的癌症治疗的治疗靶标。在诊断性基因组测序中，临床诊断的精确度要求进一步地加剧了涉及人类基因组中三十亿碱基对的序列分析的计算复杂性，从而使得必须分析600亿或更多的序列数据点以提供一个精确的基因组序列。早期的测序方法中通过从数以千计的孤立的、非常长的DNA片段中产生序列数据，从而保留序列信息的语境完整性并且减少精确数据所需的冗余测试来处理这一复杂性。然而，这种方法，用于产生第一个完整的人类基因组，在每一基因组上耗费了数亿美元，这是由于制备基因组片段的前期复杂性以及许多单独的生化试验的相对较高的成本。另外，每一人类细胞中基因组的两个不同的拷贝的存在进一步地加剧了基因组中的语境信息，从而使得精确的临床分析与诊断需要根据基因组拷贝辨别DNA序列的能力。因此，主要的挑战为辨别散布着数百万遗传的单核苷酸多态性(SNPs)、成千上万的短的插入与缺失以及数以百计的自发突变的三十亿DNA碱基的两个独特的拷贝间序列差异的能力。已研发了一些帮助鉴定完整的D...
用于估算全基因组拷贝数变异的方法

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.10.13 US 61/392,567;2011.06.30 US 61/503,327;1.通过一个或多个计算机系统进行的、用于确定样品中靶多核苷酸序列的检测位置处的基因组区域的拷贝数的方法，所述方法包括：使用从配对图谱所产生的数据获得所述样品的序列覆盖范围的测量数据；校正所述测量数据的序列覆盖偏差，其中校正所述测量数据包括进行关注倍性的基线校正；以及至少基于校正的测量数据，估算多个基因组区域中每一个的总拷贝数值与区域特异的拷贝数值。2.如权利要求1所述的方法，其中所述方法还包括基于校正的测量数据进行隐马尔可夫模型HMM分段、评分以及输出。3.如权利要求1所述的方法，其中所述方法还包括进行基于群体的无读取与低置信区间的鉴定。4.如权利要求1所述的方法，其中所述方法还包括通过与从基线样品获得的序列数据进行比较来标准化序列覆盖范围的测量数据。5.如权利要求1所述的方法，其中获得所述序列覆盖范围的测量数据包括测量基因组每个位置处的序列覆盖深度。6.如权利要求1所述的方法，其中校正所述测量数据的序列覆盖偏差包括计算窗口-求平均值的覆盖范围。7.如权利要求1所述的方法，其中校正所述测量数据的序列覆盖偏差包括进行调整以解释文库构建与测序过程中的GC偏差。8.如权利要求1所述的方法，其中校正所述测量数据的序列覆盖偏差包括基于与个体图谱有关的其它加权因子进行调整以弥补偏差。9.如权利要求1所述的方法，其中所述序列覆盖范围ci通过以下确定其中，DNB为核酸纳米球的序列，Mi为所有DNB上的图谱集，从而使得每一图谱中读取的碱基与位置i对齐，DNBm为通过图谱m所述的DNB，N(m)为涉及DNBm的所有图谱集，以及α为以不允许DNB绘制参照的方式产生DNB的概率。10.如权利要求1所述的方法，其中获得序列覆盖的测量数据包括：a)测定代表样品中基因组的多个随机的片段的序列的读数，其中所述多个提供了样品基因组的抽样，借此基因组平均一个碱基位置被抽样一次或多次；b)通过将所述读数映射至参照基因组，或通过将所述读数映射至组合序列来获得图谱数据；以及c)通过沿着所述参照基因组或沿着所述组合序列测量所抽样的序列的强度来获得覆盖数据，其中所述测量数据包括所述图谱数据与所述覆盖数据。11.如权利要求10所述的方法，其中测定所述读数还包括以下步骤：(a)提供多个扩增子，其中：i)每一扩增子包含靶核酸的片段的多个拷贝，ii)每一扩增子在所述片段的确定的位点处包含多个散布的接头，每一接头包含至少一个锚定探针杂交位点，iii)所述多个扩增子包含覆盖靶核酸的片段；(b)以使所述扩增子的大多数为光学可分辨的密度来提供固定于表面上的所述扩增子的随机阵列；(c)将一种或多种锚定探针与所述随机阵列杂交；(d)将一种或多种测序探针与所述随机阵列杂交，从而在所述一种或多种测序探针与靶核酸片段间形成极度匹配的双螺旋；(e)将所述锚定探针连接至所述测序探针；(f)鉴定邻近至少一个散布的接头的至少一个核苷酸；以及(g)重复步骤(c)-(f)直到鉴定出所述靶核酸的核苷酸序列，其中，步骤(a)至(g)通过测序仪进行。12.如权利要求2所述的方法，其中进行HMM分段还包括产生初始模型，所述初始模型基于总体覆盖分布估算状态数与它们的平均值。13.如权利要求12所述的方法，其中进行HMM分段包括通过修改模型中的状态数以及优化每一状态的参数中的一种或多种来优化初始模型。14.如权利要求12所述的方法，其中位置i处校正的覆盖范围为：其中，qm为图谱m的校正系数，DNB为核酸纳米球的序列，DNBm为通过图谱m所述的DNB，N(m)为涉及DNBm的所有图谱集，以及α为以不允许DNB绘制参照的方式产生DNB的概率。15.如权利要求4所述的方法，其中标准化测量数据包括通过使用以下等式确定标准化的校正的覆盖范围：其中，为标准化的校正的覆盖范围，为校平的覆盖范围，为基线样品的典型的二倍体覆盖范围的估算值，di’为基线样品位置i处的覆盖范围，pi为基线样品位置i处的倍性。16.如权利要求1所述的方法，其还包括使用序列覆盖估算以产生测序的片段至基因组上超过一个位置的映射，并且使用每一映射上的置信测量结果以将所述每一映射部分地归于每一检测位置。17.如权利要求1所述的方法，其还包括进行HMM计算以测定每一检测位置处的倍数。18.如权利要求1所述的方法，其还包括进行HMM计算以测定每一检测位置处的倍性得分，所述倍性得分代表所述检测位置处测定的倍数为正确的置信性。19.如权利要求1所述的方法，其还包括进行HMM计算以测定每一检测位置处的CNV类型得分，所述CNV类型得分代表在所述检测位置处所述测定的倍数正确地指示所述检测位置处减少的倍性，预测的倍性，或增加的倍性的置信性。20.如权利要求2所述的方法，其中HMM的多个状态对应于各自的拷贝数，并且其中如果样品为正常的样品，进行HMM分段、评分以及输出，其包括：对于拷贝数N大于0至N/2乘以预期为二倍体的样品部分中覆盖范围的中位数的每一状态，初始化HMM的发射分布的平均值；以及对于拷贝数为0至正值的状态，初始化发射分布的平均值，所述正值小于具有拷贝数1的状态所用的。21.如权利要求2所述的方法，其中HMM的多个状态对应于各自的拷贝数，并且其中如果样品为肿瘤样品，进行HMM分段、评分以及输出，其包括：估算状态数与基于覆盖分布的每一状态的平均值以产生HMM初始模型；通过修改模型中的状态数以及优化每一状态的参数来优化初始模型；以及通过向模型顺序添加状态然后顺序移除状态或其组合，修改模型中的状态数。22.如权利要求21所述的方法，其中修改初始模型包括：a)如果添加新的状态将与HMM关联的似然提高至超过第一预定的阈值，则在一对状态间添加所述新的状态；b)在每一对状态间循环地重复步骤a)直到不可能有更多的添加；c)如果状态的移除没有将似然减少超过第二预定的阈值，则从HMM移除所述状态；以及d)对所有的状态反复地重复步骤c)。23.如权利要求2所述的方法，其中HMM的多个状态对应于各自的拷贝数，并且其中进行HMM分段、评分以及输出，其包括，对于拷贝数N至常数乘以所述状态的发射分布的平均值的每一状态，初始化HMM的发射分布的方差。24....

【专利技术属性】
技术研发人员：亚伦·哈珀恩，克利须那·潘特，
申请(专利权)人：考利达基因组股份有限公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人