用于拷贝数变异检测的方法和系统技术方案

技术编号:17490863 阅读:80 留言:0更新日期:2018-03-17 13:49
本发明专利技术公开了用于确定拷贝数变异的方法和系统。示例性方法可以包括应用样本分组技术来选择参考覆盖度数据,对包括多个基因组区域的样本覆盖度数据进行归一化,以及基于所选择的参考覆盖度数据将混合模型拟合到所述归一化的样本覆盖度数据。示例性方法可以包括基于所述归一化的样本覆盖度数据和所述拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异(CNV)。示例性方法可以包括输出所述一个或多个拷贝数变异。

Method and system for copy number variation detection

The invention discloses a method and system for determining copy number variation. An exemplary method may include applying a sample grouping technique to select the reference data coverage, coverage of the data includes a plurality of genomic regions of samples were normalized, and the choice of reference data coverage based on the hybrid model fitting to the normalized sample coverage data. The exemplary method can include a mixture model based on the normalized sample coverage data and the fitting model, and identify one or more copy number variation (CNV) based on Hidden Markov model (HMM). The example method can include the output of one or more copies of the copy number variation.

【技术实现步骤摘要】
【国外来华专利技术】用于拷贝数变异检测的方法和系统相关专利申请的交叉引用本申请要求2015年5月18日提交的美国非临时申请14/714,949的优先权,该非临时申请据此全文以引用的方式并入本文。
技术介绍
基因组测序是发现孟德尔疾病遗传基础的有效工具。基因组序列的分析揭示了拷贝数变异(CNV)(例如,个体的基因型中特定基因的拷贝数)的存在。CNV可能在人类疾病和/或药物反应中起到重要作用。然而,从基因组序列数据(例如外显子组序列数据)调用CNV具有挑战性。目前的解决方案是从人类测序读段深度检测CNV,但不太适合数万或数十万数量级的外显子组的大规模人群研究。它们的局限性尤其包括难于整合到自动变异调用管道中,并且不适合检测常见变异。这些和其他缺点在本公开中得以解决。
技术实现思路
应当理解,以下一般描述和以下详细描述仅仅是示例性和解释性的,而非限制性的。本专利技术公开了用于确定拷贝数变异的方法和系统。示例性方法可以包括应用样本分组技术来选择参考覆盖度数据,对包括多个基因组区域的样本覆盖度数据进行归一化,以及基于所选择的参考覆盖度数据将混合模型拟合到归一化的样本覆盖度数据。示例性方法可以包括基于归一化的样本覆盖度数据和拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异(CNV)。示例性方法可以包括输出所述一个或多个拷贝数变异。在一个方面,另一种示例性方法可以包括提供包括多个基因组区域的样本覆盖度数据,并且接收参考覆盖度数据的指示。可以基于样本分组技术来选择参考覆盖度数据。该方法可以包括选择一个或多个过滤器来应用于样本覆盖度数据,以便对样本覆盖度数据进行归一化,并且请求基于参考覆盖度数据将混合模型拟合到归一化的样本覆盖度数据。该方法可以包括请求基于归一化的样本覆盖度数据和拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异。该方法还可以包括接收所述一个或多个拷贝数变异的指示。在一个方面,另一种示例性方法可以包括接收包括多个基因组区域的样本覆盖度数据,检索样本覆盖度数据的一个或多个度量,将样本分组技术应用于样本覆盖度数据和参考覆盖度数据以选择参考覆盖度数据的子集,对包括所述多个基因组区域的样本覆盖度数据进行归一化,以及基于参考覆盖度数据的该子集将混合模型拟合到归一化的样本覆盖度数据。该方法可以包括基于归一化的样本覆盖度数据和拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异。该方法可以包括输出所述一个或多个拷贝数变异。额外的优点将在下面的说明书中部分阐述,或者可以通过实践来了解。这些优点将通过所附权利要求中特别指出的要素和组合来实现和获得。附图说明并入本说明书中且构成本说明书一部分的附图示出了实施方案,并且与说明书一起用于解释所述方法和系统的原理:图1是示出示例性CNV调用管道的流程图;图2是示出用于确定拷贝数变异的示例性方法的流程图;图3显示了示出GC含量与覆盖度的关系的坐标图;图4是示出各种外显子的归一化覆盖度的坐标图;图5是示出用于估计拷贝数变异的另一种示例性方法的流程图;图6是示出用于估计拷贝数变异的又一种示例性方法的流程图;图7是示出用于执行本专利技术所公开的方法的示例性操作环境的框图;图8比较了CLAMMS与其他算法的RAM使用量;图9是示出CEPH系谱上的CNV调用(calls)的性能度量的表格;图10显示了与PennCNV金标准相比的CLAMMS和XHMMCNV调用;图11显示了示出罕见CNVTaqMan验证的表格;图12显示了示出常见CNVTaqMan验证的表格;图13是比较LILRA3常见变异基因座的CLAMMS和TaqMan拷贝数预测的坐标图;图14是比较LILRA3常见变异基因座的CLAMMS和TaqMan拷贝数预测的坐标图;并且图15是一个示例性输出。具体实施方式在公开和描述本专利技术的方法和系统之前,应当理解,所述方法和系统不限于特定的方法、特定的部件或具体的实施方式。还应当理解,本文所用的术语仅出于描述具体实施方案的目的,并且不旨在是限制性的。如说明书和所附权利要求中所用,单数形式“一个”、“一种”和“该”包括多个指代物,除非上下文另有明确规定。范围可以在本文中表示为从“约”一个具体值和/或到“约”另一个具体值。当表示这样的范围时,另一个实施方案包括从该一个具体值和/或到该另一具体值。类似地,当使用先行词“约”将值表示为近似值时,应当理解,该具体值构成另一个实施方案。还应当理解,每个范围的端值无论是与另一个端值相关联还是独立于另一个端值,都是有意义的。“任选的”或“任选地”是指后述的事件或情形可发生或可不发生,并且该描述包括所述事件或情形发生的情况以及不发生的情况。在本说明书的整个描述和权利要求书中,词语“包括(comprise)”及其变形,诸如“comprising”和“comprises”,都是指“包括但不限于”,并非意图排除例如其他部件、整数或步骤。“示例性”是指“…的示例”,并非意图传达优选或理想实施方案的指示。“诸如”不是在限制性意义上使用,而是出于说明目的。应当理解,本专利技术所公开的方法和组合物不限于所描述的具体方法、方案和试剂,因为它们可以变化。还应当理解,本文所用的术语仅出于描述具体实施方案的目的,并非意图限制本专利技术的方法和系统的范围,该范围将仅由所附权利要求限制。除非另有定义,否则本文使用的所有技术和科学术语具有与本专利技术所公开的方法和组合物所属领域的技术人员通常理解的相同的含义。尽管与本文所述的那些类似或等同的任何方法和材料都可用于本专利技术的方法和组合物的实践或测试中,但所描述的是特别有用的方法、设备和材料。本文中引述的出版物及其中引述的材料据此明确地以引用方式并入。本文的任何内容都不得解释为承认本专利技术由于在先专利技术而无权早日出版。不承认任何参考文献构成现有技术。参考文献的讨论陈述了其作者所论断的内容,并且申请人保留质疑所引述文献的准确性和适当性的权利。应当清楚地理解,尽管本文参考了许多出版物,但是这种参考并不等同于承认这些文献中的任何文献构成本领域中一般常识的一部分。本专利技术公开了可用于执行所公开的方法和系统的部件。本文公开了这些和其他部件,并且应当理解,当公开这些部件的组合、子集、相互作用、组等时,虽然可能没有明确地公开特指这些部件的各个不同独立和集合的组合与排列,但对于所有方法和系统而言,本文对每一个都进行了具体设想和描述。这适用于本申请的所有方面,包括但不限于本专利技术所公开的方法中的步骤。因此,如果有多个可实施的附加步骤,则应当理解,可以利用本专利技术所公开的方法的任何特定实施方案或实施方案的组合来实施这些附加步骤中的每一个。通过参考优选实施方案的以下详细描述和其中包括的示例以及附图及其先前和以下描述可更容易地理解本专利技术的方法和系统。如本领域技术人员将理解的,所述方法和系统可以采取完全硬件实施方案、完全软件实施方案或结合软件和硬件方面的实施方案的形式。此外,所述方法和系统可以采取计算机可读存储介质上的计算机程序产品的形式,所述计算机可读存储介质中存储有计算机可读程序指令(例如,计算机软件)。更具体地讲,本专利技术的方法和系统可以采取网络实现的计算机软件的形式。可以使用任何合适的计算机可读存储介质,包括硬盘、CD-ROM、光存储设备或磁存储设备。本文档来自技高网...
用于拷贝数变异检测的方法和系统

【技术保护点】
一种方法,包括:应用样本分组技术来选择参考覆盖度数据;对包括多个基因组区域的样本覆盖度数据进行归一化;基于所选择的参考覆盖度数据将混合模型拟合到所述归一化的样本覆盖度数据;基于所述归一化的样本覆盖度数据和所述拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异(CNV);以及输出所述一个或多个拷贝数变异。

【技术特征摘要】
【国外来华专利技术】2015.05.18 US 14/714,9491.一种方法,包括:应用样本分组技术来选择参考覆盖度数据;对包括多个基因组区域的样本覆盖度数据进行归一化;基于所选择的参考覆盖度数据将混合模型拟合到所述归一化的样本覆盖度数据;基于所述归一化的样本覆盖度数据和所述拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异(CNV);以及输出所述一个或多个拷贝数变异。2.根据权利要求1所述的方法,其中应用样本分组技术来选择参考覆盖度数据包括:接收所述样本覆盖度数据的多个度量;基于所述多个度量来定义所述样本覆盖度数据和所述参考覆盖度数据之间的距离度量;以及基于所述距离度量为每个样本选择所述参考覆盖度数据。3.根据权利要求1所述的方法,其中所述样本分组技术包括聚类算法、分类算法或它们的组合。4.根据权利要求1所述的方法,其中所述样本分组技术包括k-最近邻(knn)算法,并且应用所述样本分组技术来选择参考覆盖度数据,所述方法包括:对与所述参考覆盖度数据相关联的多个度量进行缩放;基于与所述参考覆盖度数据相关联的所述经缩放的多个度量来生成k-d树;对与所述样本覆盖度数据相关联的多个度量进行缩放;基于与所述样本覆盖度数据相关联的所述经缩放的多个度量,将所述样本覆盖度数据添加到所述k-d树;以及将与所述样本覆盖度数据的预定数量的最近邻识别为所选择的参考覆盖度数据。5.根据权利要求1所述的方法,还包括将所述多个基因组区域划分成一个或多个调用窗口。6.根据权利要求5所述的方法,其中对包括多个基因组区域的样本覆盖度数据进行归一化包括:确定调用窗口w的原始覆盖度;以所述调用窗口w的GC分数为条件,确定跨所述一个或多个调用窗口的所述样本覆盖度数据的中值覆盖度;以及将所述原始覆盖度除以所述中值覆盖度,从而得到所述归一化的样本覆盖度数据。7.根据权利要求6所述的方法,其中以所述调用窗口w的GC分数为条件,确定跨所述多个窗口的所述样本覆盖度数据的中值覆盖度包括:通过GC分数对所述一个或多个调用窗口进行装仓,从而得到多个仓;确定所述多个仓中的每个仓的中值覆盖度;以及使用在最接近所述调用窗口w的两个仓的所述中值覆盖度之间的线性插值来确定每个不同的可能GC分数的归一化因子。8.根据权利要求1所述的方法,还包括过滤所述样本覆盖度数据。9.根据权利要求8所述的方法,其中过滤所述样本覆盖度数据包括:基于所述多个基因组区域中的基因组区域的可作图性得分来过滤一个或多个调用窗口;以及基于多拷贝重复基因组区域中的调用窗口的出现来过滤所述一个或多个调用窗口。10.根据权利要求9所述的方法,其中基于可作图性得分来过滤所述一个或多个调用窗口包括:确定所述多个基因组区域中的每个基因组区域的可作图性得分;以及如果所述多个基因组区域中的所述基因组区域的所述可作图性得分低于预定阈值,则排除所述一个或多个调用窗口中的包含所述多个基因组区域中的所述基因组区域的调用窗口。11.根据权利要求9所述的方法,其中基于多拷贝重复基因组区域中的调用窗口的出现来过滤所述一个或多个调用窗口包括:如果所述一个或多个调用窗口中的调用窗口出现在已知存在多拷贝重复的区域内,则排除所述一个或多个调用窗口中的所述调用窗口。12.根据权利要求5所述的方法,还包括根据所选择的参考覆盖度数据来训练所述混合模型。13.根据权利要求12所述的方法,其中基于所选择的参考覆盖度数据将混合模型拟合到所述归一化的样本覆盖度数据包括:确定多个混合模型,所述多个基因组区域中的每个基因组区域具有一个混合模型,其中所述多个混合模型的每个分量包括概率分布,所述概率分布表示以特定拷贝数为条件的预期归一化的覆盖度;以及使用期望最大化算法将所述多个混合模型拟合到所述归一化的样本覆盖度数据,以确定所述一个或多个调用窗口中的每个调用窗口处的每个拷贝数的似然值,其中所选择的参考覆盖度数据被输入到所述期望最大化算法。14.根据权利要求13所述的方法,其中基于所述归一化的样本覆盖度数据和所述拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异包括:将所述一个或多个调用窗口中的每个调用窗口的所述归一化的样本覆盖度数据输入到所述HMM中;基于所述混...

【专利技术属性】
技术研发人员:J·雷德L·赫碧嘉J·帕克E·麦克斯韦
申请(专利权)人:瑞泽恩制药公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1