The invention discloses a method and system for determining copy number variation. An exemplary method may include applying a sample grouping technique to select the reference data coverage, coverage of the data includes a plurality of genomic regions of samples were normalized, and the choice of reference data coverage based on the hybrid model fitting to the normalized sample coverage data. The exemplary method can include a mixture model based on the normalized sample coverage data and the fitting model, and identify one or more copy number variation (CNV) based on Hidden Markov model (HMM). The example method can include the output of one or more copies of the copy number variation.
【技术实现步骤摘要】
【国外来华专利技术】用于拷贝数变异检测的方法和系统相关专利申请的交叉引用本申请要求2015年5月18日提交的美国非临时申请14/714,949的优先权,该非临时申请据此全文以引用的方式并入本文。
技术介绍
基因组测序是发现孟德尔疾病遗传基础的有效工具。基因组序列的分析揭示了拷贝数变异(CNV)(例如,个体的基因型中特定基因的拷贝数)的存在。CNV可能在人类疾病和/或药物反应中起到重要作用。然而,从基因组序列数据(例如外显子组序列数据)调用CNV具有挑战性。目前的解决方案是从人类测序读段深度检测CNV,但不太适合数万或数十万数量级的外显子组的大规模人群研究。它们的局限性尤其包括难于整合到自动变异调用管道中,并且不适合检测常见变异。这些和其他缺点在本公开中得以解决。
技术实现思路
应当理解,以下一般描述和以下详细描述仅仅是示例性和解释性的,而非限制性的。本专利技术公开了用于确定拷贝数变异的方法和系统。示例性方法可以包括应用样本分组技术来选择参考覆盖度数据,对包括多个基因组区域的样本覆盖度数据进行归一化,以及基于所选择的参考覆盖度数据将混合模型拟合到归一化的样本覆盖度数据。示例性方法可以包括基于归一化的样本覆盖度数据和拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异(CNV)。示例性方法可以包括输出所述一个或多个拷贝数变异。在一个方面,另一种示例性方法可以包括提供包括多个基因组区域的样本覆盖度数据,并且接收参考覆盖度数据的指示。可以基于样本分组技术来选择参考覆盖度数据。该方法可以包括选择一个或多个过滤器来应用于样本覆盖度数据,以便对样本覆盖度数据进行归一化,并且请求基于 ...
【技术保护点】
一种方法,包括:应用样本分组技术来选择参考覆盖度数据;对包括多个基因组区域的样本覆盖度数据进行归一化;基于所选择的参考覆盖度数据将混合模型拟合到所述归一化的样本覆盖度数据;基于所述归一化的样本覆盖度数据和所述拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异(CNV);以及输出所述一个或多个拷贝数变异。
【技术特征摘要】
【国外来华专利技术】2015.05.18 US 14/714,9491.一种方法,包括:应用样本分组技术来选择参考覆盖度数据;对包括多个基因组区域的样本覆盖度数据进行归一化;基于所选择的参考覆盖度数据将混合模型拟合到所述归一化的样本覆盖度数据;基于所述归一化的样本覆盖度数据和所述拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异(CNV);以及输出所述一个或多个拷贝数变异。2.根据权利要求1所述的方法,其中应用样本分组技术来选择参考覆盖度数据包括:接收所述样本覆盖度数据的多个度量;基于所述多个度量来定义所述样本覆盖度数据和所述参考覆盖度数据之间的距离度量;以及基于所述距离度量为每个样本选择所述参考覆盖度数据。3.根据权利要求1所述的方法,其中所述样本分组技术包括聚类算法、分类算法或它们的组合。4.根据权利要求1所述的方法,其中所述样本分组技术包括k-最近邻(knn)算法,并且应用所述样本分组技术来选择参考覆盖度数据,所述方法包括:对与所述参考覆盖度数据相关联的多个度量进行缩放;基于与所述参考覆盖度数据相关联的所述经缩放的多个度量来生成k-d树;对与所述样本覆盖度数据相关联的多个度量进行缩放;基于与所述样本覆盖度数据相关联的所述经缩放的多个度量,将所述样本覆盖度数据添加到所述k-d树;以及将与所述样本覆盖度数据的预定数量的最近邻识别为所选择的参考覆盖度数据。5.根据权利要求1所述的方法,还包括将所述多个基因组区域划分成一个或多个调用窗口。6.根据权利要求5所述的方法,其中对包括多个基因组区域的样本覆盖度数据进行归一化包括:确定调用窗口w的原始覆盖度;以所述调用窗口w的GC分数为条件,确定跨所述一个或多个调用窗口的所述样本覆盖度数据的中值覆盖度;以及将所述原始覆盖度除以所述中值覆盖度,从而得到所述归一化的样本覆盖度数据。7.根据权利要求6所述的方法,其中以所述调用窗口w的GC分数为条件,确定跨所述多个窗口的所述样本覆盖度数据的中值覆盖度包括:通过GC分数对所述一个或多个调用窗口进行装仓,从而得到多个仓;确定所述多个仓中的每个仓的中值覆盖度;以及使用在最接近所述调用窗口w的两个仓的所述中值覆盖度之间的线性插值来确定每个不同的可能GC分数的归一化因子。8.根据权利要求1所述的方法,还包括过滤所述样本覆盖度数据。9.根据权利要求8所述的方法,其中过滤所述样本覆盖度数据包括:基于所述多个基因组区域中的基因组区域的可作图性得分来过滤一个或多个调用窗口;以及基于多拷贝重复基因组区域中的调用窗口的出现来过滤所述一个或多个调用窗口。10.根据权利要求9所述的方法,其中基于可作图性得分来过滤所述一个或多个调用窗口包括:确定所述多个基因组区域中的每个基因组区域的可作图性得分;以及如果所述多个基因组区域中的所述基因组区域的所述可作图性得分低于预定阈值,则排除所述一个或多个调用窗口中的包含所述多个基因组区域中的所述基因组区域的调用窗口。11.根据权利要求9所述的方法,其中基于多拷贝重复基因组区域中的调用窗口的出现来过滤所述一个或多个调用窗口包括:如果所述一个或多个调用窗口中的调用窗口出现在已知存在多拷贝重复的区域内,则排除所述一个或多个调用窗口中的所述调用窗口。12.根据权利要求5所述的方法,还包括根据所选择的参考覆盖度数据来训练所述混合模型。13.根据权利要求12所述的方法,其中基于所选择的参考覆盖度数据将混合模型拟合到所述归一化的样本覆盖度数据包括:确定多个混合模型,所述多个基因组区域中的每个基因组区域具有一个混合模型,其中所述多个混合模型的每个分量包括概率分布,所述概率分布表示以特定拷贝数为条件的预期归一化的覆盖度;以及使用期望最大化算法将所述多个混合模型拟合到所述归一化的样本覆盖度数据,以确定所述一个或多个调用窗口中的每个调用窗口处的每个拷贝数的似然值,其中所选择的参考覆盖度数据被输入到所述期望最大化算法。14.根据权利要求13所述的方法,其中基于所述归一化的样本覆盖度数据和所述拟合的混合模型,根据隐马尔可夫模型(HMM)来识别一个或多个拷贝数变异包括:将所述一个或多个调用窗口中的每个调用窗口的所述归一化的样本覆盖度数据输入到所述HMM中;基于所述混...
【专利技术属性】
技术研发人员:J·雷德,L·赫碧嘉,J·帕克,E·麦克斯韦,
申请(专利权)人:瑞泽恩制药公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。