检测拷贝数变异的方法和装置制造方法及图纸

技术编号:7786655 阅读:295 留言:0更新日期:2012-09-21 07:53
本发明专利技术公开了一种检测拷贝数变异的方法和装置。其中,该方法包括对测序后的每个样本序列分别进行过滤;将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的序列进行筛选,确定每个唯一比对的样本序列的位置信息;根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值;根据初始变点阈值确定目标样本拷贝数变异变点初始集;根据候选变点阈值合并目标样本拷贝数变异变点初始集以得到目标样本拷贝数变异候选区域;根据设定的拷贝数比率阈值从目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。本发明专利技术能够通过简单地增加测序深度提高检测灵敏度,得到更加准确的拷贝数变异边界,同时能够检测到更小的拷贝数变异。

【技术实现步骤摘要】

本专利技术涉及基因工程
,特别地,涉及一种检测拷贝数变异的方法和装置
技术介绍
拷贝数变异(Copy Number Variations, CNVs)是指与基因组参考序列相比,基因组中长度大于等于1000碱基(Ikb)且以不同拷贝数存在的DNA片段,其形式包括插入、缺失、扩增,及其相互组合衍生出的复杂变异。Redon等根据拷贝数变异的遗传和组成形式将拷贝数变异分为5类(a)缺失;(b)扩增;(c)同一位点并发的缺失与扩增;(d)多等位基因位点(multiple alleles) ; (e)复杂难以描述的位点。通常,扩增比缺失更为常见,且覆盖更大的范围。具体来说,拷贝数变化可以通过破坏基因编码蛋白的活性部分、改变基因的表达、或者破坏基因组控制基因活性的调节区域等影响基因的活性。寻找拷贝数变异有助于在有遗传可能性的区域里寻找关键基因。 目前已实现检测拷贝数变异的方法主要有基于大插入片段的比较基因组杂交、代表性寡核苷酸微阵列分析、基于长的等温寡核苷酸探针的比较基因组杂交和单核苷酸多态(Single Nucleotide Polymorphism, SNP)芯片等。其中,SNP芯片是目前通量最高、使用范围最广的全基因组拷贝数变异分析平台。但是,由于当前的SNP芯片探针在基因组分布不均衡,很多片段重复(Segment Duplications, SDs)和复杂拷贝数变异区域设计SNP探针较困难,所以当前的各种拷贝数变异全基因组扫描技术平台仍然具有一定的局限性,对于更小的拷贝数变异检出效力有限,同时实验费用较高等。
技术实现思路
本专利技术要解决的一个技术问题是提供一种检测拷贝数变异的方法和装置,能够在高通量测序数据背景下检测目标样本与对照样本间发生拷贝数变异的区域。根据本专利技术的一方面,提出了一种检测拷贝数变异的方法,包括在对每个样本进行高通量测序后,对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本和对照样本;将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于参考基因组序列的位置信息,并对位置信息进行排序;根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值;根据初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集;根据候选变点阈值通过迭代法合并目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域;根据设定的拷贝数比率阈值从目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。根据本专利技术方法的一个实施例,根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值的步骤包括将唯一比对的对照样本序列随机分为两部分,并确保分割后的第一对照样本序列和第二对照样本序列均包含全部的基因组信息;根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集,将对照样本拷贝数变异变点初始集中最小拷贝数比率差异对应的P值设置为初始变点阈值,并去除第一对照样本序列和第二对照样本序列中未被对照样本拷贝数变异变点初始集选中的位点信息;根据设定的变点集参数通过迭代法合并对照样本拷贝数变异变点初始集,并将合并后的对照样本拷贝数变异变点集中最小拷贝数比率差异对应的P值设置为候选变点阈值。根据本专利技术方法的另一实施例,根据初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集的步骤包括将唯一比对的目标样本序列和唯一比对的对照样本序列比对到参考基因组序列,根据唯一比对的对照样本序列确定与参考基因组比对上的起始位点集;根据设定的窗长滑动计算起始位点集中每个位点的拷贝数比率差异对应的P值;在起始位点集中选取拷贝数比率差异对应的P值小于初始变点阈值的位点,将所选出的位点构成的集合作为目标样本拷贝数变异变点初始集,并去除唯一比对的对照样本序列和唯一比对的目标样本序列中未被选取的位点信息。根据本专利技术方法的又一实施例,根据候选变点阈值通过迭代法合并目标样本拷贝 数变异变点初始集,以得到目标样本拷贝数变异候选区域的步骤包括在目标样本拷贝数变异变点初始集中,以各变点间区域为窗口计算唯一比对的目标样本与唯一比对的对照样本间的拷贝数比率差异对应的P值;将目标样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除目标样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至所剩变点中对应的最大P值小于候选变点阈值或不存在变点。根据本专利技术方法的再一实施例,根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集的步骤包括将第一对照样本序列和第二对照样本序列比对到参考基因组序列,根据第一对照样本序列或第二对照样本序列确定与参考基因组比对上的起始位点集;根据设定的窗长滑动计算起始位点集中每个位点对应的P值;对起始位点集中每个位点对应的P值按从小到大的顺序排序;根据设定的变点初始集参数按照P值从小到大的顺序选取位点,每选取一个位点,将所选取位点的左右窗口中的所有位点对应的P值设置为1,并将选取的位点作为对照样本拷贝数变异变点初始集中的变点元素。根据本专利技术方法的再一实施例,根据设定的变点集参数通过迭代法合并对照样本拷贝数变异变点初始集的步骤包括在对照样本拷贝数变异变点初始集中,以各变点间区域为窗口计算第一对照样本与第二对照样本间的拷贝数比率差异对应的P值;将对照样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除对照样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至对照样本拷贝数变异变点初始集中所剩变点个数满足设定的变点集参数。根据本专利技术的另一方面,还提出了一种检测拷贝数变异的装置,包括序列过滤模块,用于对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本和对照样本;序列比对模块,与序列过滤模块相连,用于将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于参考基因组序列的位置信息,并对位置信息进行排序;阈值确定模块,与序列比对模块相连,用于根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值;目标样本变点初始集确定模块,与序列比对模块和阈值确定模块相连,用于根据初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集;目标样本变点集确定模块,与目标样本变点初始集确定模块和阈值确定模块相连,用于根据候选变点阈值通过迭代法合并目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域;拷贝数变异确定模块,与目标样本变点集确定模块相连,用于根据设定的拷贝数比率阈值从目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。根据本专利技术装置的一个实施例,阈值确定模块包括序列分割单元,用于将唯一比对的对照样本序列随机分为两部分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种检测拷贝数变异的方法,其特征在于,包括 在对每个样本进行高通量测序后,对测序所得的每个样本序列分别进行过滤,以去除掉不合格的序列和接头序列,其中,样本包括目标样本和对照样本; 将过滤后的每个样本序列分别比对到参考基因组序列,对比对后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于所述参考基因组序列的位置信息,并对位置信息进行排序; 根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值; 根据所述初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集; 根据所述候选变点阈值通过迭代法合并所述目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域; 根据设定的拷贝数比率阈值从所述目标样本拷贝数变异候选区域中过滤出目标样本的拷贝数变异区域。2.根据权利要求I所述的方法,其特征在于,所述根据唯一比对的对照样本序列确定初始变点阈值和候选变点阈值的步骤包括 将唯一比对的对照样本序列随机分为两部分,并确保分割后的第一对照样本序列和第二对照样本序列均包含全部的基因组信息; 根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集,将所述对照样本拷贝数变异变点初始集中最小拷贝数比率差异对应的P值设置为所述初始变点阈值,并去除所述第一对照样本序列和所述第二对照样本序列中未被所述对照样本拷贝数变异变点初始集选中的位点信息; 根据设定的变点集参数通过迭代法合并所述对照样本拷贝数变异变点初始集,并将合并后的对照样本拷贝数变异变点集中最小拷贝数比率差异对应的P值设置为所述候选变点阈值。3.根据权利要求I所述的方法,其特征在于,根据所述初始变点阈值确定唯一比对的目标样本序列与唯一比对的对照样本序列间的目标样本拷贝数变异变点初始集的步骤包括 将唯一比对的目标样本序列和唯一比对的对照样本序列比对到所述参考基因组序列,根据唯一比对的对照样本序列确定与所述参考基因组比对上的起始位点集; 根据设定的窗长滑动计算所述起始位点集中每个位点的拷贝数比率差异对应的P值;在所述起始位点集中,选取拷贝数比率差异对应的P值小于所述初始变点阈值的位点,将所选出的位点构成的集合作为所述目标样本拷贝数变异变点初始集,并去除所述唯一比对的对照样本序列和所述唯一比对的目标样本序列中未被选取的位点信息。4.根据权利要求I所述的方法,其特征在于,根据所述候选变点阈值通过迭代法合并所述目标样本拷贝数变异变点初始集,以得到目标样本拷贝数变异候选区域的步骤包括 在所述目标样本拷贝数变异变点初始集中,以各变点间区域为窗口计算所述唯一比对的目标样本与唯一比对的对照样本间的拷贝数比率差异对应的P值; 将所述目标样本拷贝数变异变点初始集中每个变点对应的P值进行排序,去除P值最大的变点信息,重新计算所去除的P值最大的变点的左右两个变点对应的P值,再去除所述目标样本拷贝数变异变点初始集中所剩变点中P值最大的变点信息,直至所剩变点中对应的最大P值小于所述候选变点阈值或不存在变点。5.根据权利要求2所述的方法,其特征在于,所述根据设定的变点初始集参数确定第一对照样本序列和第二对照样本序列间的对照样本拷贝数变异变点初始集的步骤包括 将第一对照样本序列和第二对照样本序列比对到所述参考基因组序列,根据第一对照样本序列或第二对照样本序列确定与所述参考基因组比对上的起始位点集; 根据设定的窗长滑动计算所述起始位点集中每个位点对应的P值; 对所述起始位点集中每个位点对应的P值按从小到大的顺序排序; 根据设定的变点初始集参数按照P值从小到大的顺序选取位点,每选取一个位点,将所选取位点的左右窗口中的所有位点对应的P值设置为1,并将选取的位点作为所述对照样本拷贝数变异变点初始集中的变点元素。6.根据权利要求2所述的方法,其特征在于,所述根据设定的变点集参数通过迭代法合并所述对照样本拷贝数变异变点初始集的步骤包括 在所述对照样本拷贝数变异变点初始集中,以各变点间区域为窗口计算...

【专利技术属性】
技术研发人员:李林高志博李祥春
申请(专利权)人:深圳华大基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1