一种检测CNV的精确断点及断点周围特征的方法及装置制造方法及图纸

技术编号:12699674 阅读:164 留言:0更新日期:2016-01-13 19:00
本发明专利技术公开了一种检测CNV的精确断点及断点周围特征的方法,包括以下步骤:使用已知的CNV检测软件检测模糊的CNV断点;提取模糊的CNV断点周围异常的read pairs;找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,我们通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;获取断点周围特征;本发明专利技术还公开了一种检测CNV的精确断点及断点周围特征的装置;本发明专利技术检测CNV的精确断点及断点周围特征的方法及装置重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征。

【技术实现步骤摘要】

本专利技术涉及CNV断点检测领域,尤其涉及一种检测CNV的精确断点及断点周围特征的方法及装置
技术介绍
目前,有很多方法被用来检测CNV,比如split-read的方法(AGE, Pindel,ClipCrop),paired-end 的方法(BreakDancer,PEMer),read-depth 的方法(ReadDepth,CNVnator,CNV-seq), sequence assembly的方法,及综合方法(DELLY:),这些方法中很多可以达到单碱基水平的精度,并且具有很高的精确度和灵敏度。但是,受到很多因素的影响,比如mapping error,测序错误及存在microhomology的情况等,这些方法检测出来的断点与真实的精确断点还是具有几十bp的差异的。同时,很多检测CNV的方法都是针对检测全基因组的CNV来设计的,因此一般功能比较受局限,细节部分不能完善,不能同时检测断点周围特征(micro—mutat1ns,insert sequence and microhomology 等),只會^检测部分特征,比如Breakseq软件可以检测microhomology。
技术实现思路
本专利技术的目的之一是克服现有技术的不足而提供了一种检测CNV的精确断点及断点周围特征的方法。本专利技术采用的技术方案为:一种检测CNV的精确断点及断点周围特征的方法,包括以下步骤:使用已知的CNV检测软件检测模糊的CNV断点;提取模糊的CNV断点周围异常的read pairs ;找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过1bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。作为对上述技术方案的进一步改进,所述步骤I)中,CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq 中的至少两种。使用多个 CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。作为对上述技术方案的更进一步改进,所述步骤I)中,CNV检测软件为Breakdancer、DELLY 和 CNVnator0作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insert1ns)和微突变(micro-mutat1ns)。本专利技术的目的之二是提供了一种检测CNV的精确断点及断点周围特征的装置。本专利技术采用的技术方案为:一种检测CNV的精确断点及断点周围特征的装置,包括:模糊CNV断点检测模块,用于使用已知的CNV检测软件检测模糊的CNV断点;异常read pairs提取模块,与所述模糊CNV断点检测模块相连,用于提取模糊的CNV断点周围异常的read pairs ;精确CNV断点获取模块,与所述异常read pairs提取模块相连,用于找出一端比对上而另一端被截断的:read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过1bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;精确CNV断点验证模块,与所述精确CNV断点获取模块相连,用于根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点;新序列建立模块,与所述精确CNV断点验证模块相连,用于提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;断点周围特征获取模块,与所述新序列建立模块相连,用于提取精确的CNV断点周围所有的read pairs JGread pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的insert1ns,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来,用于后续CNV产生及DNA修复机制的分析。作为对上述技术方案的进一步改进,所述CNV检测软件为Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少两种。使用多个CNV检测软件,寻找出几乎一样或者离得极尽的CNV断点,即认为此断点为模糊的CNV断点,这样可以提高精确的CNV断点检测的准确率。作为对上述技术方案的更进一步改进,所述CNV检测软件为Breakdancer、DELLY和 CNVnator。作为对上述技术方案的进一步改进,所述断点周围特征包括微同源(microhomologies)、插入(insert1ns)和微突变(micro-mutat1ns)。相对于现有技术,本专利技术的有益效果为:本专利技术的检测CNV的精确断点及断点周围特征的方法重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies, insert1ns和micro-mutat1ns)。这些详细的信息可帮助研究者进行临床诊断及验证,帮助病人知道详细的CNV的变异信息,同时可帮助科学家研究CNV的发生机制及DNA的修复机制。【附图说明】图1是本专利技术检测CNV的精确断点及断点周围特征的方法的流程示意图;图2是本专利技术实施例中使用breakdancer、delly和cnvnator软件确定模糊CNV断点的过程示意图;图3是本专利技术实施例中确定精确的CNV断点的过程示意图;图4是本专利技术实施例中验证样本两端CNV断点是否正常的过程示意图;图5是本专利技术实施例中获取断点周围特征的过程示意图;图6是本专利技术检测CNV的精确断点及断点周围特征的装置的结构示意图。【具体实施方式】本专利技术的目的是提供检测CNV的精确断点及断点周围特征的方法和装置,本专利技术重点考虑到比对错误,测序错误及相似序列的存在等多种因素,帮助检测CNV的精确断点及断点周围特征(microhomologies, insert1ns 和 micro-mutat1ns)。图1是本专利技术检测CNV的精确断点及断本文档来自技高网...
一种检测CNV的精确断点及断点周围特征的方法及装置

【技术保护点】
一种检测CNV的精确断点及断点周围特征的方法,其特征在于:包括以下步骤:使用已知的CNV检测软件检测模糊的CNV断点;提取模糊的CNV断点周围异常的read pairs;找出一端比对上而另一端被截断的read pairs,当这样的read pairs位于断点附近且有超过3个被截断超过10bp的高质量reads时,通过计算高质量reads的mapping部分及被剪切部分,即可得到两个精确的CNV断点;根据异常的insert size的read pairs来验证两个精确的CNV断点是否是目标CNV的两个断点,若验证是,则进入下一步;提取5’端上游及3’端下游,各2000bp的参考基因组序列,构建成4000bp的新序列,同时把5’端上游2000bp、CNV以及3’端下游2000bp这段区间内的参考基因组序列提取出来作为第二个新序列;提取精确的CNV断点周围所有的read pairs,把read pairs比对到这两条新序列上面来重新检测变异,对于重新检测的变异,结合新序列的在染色体的物理坐标,得到断点周围特征;对于精确的CNV断点连接处的插入,用blast在这条染色体上进行搜索,并将精确的CNV断点附近的匹配结果提取出来。...

【技术特征摘要】

【专利技术属性】
技术研发人员:朱文娟
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1