一种染色体变异检测装置制造方法及图纸

技术编号:18050316 阅读:40 留言:0更新日期:2018-05-26 08:14
本发明专利技术涉及一种染色体变异检测装置,该染色体变异检测装置通过将目标区域捕获测序数据转化为低深度全基因组测序数据,从而基于捕获测序数据实现低深度全基因组检测的功能。本发明专利技术的染色体变异检测装置包括数据获取模块、窗口划分模块、数据转换模块、数据矫正模块、以及染色体变异判定模块。

【技术实现步骤摘要】
一种染色体变异检测装置
本专利技术涉及全基因组检测领域,尤其涉及一种将目标区域捕获测序数据转换为低深度的全基因组测序数据,并能用于全基因组相关检测的数据转换处理装置及方法。
技术介绍
通过基于全基因组或者全外显子测序的染色体拷贝数变异(copynumbervariant,CNV)检测,能够获得染色体异常的信息。上述检测中,通过对整个基因组或者全部的外显子区域测序,利用callCNV的方法来获取整个染色体的CNV信息,以此推断是否存在染色体变异。因此,这种方法产出的测序数据量非常大(其中包含大量无法利用的数据),实验和分析过程的各项成本也比较高。另一方面,捕获测序是通过预先设计好的探针,对基因组上的目标区域DNA片段进行抓取,并对抓取到的DNA片段进行测序。捕获测序具有低成本、高效率的特点。但是,捕获测序中,只有40%-60%左右的数据(其反映了有外显子覆盖的目标区域的信息)被利用。
技术实现思路
本专利技术人发现,捕获测序中未被利用的数据并非毫无意义,其反映了染色体上非目标区域的信息,如在测序数据处理过程中将其转化为低深度全基因组测序可利用的形式,则可以基于捕获测序数据实现低深度全基因组检测的功能。因此,本专利技术的目的在于提供一种能够基于捕获测序数据实现低深度全基因组检测的功能的染色体变异检测装置。为了实现上述目的,本专利技术提供:1.一种染色体变异检测装置,其包含下述模块:数据获取模块,用于获取目标区域捕获测序数据;窗口划分模块:其与所述数据获取模块相连接,用于针对不同的参考基因组,按照用户给定的窗口长度对参考基因组序列划分窗口,生成各个窗口对应的GC含量以及匹配率(mappability);数据转换模块:其与所述窗口划分模块相连接,用于将目标区域捕获测序数据转换成近似于低深度全基因组测序数据;数据矫正模块:其与所述非目标区域覆盖深度值计算模块相连接,用于利用划分窗口后计算得到的GC值以及匹配率值,分别进行LOESS矫正;该矫正能够减少因芯片不同区域捕获情况不同造成的差异,从而降低数据的波动性;染色体变异判定模块:其与所述数据矫正模块相连接,用于判定是否存在染色体变异。染色体变异判定模块例如利用现有的拷贝数变异检测R包(DNAcopy)将矫正后的数据按染色体以及DOC值进行划分,同一个染色体上位置相邻且DOC值相近的区域划分到一起,这个划分过程具体实现算法是循环二元分割算法(Circularbinarysegmentation,CBS),从而实现将平均DOC值不同的区域区分开,再利用现有的隐马尔科夫算法(HMM)给这些划分后得到的DOC值进行定性判断,从而确定哪些染色体片段是变异的,哪些是正常的。2.根据项1所述的染色体变异检测装置,其中,所述数据转换模块包括下述子模块:目标区域识别子模块,其与所述窗口划分模块相连接,用于对目标区域的reads进行标记(例如,可以利用现有的工具MACS1.4),并去除测试样本和参考基因组中被标记的目标区域(peaks)(可利用例如现有的工具bedtools);数据转换核心子模块,其与所述目标区域识别子模块相连接,用于计算非补偿深度覆盖度值(uncompensatedDOC)及补偿DOC值(compensatedDOC),所述非补偿DOC值是指窗口内去除peaks区域部分的DOC值(例如,可利用Rsamtools工具进行计算),所述补偿DOC值根据下述公式计算compensatedDOC=uncompensatedDOC*binsize/(binsize-x),该公式中,compensatedDOC表示补偿DOC值,uncompensatedDOC表示非补偿DOC值,binsize表示窗口的长度,x表示窗口内属于peaks区域的长度。该数据转换核心模块在去除了peaks区域的reads后,计算非目标区域的深度覆盖值(DepthofCoverage,DOC),首先利用例如Rsamtools计算窗口内去除peaks区域部分的DOC值,记为非补偿深度覆盖度值(uncompensatedDOC),再计算窗口内属于peaks区域的长度x,所以整个窗口的DOC值经过公式转换记为(补偿DOC值),具体转换公式如下:compensatedDOC=uncompensatedDOC*binsize/(binsize-x)。所述数据转换模块实现了下述功能:将窗口内属于peaks区域的reads去除后计算得到的非peaks区域的DOC值等比例扩展到整个窗口,即实现了用非目标区域的测序数据表示整个基因组,且转换后得到的数据能够排除基因突变的影响,真实的反映出整个染色体的情况。3.根据项1或2所述的染色体变异检测装置,其中,该染色体变异检测装置还包括过滤模块,所述数据获取模块和所述窗口划分模块通过所述过滤模块相连接,所述过滤模块用于将不合格及低质量的测序数据滤除。4.根据项1~3中任一项所述的染色体变异检测装置,其中,所述窗口划分模块首先检测用户设定的窗口划分长度是否满足1Kb的整数倍,如果是,则根据测试样本要用到的参考基因组比如人群样本用到的hg19参考基因组,将参考基因组按染色体、窗口大小(例如20Kb)进行窗口划分,并给出每个窗口对应的GC值、匹配率。5.根据项1~4中任一项所述的染色体变异检测装置,其中,所述数据矫正模块利用所述窗口划分模块生成的窗口GC含量和匹配率对所述数据转换模块计算得到的补偿DOC值进行LOESS矫正,得到DOCloess值。这样能够减小数据波动。6.根据项5中任一项所述的染色体变异检测装置,其中,所述数据矫正模块对所述DOCloess值再按如下公式进行一次中值矫正:log2DOCloess=log2(DOCloess/median(DOCloess)),该公式中,log2DOCloess表示最终的DOC值,median(DOCloess)表示所有窗口的DOCloess值的中值。这样能够更明显地区分正常区域和非正常区域。7.根据项5或6所述的染色体变异检测装置,其中,染色体变异判定模块包括:分片子模块:其与所述数据矫正模块相连接,用于将所述log2DOCloess值按照一定的规则进行分片,从而确定CNV断点的位置并将其展现出来;异常报告子模块:其与所述分片子模块相连接,用于利用分片后的数据进行差异性分析,报告不同片段的异常状态信息。所述异常状态信息的内容包括但不限于加倍(duplication)和缺失(deletion)。8.根据项1~7中任一项所述的染色体变异检测装置,其中,所述数据转换模块还包括下述子模块:过滤子模块,其与所述窗口划分模块相连接,用于过滤除去不合格的测序片段;例如可以利用samtools工具计算测试样本的bam文件中各个reads的phred值,并将phred值小于37的reads过滤掉;测序片段计数子模块,其与所述过滤子模块相连接,用于统计过滤后剩下的测序片段,并将其存放到指定文件(例如新的bam文件)中;所述目标区域识别子模块与所述测序片段计数子模块相连接。9.一种染色体变异检测方法,其包括:数据获取步骤,获取目标区域捕获测序数据;窗口划分步骤,针对不同的参考基因组,按照用户给定的窗口长度对参考基因组序列划分窗口,生成各个窗口对应的GC含量以及匹本文档来自技高网...
一种染色体变异检测装置

【技术保护点】
一种染色体变异检测装置,其包含下述模块:数据获取模块,用于获取对测试样本进行目标区域捕获测序而得到目标区域捕获测序数据;窗口划分模块,其与所述数据获取模块相连接,用于针对不同的参考基因组,按照给定的窗口长度对参考基因组序列划分窗口,生成各个窗口对应的GC含量以及匹配率;数据转换模块,其与所述窗口划分模块相连接,用于将目标区域捕获测序数据转换成低深度全基因组测序数据;数据矫正模块,其与所述数据转换模块相连接,用于利用划分窗口后计算得到的GC值以及匹配率值,分别进行LOESS矫正;以及染色体变异判定模块:其与所述数据矫正模块相连接,用于判定是否存在染色体变异。

【技术特征摘要】
1.一种染色体变异检测装置,其包含下述模块:数据获取模块,用于获取对测试样本进行目标区域捕获测序而得到目标区域捕获测序数据;窗口划分模块,其与所述数据获取模块相连接,用于针对不同的参考基因组,按照给定的窗口长度对参考基因组序列划分窗口,生成各个窗口对应的GC含量以及匹配率;数据转换模块,其与所述窗口划分模块相连接,用于将目标区域捕获测序数据转换成低深度全基因组测序数据;数据矫正模块,其与所述数据转换模块相连接,用于利用划分窗口后计算得到的GC值以及匹配率值,分别进行LOESS矫正;以及染色体变异判定模块:其与所述数据矫正模块相连接,用于判定是否存在染色体变异。2.根据权利要求1所述的染色体变异检测装置,其中,所述数据转换模块包括下述子模块:目标区域识别子模块,其与所述窗口划分模块相连接,用于对目标区域的测序片段进行标记,并去除测试样本和参考基因组中被标记的目标区域;以及数据转换核心子模块,其与所述目标区域识别子模块相连接,用于计算非补偿深度覆盖度值及补偿DOC值,所述非补偿DOC值是指窗口内去除目标区域部分的DOC值,所述补偿DOC值根据下述公式计算,compensatedDOC=uncompensatedDOC*binsize/(binsize-x),该公式中,compensatedDOC表示补偿DOC值,uncompensatedDOC表示非补偿DOC值,binsize表示窗口的长度,x表示窗口内属于目标区域的长度。3.根据权利要求1或2所述的染色体变异检测装置,其中,该染色体变异检测装置还包括过滤模块,所述数据获取模块和所述窗口划分模块通过所述过滤模块相连接,所述过滤模块用于将不合格及低质量的测序数据滤除。4....

【专利技术属性】
技术研发人员:刘卉侯光远郭璟王秀莉魏少华玄兆伶李大为梁峻彬陈重建
申请(专利权)人:安诺优达基因科技北京有限公司浙江安诺优达生物科技有限公司安诺优达义乌医学检验有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1