一种染色体异常检测装置制造方法及图纸

技术编号:18426758 阅读:197 留言:0更新日期:2018-07-12 02:05
本发明专利技术公开了一种染色体异常检测装置。现有的染色体异常检测分析均基于读长计数统计模型,仅能够去除比对到基因组中相同起始位置的重复序列,无法去除对于起始位置不同但是相互之间有重叠的reads;本发明专利技术装置通过引入序列覆盖度(coverage)统计模型,能有效去除单细胞全基因组扩增偏好性带来的重复序列及其重叠区域,显著提高数据的均一性,进而降低数据噪音,提高阳性样本的检出率以及降低假阳性率。

A device for detecting chromosomal abnormalities

The invention discloses a chromosome abnormality detection device. The existing chromosomal anomaly detection and analysis are based on the reading length counting statistical model, which can only remove the repeat sequences of the same starting position in the genome, and can not remove the reads with different starting positions but overlap each other. The invention can be effectively removed by introducing a sequence coverage (coverage) statistical model. In addition to the repeat sequence and overlapping region of the whole genome amplification of single cell, the homogeneity of data is improved significantly, and the data noise is reduced, the detection rate of positive samples is improved and the false positive rate is reduced.

【技术实现步骤摘要】
一种染色体异常检测装置
本专利技术涉及数据处理技术,具体涉及一种染色体异常检测装置。
技术介绍
近年来,随着接受辅助生殖助孕的患者越来越多,大量临床发现在辅助生殖过程中部分高风险夫妇的胚胎易出现反复种植失败或不明原因自然流产的情况,试管婴儿总体活产率不足30%,而研究发现胚胎染色体异常是导致试管婴儿失败的主要原因。因此,对胚胎进行植入前染色体异常检测,进而选择健康的胚胎进行植入,可显著提高试管婴儿的妊娠率和活产率。胚胎植入前染色体异常检测需要对囊胚期胚胎滋养外胚层细胞或卵裂球进行单细胞扩增,使之达到高通量测序平台所需要的DNA起始量,即由pg级别的DNA达到μg级别的DNA含量;目前主流的单细胞扩增方法按原理分为三类:基于PCR的单细胞扩增方法(如DOP-PCR)[1],多重链置换扩增(MDA)[2]和多次退火环状循环扩增技术(MALBAC)[3]。由于这些单细胞扩增方法都是采用几十轮指数扩增,这使得基因组某些特异性位点的扩增偏好性被无限放大,产生大量重复序列(duplicatereads),导致测序深度的均一性显著降低,最终造成样本结果分析中出现大量异常值及假阳性结果。因此,去除由扩增偏好性带来的重复序列对基于单细胞扩增的胚胎植入前染色体异常检测是非常重要的。目前,针对胚胎的染色体异常检测分析都是基于读长计数(readsnumber):将测序产生的读长(reads)比对到参考基因组中;过滤比对到基因组中相同起始位置的reads(duplicatereads);将参考基因组划分成N个定长的统计窗口,统计每个窗口的读长数;对读长数进行GC校正;对读长数进行归一化处理并转换成读长比例(readsratio);最后统计分析基因组中读长比例(readsratio)来判断待测胚胎是否存在染色体异常。以上分析流程在去除重复序列(duplicatereads)的处理方法上仅仅能够去除比对到基因组中相同起始位置的duplicatereads,对于起始位置不同但是相互之间有重叠(overlap)的reads是无法有效去除的。因此,有必要采用更为有效的去除重复方法,才能有效提高基于单细胞全基因组扩增的染色体异常检测的准确性。参考文献[1]TeleniusH,CarterNP,BebbCE,etal.Degenerateoligonucleotide-primedPCR:generalamplificationoftargetDNAbyasingledegenerateprimer[J].Genomics,1992,13(3):718-725.[2]DeanFB,NelsonJR,GieslerTL,etal.RapidamplificationofplasmidandphageDNAusingPhi29DNApolymeraseandmultiply-primedrollingcircleamplification[J].GenomeResearch,2001,11(6):1095-1099.[3]ZongC,LuS,ChapmanAR,etal.Genome-widedetectionofsingle-nucleotideandcopy-numbervariationsofasinglehumancell[J].Science,2012,338(6114):1622-1626.[4]OlshenAB,VenkatramanES,LucitoR,etal.Circularbinarysegmentationfortheanalysisofarray-basedDNAcopynumberdata.[J].Biostatistics,2004,5(4):557-72.[5]VenkatramanES,OlshenAB.AfastercircularbinarysegmentationalgorithmfortheanalysisofarrayCGHdata[J].Bioinformatics,2007,23(6):657-63.
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种染色体异常检测装置。本专利技术所采用的技术方案是:一种染色体异常检测装置,包括:测序数据获取单元:用于获取经高通量测序得到的读长片段;比对单元:用于将读长片段与人类基因组参考序列进行比对,获取读长片段的位置信息和长度信息;覆盖度计算单元:用于将人类基因组参考序列划分成若干个第一窗口,根据读长片段的位置信息和长度信息,计算各第一窗口的覆盖度,根据第一窗口的覆盖度和GC含量进行Loess校正;将若干个连续的第一窗口合并为第二窗口,计算第二窗口Loess校正后的覆盖度及其覆盖度占比;候选CNV识别单元:用于利用环状二元分割算法识别染色体的断点位置,计算相邻断点间的CBSratio,根据CBSratio阈值识别候选CNV区域;假阳性过滤单元:用于计算候选CNV区域CBSratio值的显著性水平P-value,根据P-value过滤假阳性区域,获得待测样本的CNV区域和核型结果。特别的,覆盖度=区段内所覆盖的碱基总数/区段长度;覆盖度占比=区段的覆盖度/所有常染色体的覆盖度。特别的,CBSratio为环状二元分割算法识别的相邻断点间所有第二窗口覆盖度占比的均值。覆盖度计算单元中,所述第一窗口为10~50Kb的非重复区段,优选地,所述第一窗口为20Kb的非重复区段。覆盖度计算单元中,所述第二窗口长度为0.1~2Mb,优选地,所述第二窗口长度任选自100Kb、500Kb和1Mb。优选的,候选CNV识别单元中,所述CBSratio阈值为[1.4,2.6],超出阈值范围判定为候选CNV区域。优选的,假阳性过滤单元中,计算P-value包括:根据正常参考样本的结果组成随机抽样数据库,从中抽取至少100000次与候选CNV区域等长的模拟CBS区段,得到模拟CBSratio值的密度分布图,计算候选CNV区域CBSratio值的显著性水平P-value。优选的,假阳性过滤单元中,候选CNV区域的P-value<0.001,则判定为CNV区域,否则,作为假阳性区域过滤。进一步的,所述装置还包括测序单元:与测序数据获取单元相连,用于对利用样本构建的文库进行高通量测序,所述样本包括经单细胞扩增、或经PCR预扩增、或无需PCR预扩增的样本。进一步的,所述装置还包括过滤单元:与比对单元相连,用于根据比对结果,剔除处于串联重复位置及转座子重复位置的读长片段,以及低质量的、多匹配和非完全匹配到染色体上的读长片段。本专利技术的有益效果是:现有的染色体异常检测分析均基于读长计数统计模型,仅能够去除比对到基因组中相同起始位置的重复序列,无法去除对于起始位置不同但是相互之间有重叠的reads;本专利技术装置通过引入序列覆盖度(coverage)统计模型,能有效去除单细胞全基因组扩增偏好性带来的重复序列及其重叠区域,显著提高数据的均一性,进而降低数据噪音,提高阳性样本的检出率以及降低假阳性率。附图说明图1是染色体异常检测流程示意图;图2是T1样本1M分辨率下24条染色体拷贝数值分布图;A图展示的是传统基于读长计数法的检测结果,B图展示的是本专利技术提供的基于覆盖度法的检测结果;图3是T8样本1M分辨率本文档来自技高网
...

【技术保护点】
1.一种染色体异常检测装置,包括:测序数据获取单元:用于获取经高通量测序得到的读长片段;比对单元:用于将读长片段与人类基因组参考序列进行比对,获取读长片段的位置信息和长度信息;覆盖度计算单元:用于将人类基因组参考序列划分成若干个第一窗口,根据读长片段的位置信息和长度信息,计算各第一窗口的覆盖度,根据第一窗口的覆盖度和GC含量进行Loess校正;将若干个连续的第一窗口合并为第二窗口,计算第二窗口Loess校正后的覆盖度及其覆盖度占比;候选CNV识别单元:用于利用环状二元分割算法识别染色体的断点位置,计算相邻断点间的CBS ratio,根据CBS ratio阈值识别候选CNV区域;假阳性过滤单元:用于计算候选CNV区域CBS ratio值的显著性水平P‑value,根据P‑value过滤假阳性区域,获得待测样本的CNV区域和核型结果。

【技术特征摘要】
1.一种染色体异常检测装置,包括:测序数据获取单元:用于获取经高通量测序得到的读长片段;比对单元:用于将读长片段与人类基因组参考序列进行比对,获取读长片段的位置信息和长度信息;覆盖度计算单元:用于将人类基因组参考序列划分成若干个第一窗口,根据读长片段的位置信息和长度信息,计算各第一窗口的覆盖度,根据第一窗口的覆盖度和GC含量进行Loess校正;将若干个连续的第一窗口合并为第二窗口,计算第二窗口Loess校正后的覆盖度及其覆盖度占比;候选CNV识别单元:用于利用环状二元分割算法识别染色体的断点位置,计算相邻断点间的CBSratio,根据CBSratio阈值识别候选CNV区域;假阳性过滤单元:用于计算候选CNV区域CBSratio值的显著性水平P-value,根据P-value过滤假阳性区域,获得待测样本的CNV区域和核型结果。2.根据权利要求1所述的装置,其特征在于:覆盖度=区段内所覆盖的碱基总数/区段长度;覆盖度占比=区段的覆盖度/所有常染色体的覆盖度。3.根据权利要求1所述的装置,其特征在于:CBSratio为环状二元分割算法识别的相邻断点间所有第二窗口覆盖度占比的均值。4.根据权利要求1所述的装置,其特征在于:覆盖度计算单元中,所述第一窗口为10~50Kb的非重复区段,优选地,所述第一窗口为20Kb的非重复区段。5.根据权利要求...

【专利技术属性】
技术研发人员:糜庆丰彭春方张娟赵宇陈样宜饶兴蔷罗东红黄铨飞刘丽菲
申请(专利权)人:东莞博奥木华基因科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1