System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 检测低深度全基因组CNV的方法及系统技术方案_技高网

检测低深度全基因组CNV的方法及系统技术方案

技术编号:41142826 阅读:7 留言:0更新日期:2024-04-30 18:12
本发明专利技术提供一种检测低深度全基因组CNV的方法及系统,包括:基线对照步骤:以多样本抽样混合形成虚拟对照样本的对照生成方式,从多个样本中按照等比例随机抽取样本数据,进行合成后建基线;Block划分步骤:待测样本以基线对照步骤中生成的虚拟对照样本,同时采用block by block的数据统计方式,采用所见即所得的原则,统计基因组中所测得的数据block即reads数;Block数据聚合步骤:block划分步骤产生block区域,采用似然值相似的block聚合的数据块划分模式,到没有相似block产生为止,进而计算每一个block的ratio值;异常阈值确定步骤:以block数据聚合步骤中生成ratio值的基础上,样本自身两次测序结果做为对照,利用箱形图法确定ratio值正常范围。本发明专利技术与其它方法相比具有更高效、快速、准确。

【技术实现步骤摘要】

本专利技术涉及基因检测,具体地,涉及一种检测低深度全基因组cnv的方法及系统。


技术介绍

1、由于二代测序技术(ngs)(第二代测序(next-generation sequencing,ngs)又称为高通量测序(high-throughput sequencing),是基于pcr和基因芯片发展而来的dna测序技术,二代测序在dna复制过程中通过捕捉新添加的碱基所携带的特殊标记(一般为荧光分子标记)来确定dna的序列)的不断发展,利用ngs检测cnv(拷贝数变异)具有比芯片方法更好的优越性。通常,高深度的双端全基因组测序对cnv检测具有高敏感度及分辨率。然而,高深度wgs(全基因组测序)的费用却是非常昂贵的,因此低深度wgs检测cnv应运而生,同时低深度wgs对于遗传病能快速发现该样本中是否发生了染色体结构异常。但是相应的cnv检测方法却相对停滞不前,甚至用检测高深度wgs的方法直接套用在低深度wgs的数据上,但是分析结果的时效性及准确性不尽如人意。

2、现在常规分析低深度cnv-seq的方式多数是基于window by window的方式(window指固定大小的区域,如100bp,对染色体进行同样大小的区别分割,统计固定长度区域的reads覆盖),进行该对应区域reads的获取,统计出该window下reads覆盖情况,进行相应数据标准化处理,进而使用cbs的方式进行cnv区域的合并,通过与多个对照样本中cnv比较后是否有显著性方法来计算异常的cnv区域。cbs全称是circular binarysegmentation,是一种基于染色体芯片数据检测拷贝数变异的方法,当然目前也适用于二代测序数据的拷贝数变异检测的方法。

3、目前分析低深度cnv的方式基本上基于bin大小进行区域扫描后,在进行小区域到大区域的合并,因此异常cnv的断点不是很明确,需要额外的实验进行辅助。同时需要参考几百个样本数据作为对照,一起进行数据分析处理,在样本数量不足情况下,假阳性结果会变得更多。同时需要考虑不同的参考基因组,要建立不同参考基因组版本的对照数据库,费时而且占用服务器空间。整体上现有方法缺乏快速的构建样本对照库,以及快速分析cnv计算能力。


技术实现思路

1、针对现有技术中的缺陷,本专利技术提供一种检测低深度全基因组cnv的方法及系统。

2、根据本专利技术提供的一种检测低深度全基因组cnv的方法及系统,所述方案如下:

3、第一方面,提供了一种检测低深度全基因组cnv的方法,所述方法包括:

4、基线对照步骤:以多样本抽样混合形成虚拟对照样本的对照生成方式,从多个样本中按照等比例随机抽取样本数据,进行合成后建基线;

5、block划分步骤:待测样本以基线对照步骤中生成的虚拟对照样本,同时采用block by block的数据统计方式,采用所见即所得的原则,统计基因组中所测得的数据block即reads数;

6、block数据聚合步骤:block划分步骤产生block区域,采用似然值相似的block聚合的数据块划分模式,到没有相似block产生为止,进而计算每一个block的ratio值;

7、异常阈值确定步骤:以block数据聚合步骤中生成ratio值的基础上,样本自身两次测序结果做为对照,利用箱形图法确定ratio值正常范围。

8、优选地,所述基线对照步骤包括:

9、从多个样本中按照等比例随机抽取数据,抽取完成之后再将多份抽样数据合并,构成一个虚拟的自然样本,无限接近于一个不带cnv的标准样本。

10、优选地,所述block划分步骤包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

11、优选地,所述block数据聚合步骤包括:

12、设对任一一个block,那么这个block内,待测样本case具有reads数为n,对照样本control具有reads数为m,而case和control整个基因组上分别具有总reads数量为t和c,那么求得似然值:

13、

14、按照上述公式,计算相邻两个block的似然值l1,l2是否相似,若相似则将两个block合并成一个大block,合并整个基因组上相邻且相似的数据,最后划分的区域相领互不相似,然后计算每个block的ratio值,方法:

15、

16、从而将候选的cnv区域即具有异常的ratio值划分出来。

17、优选地,所述异常阈值确定步骤包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测cnv时,不在上限及下限正常值范围的block即为潜在的cnv位点,ratio值大于上限则为cnvgain即dulication,小于下限则为cnv loss即为deletion。

18、第二方面,提供了一种检测低深度全基因组cnv的系统,所述系统包括:

19、基线对照模块:以多样本抽样混合形成虚拟对照样本的对照生成方式,从多个样本中按照等比例随机抽取样本数据,进行合成后建基线;

20、block划分模块:待测样本以基线对照模块中生成的虚拟对照样本,同时采用block by block的数据统计方式,采用所见即所得的原则,统计基因组中所测得的数据block即reads数;

21、block数据聚合模块:block划分模块产生block区域,采用似然值相似的block聚合的数据块划分模式,到没有相似block产生为止,进而计算每一个block的ratio值;

22、异常阈值确定模块:以block数据聚合模块中生成ratio值的基础上,样本自身两次测序结果做为对照,利用箱形图法确定ratio值正常范围。

23、优选地,所述基线对照模块包括:

24、从多个样本中按照等比例随机抽取数据,抽取完成之后再将多份抽样数据合并,构成一个虚拟的自然样本,无限接近于一个不带cnv的标准样本。

25、优选地,所述block划分模块包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

26、优选地,所述block数据聚合模块包括:

27、设对任一一个block,那么这个block内,待测样本case具有reads数为n,对照样本control具有reads数为m,而case和control整个基因组上分别具有总reads数量为t和c,那么求得似然值:

28、

29、按照上述公式,计算相邻两个block的似然值l1,l2是否相似,若相似则将两个block合并成一个大block,合并整个基因组上相邻且相似的数据,最后划分的区域相领互不本文档来自技高网...

【技术保护点】

1.一种检测低深度全基因组CNV的方法,其特征在于,包括:

2.根据权利要求1所述的检测低深度全基因组CNV的方法,其特征在于,所述基线对照步骤包括:

3.根据权利要求1所述的检测低深度全基因组CNV的方法,其特征在于,所述Block划分步骤包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

4.根据权利要求1所述的检测低深度全基因组CNV的方法,其特征在于,所述Block数据聚合步骤包括:

5.根据权利要求1所述的检测低深度全基因组CNV的方法,其特征在于,所述异常阈值确定步骤包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测CNV时,不在上限及下限正常值范围的block即为潜在的CNV位点,ratio值大于上限则为CNV gain即dulication,小于下限则为CNV loss即为deletion。

6.一种检测低深度全基因组CNV的系统,其特征在于,包括:

7.根据权利要求6所述的检测低深度全基因组CNV的系统,其特征在于,所述基线对照模块包括:

8.根据权利要求6所述的检测低深度全基因组CNV的系统,其特征在于,所述Block划分模块包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

9.根据权利要求6所述的检测低深度全基因组CNV的系统,其特征在于,所述Block数据聚合模块包括:

10.根据权利要求6所述的检测低深度全基因组CNV的系统,其特征在于,所述异常阈值确定模块包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测CNV时,不在上限及下限正常值范围的block即为潜在的CNV位点,ratio值大于上限则为CNV gain即dulication,小于下限则为CNV loss即为deletion。

...

【技术特征摘要】

1.一种检测低深度全基因组cnv的方法,其特征在于,包括:

2.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述基线对照步骤包括:

3.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述block划分步骤包括:只统计待测样本或对照样本中一方出现,或同时出现数据的区域,而对无数据的沙漠区则不予以统计。

4.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述block数据聚合步骤包括:

5.根据权利要求1所述的检测低深度全基因组cnv的方法,其特征在于,所述异常阈值确定步骤包括:采用多组样本,分别进行两次上机测序,获得各自的样本的两次上机数据,然后对每个样本进行上述方案的ratio值计算,将所有block的ratio值用箱形图法划定正常值范围,获得raio上限及下限,在实例样本检测cnv时,不在上限及下限正常值范围的block即为潜在的cnv位点,ratio值大于上限则为cnv gain即dulication,小于下限则为cnv loss即为deletion。

...

【专利技术属性】
技术研发人员:陈珺顾丽朋
申请(专利权)人:上海捷易医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1