System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置制造方法及图纸_技高网

一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置制造方法及图纸

技术编号:40478033 阅读:8 留言:0更新日期:2024-02-26 19:13
本发明专利技术提供了一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置,所述方法包括:(1)将样本进行全基因组甲基化测序,获取样本在基因组上CpG的甲基化信息和覆盖深度信息;从WGBS测序数据中获取未校正的SNP基因型信息,并构建校正模型对SNP基因型信息进行校正,获取校正后的SNP基因型信息;(2)构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析。本发明专利技术基于WGBS的数据,实现一体化检测出甲基化、CNV、单亲二体、三倍体和ROH区域,检测过程简单、成本低,对于遗传检测技术领域具有重要意义。

【技术实现步骤摘要】

本专利技术属于遗传检测,具体涉及一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置。


技术介绍

1、甲基化水平异常、拷贝数变异(cnv)、单亲二体(upd)、三倍体和存在连续性纯合片段(runs of homozygosity,roh)是导致许多常见遗传疾病、妊娠失败、癌症和其他复杂疾病的大型基因组畸变,同时识别这些畸变对于了解疾病至关重要。

2、拷贝数目变异也称拷贝数目多态,是一种大小介于1 kb至3 mb的dna片段的变异,在人类基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性的总数,极大地丰富了基因组遗传变异的多样性。研究表明,孕妇群体中胎儿携带致病性拷贝数变异的比例可达1.6%~1.7%,远高于21、18、13-三体综合征0.2%的发生率。因此,对致病性cnvs的检测应作为产前诊断的重要内容之一。

3、正常人类细胞中包含两组染色体,一组来自父亲,一组来自母亲,三倍体是胎儿细胞中多了一组额外的染色体组,单亲二体是当一对的两条染色体都来自父亲或母亲一方时即为单亲二体,三倍体和单亲二体均是严重的染色体异常,是妊娠早期流产的重要原因之一。roh是一种基因组区域中一定范围内连续呈现的杂合性丢失的现象,染色体存在roh时提示可能存在upd,upd出现在特定的染色体上时,会由于遗传印记效应引起相关疾病。此外,roh区域内发生孟德尔隐性遗传病的风险明显增加。

4、胚胎发育过程中的甲基化水平异常与妊娠失败具有一定的相关性,目前全基因组亚硫酸氢盐测序(wgbs)为甲基化检测的常规方法。该方法是在传统全基因组测序(wgs)的基础上使用亚硫酸氢盐将未甲基化的c转化为t,从而实现对基因组的甲基化水平进行检测。而wgs可以对拷贝数变异(cnv)、单亲二体(upd)、三倍体和存在连续性纯合片段(runsof homozygosity,roh)进行一体化地高效检测,但是无法对甲基化水平进行检测。

5、综上所述,现有技术中无有效方法进行低成本、高效地一体化检测,因此,开发一种对甲基化水平检测的同时对cnv、单亲二体、三倍体和roh进行一体化有效检测的方法,对于遗传检查领域具有重要意义。


技术实现思路

1、针对现有技术存在的不足,本专利技术的目的在于提供一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置。本专利技术基于全基因组重亚硫酸盐甲基化测序的wgbs的数据,在检测甲基化水平的同时也能够对cnv、单亲二体、三倍体和roh进行同步检测,实现一体化检测出甲基化、cnv、单亲二体、三倍体和roh区域,检测过程简单、成本低,对于遗传检测
具有重要意义。

2、为达到此专利技术目的,本专利技术采用以下技术方案:

3、第一方面,本专利技术提供一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法,所述方法包括:

4、(1)将样本进行全基因组甲基化测序,获取样本在基因组上cpg的甲基化信息和覆盖深度信息;从wgbs测序数据中获取未校正的snp(单核苷酸多态性)基因型信息,并构建校正模型对snp基因型信息进行校正,获取校正后的snp基因型信息;

5、(2)构建单亲二体及三倍体分析参考数据库、cnv分析参考数据库和roh分析参考数据库;进行甲基化水平分析、单亲二体及三倍体分析、cnv分析和roh分析。

6、本专利技术创造性地设计遗传检测分析流程,提出了一体化检测甲基化水平、cnv、单亲二体、三倍体和roh的方法,流程图如图1所示,所述方法能够基于全基因组重亚硫酸盐甲基化测序数据,一体化检测出甲基化水平、cnv、单亲二体、三倍体和roh区域,简化了检测流程,提高了检测效率且降低了检测成本。

7、本专利技术中,以获取的wgbs测序数据进行甲基化水平分析,以校正后的snp基因型信息进行cnv、单亲二体、三倍体和roh区域分析。所述校正后的snp基因型信息的获取如图2所示。

8、优选地,步骤(1)中,所述snp基因型信息包括snp位点的基因型和b等位基因频率(baf)。

9、优选地,步骤(1)中,所述获取样本在基因组上覆盖深度信息包括:将基因组分成每1 kb~100 kb一个的窗口,统计每个窗口的覆盖深度信息。

10、本专利技术中,所述覆盖深度信息包括样本基因组中窗口的覆盖深度,所述窗口的长度为1 kb~100 kb,包括但不限于2 kb、3 kb、4 kb、5 kb、6 kb、7 kb、8 kb、9 kb、10 kb、20kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、91 kb、92 kb、93 kb、94 kb、95 kb、96kb、97 kb、98 kb或99 kb等。

11、优选地,步骤(1)中,所述校正模型包括常规校正模型和特殊校正模型。

12、优选地,所述常规校正模型的构建方法包括:通过隐马尔可夫模型(hiddenmarkov model,hmm),对不位于筛选后的人群常见snp数据库的snp基因型信息进行常规校正模型训练,从而获得常规校正模型。

13、优选地,所述特殊校正模型的构建方法包括:对位于筛选后的人群常见snp数据库的snp基因型信息进行以snp数据库为参考的特殊校正模型训练,从而获取特殊校正模型。

14、优选地,所述对未校正的snp基因型信息进行校正的步骤包括:对待测样本的读段比对后生成的bam文件进行校正:针对bam文件中不位于筛选后的人群常见snp数据库的读段,运用构建好的常规校正模型进行校正,从而消除因重亚硫酸盐而错误引入的snp;针对位于筛选后的人群常见snp数据库中的读段,运用构建好的特殊校正模型进行校正,从而校正受到重亚硫酸盐影响的snp的突变频率。

15、优选地,所述snp矫正模型的包括以下步骤:

16、(1’)获取人群常见snp数据库信息,并剔除其中无法矫正的snp突变位点,包括c突变为t的位置、t突变为c的位置、g突变为a的位置、a突变为g的位置。

17、(2’)对读段比对后生成的bam文件进行矫正,针对bam文件中‘xg’信息为‘ct’的读段(表明该读段的甲基化转化类型是c转化为t)进行t->c矫正,针对bam文件中‘xg’信息为‘ga’的读段(表明该读段的甲基化转化类型是g转化为a)进行g->a矫正。针对位于筛选后的人群常见snp数据库信息中位置的读段进行特殊模型矫正,具体方法是,针对bam文件中‘xg’信息为‘ct’的且snp数据库信息中ref或alt为c的读段的相关位置进行t->c矫正,针对bam文件中‘xg’信息为‘ga’的且snp数据库信息中ref或alt为g的读段的相关位置进行a->g矫正。

18、(3’)使用矫正后的bam文件进行snp检测,获取矫正后的snp基因型信息。

19、优选地,步骤(2)中,所述甲基化水平分析包括:

20、统计样本中单个cpg位点上覆本文档来自技高网...

【技术保护点】

1.一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(1)中,所述SNP基因型信息包括SNP位点的基因型和B等位基因频率;

3.根据权利要求2所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(2)中,所述甲基化水平分析包括:

4.根据权利要求3所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(2)中,所述单亲二体及三倍体分析包括:

5.根据权利要求4所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(2)中,所述CNV分析包括:

6.根据权利要求5所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(2)中,所述ROH分析包括:

7.一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置,其特征在于,所述装置包括:

8.根据权利要求7所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置,其特征在于,所述信息采集模块中,所述SNP基因型信息包括SNP位点的基因型和B等位基因频率;

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-6中任一项所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-6中任一项所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。

...

【技术特征摘要】

1.一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法,其特征在于,步骤(1)中,所述snp基因型信息包括snp位点的基因型和b等位基因频率;

3.根据权利要求2所述的一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法,其特征在于,步骤(2)中,所述甲基化水平分析包括:

4.根据权利要求3所述的一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法,其特征在于,步骤(2)中,所述单亲二体及三倍体分析包括:

5.根据权利要求4所述的一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法,其特征在于,步骤(2)中,所述cnv分析包括:

6.根据权利要求5所述的一体化检测甲基化、cn...

【专利技术属性】
技术研发人员:罗敏轩卢娜如张军董方方齐丽娜孔令印梁波
申请(专利权)人:苏州贝康医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1