一种检测基因组拷贝数变异的方法技术

技术编号:13188278 阅读:213 留言:0更新日期:2016-05-11 17:46
本发明专利技术涉及一种检测基因组拷贝数变异的方法,具体包括以下步骤:对样本基因组进行测序,以获得基因组序列;将序列比对到参考基因组,得到序列在基因组上的位置;将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基;根据每个窗口的序列及碱基GC含量,对每个窗口做校正;确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异;精确扫描异常的窗口,以确定精确的断点,来确定拷贝数变异的具体位置。本发明专利技术利用三均值,通过窗口校正、确定拷贝数正常的阈值、精确扫描异常窗口、确定精确的断点和拷贝数变异的具体位置,能够提高基因组拷贝数变异检测的灵敏性,其操作简便可行、效率高、成本低,有利于推广和应用。

【技术实现步骤摘要】

本专利技术涉及基因组序列分析领域和生物信息学领域,具体涉及一种检测基因组拷 贝数变异的方法。
技术介绍
拷贝数变异(Copy Number Variations,CNV)是指与基因组参考序列相比,样本基 因组染色体或染色体片段拷贝数异常,包括但不限于染色体非整倍体、缺失、重复,大于 lOOObp碱基的微缺失、微重复。在生物医学的科学研究及临床应用领域,经常遇到由于基因 组拷贝数变异而引起的疾病,如染色体非整倍体、微缺失、微重复造成的流产,胚胎植入失 败,各种遗传病以及癌症等等。基因组拷贝数变异的检测可应用到组织检测如肿瘤组织、羊 水、流产物组织,液体活检如血液、尿液的细胞、游离核酸,单细胞领域如胚胎植入前遗传学 诊断(Preimplantation Genetic Diagnosis,PGD)、胚胎植入前遗传学筛查 (Preimplantation Genetic Screening,PGS)、癌症患者血液中游离的循环肿瘤细胞 (Circulating Tumor Cells,CTC)、孕妇外周血中游离的胎儿细胞、干细胞、单细胞或几个 细胞的微生物。 目前基因组拷贝数变异检测的主要方法有:比较基因组杂交(Comparative Genomic Hybridization,CGH),焚光定量 PCR(realtime fluorescence quantitative PCR,RTFQ PCR),焚光原位杂交(Fluorescence In Situ Hybridization,FISH),多重连接 探针扩增技术(Multiplex Ligation-dependent Probe Amplification,MLPA)。其中,比较 基因组杂交分辨率比较低,Mb级,通量低,成本高;荧光定量PCR同样通量低,成本高,一次只 能测一个拷贝数变异;荧光原位杂交,只针对特定位置,分辨率低,探针杂交效率不稳定;多 重连接探针扩增技术,操作复杂,通量低,成本高,覆盖度小,易造成PCR污染。可见,现有的 检测基因组拷贝数变异的方法在使用推广方面仍存在着一定的局限性。
技术实现思路
本专利技术的目的就是针对上述现有技术中的不足,提供一种检测基因组拷贝数变异 的方法,其能够提高基因组拷贝数变异检测的灵敏性,精确检测基因组拷贝数的变异,提高 效率、降低成本,有利于推广和应用。 为了实现上述目的,本专利技术的技术方案如下所述:本专利技术中所使用的术语解释: 拷贝数变异(Copy Number Variations,CNV)是指样本基因组染色体或染色体片 段拷贝数异常,包括但不限于染色体非整倍体、缺失、重复,大于l〇〇〇bp碱基的微缺失、微重 复。 三均值M3是指利用总体的中位数及上下四分位数来衡量总体数据中心水平的数 值。它利用了中位数的稳健性,更多的利用数据,同时排除总体中的异常数据值。定义为: M3 = Qi/4+M/2+Q3/4其中&为下四分位数,Μ为中位数,Q3为上四分位数。 具体包括以下步骤: (1)对样本基因组进行测序,以获得基因组序列 本专利技术对样本的类型不受特别限制,可以是含有大量核酸的样本,如植物的器官, 动物的组织、血液、尿液、唾液、羊水,也可以是含有微量核酸的样本,如肿瘤的单细胞、血 液、尿液、唾液中游离的单细胞、游离的核酸、生殖细胞、胚胎发育过程中的单细胞、单细胞 或只有少量细胞的微生物。 对于含有微量核酸的样本,需要首先对单细胞扩增,以获得更多的核酸用于后续 测序分析。单细胞扩增的方法不受特别限制,包括但不限于扩增前引物延伸PCR(Prime r extension preamp 1 if i cat ion PCR,PEP-PCR)、退变寡核苷酸引物PCR(Degenerate oligonucleotide primer-PCR,DOP_PCR)、多重置换扩增技术(Multiple Displacement Amplification,MDA)、多次退火环状循环扩增技术(Multiple Annealing and Looping Based Amplification Cycles,MALBAC)〇 采用高通量测序平台,对样本进行测序。测序平台不受特别限制,第二代测序平 台:包括但不限于 Illumina公司的 GA、GAII、GAIIx、HiSeq100 0/2000/2500/3000/4000、X Ten、X Five、NextSeq500/550、MiSeq,Applied Biosystems的SOLiD,Roche的454FLX, Thermo Fisher Scientific(Life Technologies)的Ion Torrent、Ion PGM、Ion Proton I/II;第三代单分子测序平台:包括但不限于Helicos BioSciences公司的HeliScope系统, Pacific Bioscience的SMRT系统,Oxford Nanopore Technologies的GridI0N、MinI0N。测 序类型可为单端(Single End)测序或双端(Paired End)测序,测序长度可为30bp、40bp、 50bp、100bp、300bp等大于30bp的任意长度,测序深度可为基因组的0·01、0·02、0·1、1、5、 10、30倍等大于0.01的任意倍数。 (2)将序列比对到参考基因组,得到序列在基因组上的位置 将测序结果去掉接头及低质量数据,比对到参考基因组。参考基因组可为全基因 组、任意染色体、染色体的一部分。参考基因组通常选择已被公认确定的序列,如人的基因 组可为 NCBI 或 UCSC 的 hgl8(GRChl8)、hgl9(GRChl9)、hg38(GRCh38),或任意一条染色体及染 色体的一部分。比对软件可用任何一种免费或商业软件,如BWA(Burrows-Wheeler Alignment tool)、S0APaligner/soap2(Short Oligonucleotide Analysis Package)、 B〇Wtie/B〇Wtie2。将序列比对到参考基因组,得到序列在基因组上的位置。可以选择在基因 组上唯一比对的序列,去除基因组上多处比对的序列,消除重复序列对拷贝数分析带来的 误差。 (3)将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基 将参考基因组分成一定长度的窗口,根据测序的数据量,长度可为100bp、lK、10K、 20K、50K、100K、200K、500K、1000K(1M),3000K中的至少一种。根据所测的序列在基因组上的 位置,统计落到每个窗口的序列数目、碱基分布、参考基因组的碱基分布。 (4)根据每个窗口的序列及碱基GC含量,对每个窗口做校正对每个窗口的测序数目进行GC校正,以消除由于文库构建、测序的GC偏好性而产 生的误差。计算每个窗口的平均GC含量GCim,GCim= (GCir+GCig)/2,其中GCir为每个窗口测序 序列的GC含量,GC ig为每个窗口参考基因组的GC含量,将GC含量从0到100 %按照一定梯度划 分成等份,梯度可为0.05%、0.1本文档来自技高网
...

【技术保护点】
一种检测基因组拷贝数变异的方法,其特征在于,包括以下各步骤:(1)对样本基因组采用高通量测序平台进行测序,以获得样本的基因组序列;(2)将步骤(1)的测序结果去掉接头及低质量数据比对到参考基因组,得到序列在基因组上的位置;(3)将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基;(4)根据每个窗口的序列及碱基GC含量,对每个窗口做校正,具体如下:计算每个窗口的平均GC含量GCim,GCim=(GCir+GCig)/2,其中GCir为每个窗口测序序列的GC含量,GCig为每个窗口参考基因组的GC含量,将GC含量从0到100%按照一定梯度划分成等份,对于测定样本,统计每份的窗口个数nj,所有份的窗口数目的三均值M’,可计算每份的权重系数wj=nj/M’,则每个窗口GC校正后的序列数目RCi=RC×wj,其中RC为原始测序数目,RCi为GC校正后的序列数目,计算所有窗口GC校正后序列数目的三均值RCM’,可计算得到每个窗口的相对测序数目RCi’=RCi/RCM’;(5)确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异;(6)精确扫描异常的窗口,以确定精确的断点,来确定拷贝数变异的具体位置。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陆思嘉薄世平马淑杰
申请(专利权)人:上海序康医疗科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1