一种基因拷贝数变异分析方法技术

技术编号:13941661 阅读:193 留言:0更新日期:2016-10-29 17:22
本发明专利技术提供了一种基因拷贝数变异分析方法,包括以下步骤:1)读入数据的索引文件和参考基因组;2)将整个基因组的比对结果的sam文件按照染色体分割开;3)对比对测序数据的比对结果进行统计;4)以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;5)根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;6)从图形中直接识别拷贝数变异。本发明专利技术能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对信息进行统计,便于数据评估。

【技术实现步骤摘要】

本专利技术属于基因信息数据处理领域,特别是涉及到一种基因拷贝数变异分析方法
技术介绍
人类基因拷贝数变异是多种疾病,特别是肿瘤发生、发展中最重要的原因之一。近年来随着高通量测序技术的迅猛发展,测序成本有了大幅度降低,基于全基因组测序分析基因拷贝数变异越来越成为临床检测和科学研究的常规手段。对于基因拷贝数变异的准确检测和分析也成为生物信息工作者们面对的共同的问题之一。高通量测序技术通过对基因组上长度为200-500bp的随机区域进行扩增、测序,用测序得到的读长(reads)表征该区域的拷贝数。这样可将基因组上的拷贝数变异信号放大到可检测水平,然后对测序数据进行分析,达到检测基因拷贝数变异的目的。然而,一方面,目前基于高通量测序技术(也称新一代测序技术)的全基因组测序数据由于实验处理技术的局限和人为操作偏差等因素,使得测序数据在整个人类基因组上的分布不均一,有的区域覆盖很高,而有的区域甚至无法覆盖。这种覆盖的不均一性会对基因拷贝数变异检测产生较大的干扰。因此,判断一个区域的reads数的变化是由于测序误差造成的还是源于真正的基因组拷贝数变异,需要连续包含在一定长度的区域(如3MB)的多个小窗口(如100kb)的reads覆盖的平均深度来消除误差影响,然后通过精细的图形化展示,直观的识别出拷贝数变异。然而目前的拷贝数分析软件图形展示不够精细,能识别的拷贝数变异区域大,分辨率低。另一方面,人类基因组着丝粒附近存在的大量重复序列和不易扩增的致密区域,以及参考基因组上存在的未知的 gap区域都会对拷贝数变异的检测产生较大干扰,在数据分析过程中需要排除。然而目前的拷贝数变异分析软件大多都没有排除基因组着丝粒附近高复杂区域和参考基因组的gap区域,导致检测到的拷贝数变异假阳性高,准确性低。
技术实现思路
有鉴于此,本专利技术提出一种基因拷贝数变异分析方法,能够利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时对数据比对信息进行统计,便于数据评估。为达到上述目的,本专利技术的技术方案是这样实现的:一种基因拷贝数变异分析方法,包括以下步骤:1)读入数据的索引文件和参考基因组;2)将整个基因组的比对结果的sam文件按照染色体分割开;3)对比对测序数据的比对结果进行统计;4)以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;5)根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;6)从图形中直接识别拷贝数变异。进一步的,步骤3)所述统计的比对结果包括原始数据量,mapping rate,unique mapping rate,基因组覆盖率,平均覆盖深度,建库时插入序列的平均长度以及样品的性染色体表型。进一步的,步骤4)计算过程中遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,自动跳过。更进一步的,步骤4)还计算每个窗口的覆盖区域大小,覆盖比例以及总的测序碱基数目。进一步的,步骤5)所述画出染色体覆盖深度图形,是以100K为一个点。相对于现有技术,本专利技术所述的一种基因拷贝数变异分析方法具有以下优势:(1)本专利技术将全基因组覆盖深度按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这样可以将拷贝数变异检测的分辨率提高10倍以上,进而提升识别拷贝数变异的准确性和灵敏度。(2)本专利技术将基因组中的着丝粒高复杂区域和参考基因组的gap区域进行了去除,降低了检测拷贝数变异的假阳性,提高了准确性。(3)本专利技术以测序的原始clean reads作为输入文件,经比对,排序,按染色体分割bam文件,统计比对信息,按窗口计算覆盖深度,最后画出展示图,利用高通量测序数据对人类基因组水平上的拷贝数变异进行准确分析和高分辨率的图形展示,同时,对数据比对信息进行统计,便于数据评估。附图说明构成本专利技术的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的流程示意图。图2为本专利技术实施例的HCC样本基因组覆盖图。图3为本专利技术实施例的和HCC配对的正常肝组织基因组覆盖图。具体实施方式需要说明的是,在不冲突的情况下,本专利技术的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。如图1所示,本专利技术的实施步骤为:(1)读入数据的索引文件和参考基因组(两个必须的参数),依次完成各部分分析工作。(2)将整个基因组的比对结果的sam文件按照染色体分割开,可以提高运算速度,便于进行统计分析。(3)对比对测序数据的比对结果进行统计。包括原始数据量,mapping rate,unique mapping rate,基因组覆盖率,平均覆盖深度,建库时插入序列的平均长度以及样品的性染色体表型。(4)计算基因组上每个窗口(窗口大小为1kb)平均覆盖深度,结果以列表形式给出。当遇到着丝粒附近高复杂度的区域或者参考基因组上的gap区域,则可自动跳过。同时还计算每个窗口的覆盖区域大小,覆盖比例以及总的测序碱基数目。(5)根据前面的计算结果画出染色体覆盖深度图形。将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列,而非整个基因组用一条覆盖深度图形展示,这样可以最大限度的提高图形展示的分辨率,进而提升识别拷贝数变异的准确性和灵敏性。可以生成SVG格式的矢量图,同时支持按所需ppi大小将SVG转化成pdf,png,jpeg等图片格式。(6)从图形中直接识别拷贝数变异。下面通过一组肝癌肿瘤和正常配对组织样本的低深度全基因组pair-end测序数据为应用实例,展示本专利技术的实施结果。基因组的拷贝数变异是结直肠癌中常见的基因组变异,也是该癌种主要的引发机制之一。以样本测序数据为输入数据,得到如下结果(1)数据信息统计表3.1测序数据统计信息(2)根据统计信息和计算的每个窗口的测序覆盖深度,画出覆盖深度图(每条染色体下面小标尺的刻度范围为0-4倍体)从图2可明显看出在HCC样本基因组上有包括chr1短臂和长臂,chr8短臂等大片段的拷贝数变异发生。图3表示和HCC配对的正常肝组织基因组拷贝数分布图,从图中可以看出正常组织中没有可靠的拷贝数变异发生。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网
...

【技术保护点】
一种基因拷贝数变异分析方法,其特征在于,包括以下步骤:1)读入数据的索引文件和参考基因组;2)将整个基因组的比对结果的sam文件按照染色体分割开;3)对比对测序数据的比对结果进行统计;4)以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;5)根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;6)从图形中直接识别拷贝数变异。

【技术特征摘要】
1.一种基因拷贝数变异分析方法,其特征在于,包括以下步骤:1)读入数据的索引文件和参考基因组;2)将整个基因组的比对结果的sam文件按照染色体分割开;3)对比对测序数据的比对结果进行统计;4)以1KB为窗口,计算基因组上每个窗口平均覆盖深度,结果以列表形式给出;5)根据计算结果画出染色体覆盖深度图形,将全基因组覆盖深度图按照染色体展示,即24条染色体每条单独展示覆盖深度图形,并按竖排罗列;6)从图形中直接识别拷贝数变异。2.根据权利要求1所述的一种基因拷贝数变异分析方法,其特征在于,步骤3)所述统计的比对结果包括原始数据量,mappi...

【专利技术属性】
技术研发人员:薛成海雷文婕张广发李柏良
申请(专利权)人:万康源天津基因科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1