一种基于集群的高通量数据分析方法技术

技术编号:15450566 阅读:240 留言:0更新日期:2017-05-31 12:19
一种高通量数据分析方法,一种高通量数据分析方法,对高通量测序下机数据的处理包括:对下机数据进行数据分割;在对下机数据进行数据分割后,生成多个前数据片文件,在与参考基因组的所以比对完成后,将生成的多个比对结果片文件合并为一个比对结果文件;预先指定一个区域文件,将其分割成指定的多个区域子文件;将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割,生成多个后数据片文件,提供给后续步骤处理。对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。

A cluster based high throughput data analysis method

A high-throughput data analysis method, a high-throughput data analysis method for data processing machine under high throughput sequencing including data segmentation of machine data; data segmentation of machine data, generating a plurality of data file, completed in the reference genome and so on, will the multiple alignment results sheet files into a result file; a pre specified file area, which is divided into a plurality of sub file specified; the result file is divided again according to a plurality of sub file extraction data specified, generating a plurality of data file, provide for the subsequent processing steps. For the processing of multiple data slices obtained after segmentation, a cluster management tool is used to allocate the computing nodes, including the corresponding CPU and memory computing resources.

【技术实现步骤摘要】
一种基于集群的高通量数据分析方法
本专利技术属于基因测序
,特别涉及一种基于集群的高通量数据分析方法。
技术介绍
高通量基因测序技术又称“下一代”测序(next-generationsequencing,NGS)技术,可以一次性测定几十万甚至几百万条序列,是现今应用最广泛的测序技术。相对于传统的Sanger测序技术,NGS具有高速、高通量、低价格等优点。基于高通量测序的变异检测在近年发展迅猛,现今又恰逢精准医疗的大力推广,变异检测的需求面临爆发式的增长。在变异检测的过程中,处理GB级别甚至上百GG的数据量是很普遍的情形,常规分析时间从几个小时到几天不等,医生或病人获知检测报告的时间较长,是精准医疗面临的一个问题。除了提高硬件性能外,常用的加速变异检测的方式是使用多线程的方式对数据进行处理,然而基于应用程序多线程的加速处理对分析速度的提升有限,并且有所限制,如果应用程序不支持多线程,则此种加速则无法进行。现今有基于分布式文件系统的MapReduce加速方法,效果是很好的,但是这种方法需要对分布式文献系统有所了解,需要掌握相应的对口语言编程(比如java),部署较为困难,使用相较复杂,不利于这种并行计算方式在分析高通量测序数据方面的实施。申请号CN201510192260.8的专利文献,涉及“一种超快速检测人类基因组单碱基突变和微插入缺失的方法,是一种能从人基因组DNA测序结果中快速地检测出单碱基突变、微插入缺失的可行方法”。该申请“通过把人参考基因组序列科学有效地切分为小的子参考序列块,把人重测序中的几乎全部步骤(包括分析时间较长的步骤)都切分为计算复杂度大大降低的子任务块,而各子任务块之间相互不影响,最后把从各子参考序列块中得到的遗传多态性信息进行去冗余、校正,然后过滤,从而得到原人重测序流程中需要获取的遗传多态性信息”。该申请认为上述方案解决了人重测序生物信息分析时间过长的问题,然而,该文献对于高通量基因测序技术并没有涉及,没有给出解决现有高通量基因测序方案中所存在问题的建议。可见,现有的方案只能作全基因组数据的并行处理,对于全外显子或目标测序的情形不能较好应对,另外如果并行处理的任务数做了改变,需要重新分割参考基因组并作索引,增加了分析的时间和不便。
技术实现思路
本专利技术提供一种基于集群的高通量数据分析方法,该方法也是一种用于变异检测的通用简易的并行计算方法,用于加速整个分析过程。本专利技术的技术方案是,一种高通量数据分析方法,对高通量测序下机数据的处理包括:对下机数据进行数据分割;对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。优选的,在对下机数据进行数据分割后,生成多个前数据片文件,在与参考基因组的所有比对完成后,将生成的多个比对结果片文件合并为一个比对结果文件;预先指定一个区域文件,将其分割成指定的多个区域子文件;将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割,生成多个后数据片文件,提供给后续步骤处理。前数据片文件和后数据片文件均为以行为每条记录单位的区隔,做分割处理时,预先设定文件的总行数,以此控制产生的片文件数量,也由此设定需要并行处理的任务数。优选的,该分析方法用于变异检测,测序下机数据文件为fastq格式。优选的,该分析方法运行于linux系统,使用linuxshell编程,集群管理工具使用torque。一种高通量数据分析方法,包括以下步骤:(1)对高通量测序下机数据进行数据分割,测序原始数据为fastq格式,下机数据是经过压缩的;(2)使用torque对分割的数据分配计算节点、CPU和内存,作剪切adaptor序列、末端无效序列、低质量末端序列的处理,结果数据格式为fastq;(3)使用torque对步骤(2)获得的结果数据分别分配计算节点、CPU和内存,将reads比对到参考基因组,结果数据格式为sam;(4)使用torque对步骤(3)获得的结果数据分别分配计算节点、CPU和内存,对比对结果文件作的处理包括,对比对结果进行排序、去除比对质量低的部分比对结果、将比对结果数据作压缩和对比对结果作索引,结果数据格式为bam;(5)使用torque对步骤(4)获得的结果数据分配计算节点、CPU和内存,将所有比对结果文件整合为一个总比对文件,结果数据格式为bam;(6)使用预先指定的目标区域文件,将此目标区域文件包含的区域分割成指定的多个目标区域子文件,目标区域文件使用bed格式;(7)按照各自的目标区域文件,使用torque对将步骤(5)获得的结果文件分配计算节点、CPU和内存,分割比对文件重新分割为多个文件,每个文件的比对数据比对到的区域只包含各自目标区域,结果数据格式为bam;(8)使用torque对步骤(7)获得的结果数据分别分配计算节点、CPU和内存,作去除PCR引起的重复序列的处理,结果数据格式为bam;(9)使用torque对步骤(8)获得的结果数据分别分配计算节点、CPU和内存,作indel区域再比对的处理,结果数据格式为bam;(10)使用torque对步骤(9)获得的结果数据分别分配计算节点、CPU和内存,作碱基质量值再校正的处理,结果数据格式为bam;(11)使用torque对步骤(10)获得的结果数据分别分配计算节点、CPU和内存,作SNPcalling和INDELcalling,结果数据格式为vcf;(12)使用torque对步骤(11)获得的结果数据分别分配计算节点、CPU和内存,对变异进行过滤和注释,结果数据格式为vcf;(13)使用torque对步骤(12)获得的结果数据分别分配计算节点、CPU和内存,将所有的变异结果文件进行整合,结果数据格式为txt、xls、pdf或html。本专利技术通过提供一个区域文件来定位各个任务对应的参考基因组的区域,能应对全基因组,全外显子,目标测序等,并很方便地扩展到其他分析上,比如拷贝数变异的分析。同时本专利技术还能灵活指定分析的并行处理任务数,根据任务数将提供的目标区域作分割,定位并行处理各自对应的参考基因组的区域,这可以灵活充分利用计算机资源。用本专利技术的方法对高通量基因测序数据进行数据分割和并行化处理和分析,极大提高了分析速度。比如说,如果将原始数据分割成十份数据同时处理,在良好的情形,可以减小分析时间接近于原来的十分之一,因为分析时会有数据分割和再整合的过程。计算资源越多,分析数据越大,可以将数据分割为更多部分并行处理,本方法的效果更为明显。附图说明图1是本专利技术的数据分析方法中部分流程示意图。图2是本专利技术的数据分析方法中部分流程示意图。具体实施方式如图1所示,对高通量测序下机数据进行数据分割。在对下机数据进行数据分割后,产生n个数据片文件。这些数据片文件在与参考基因组的所有比对完成后,将生成的n个比对结果片文件合并为一个比对结果文件。如图2所示,预先指定一个区域文件,将其分割成指定的n个区域子文件。将所述比对结果文件根据指定的n个区域子文件抽取数据进行再次分割,生成n个数据片文件,提供给后续步骤处理。上述的数据片文件均为以行为每条记录单位的区隔,做分割处理时,预先设定文件的总行数,以此控制产生的片文件数量,也由此设定需要并行处理的任务数。对于分本文档来自技高网
...
一种基于集群的高通量数据分析方法

【技术保护点】
一种高通量数据分析方法,其特征在于,对高通量测序下机数据的处理包括:对下机数据进行数据分割;对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。

【技术特征摘要】
1.一种高通量数据分析方法,其特征在于,对高通量测序下机数据的处理包括:对下机数据进行数据分割;对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。2.如权利要求1所述的高通量数据分析方法,其特征在于,在对下机数据进行数据分割后,生成多个前数据片文件,在与参考基因组的所有比对完成后,将生成的多个比对结果片文件合并为一个比对结果文件;预先指定一个区域文件,将其分割成指定的多个区域子文件;将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割,生成多个后数据片文件,提供给后续步骤处理。3.如权利要求2所述的高通量数据分析方法,其特征在于,前数据片文件和后数据片文件均为以行为每条记录单位的区隔,做分割处理时,预先设定文件的总行数,以此控制产生的片文件数量,也由此设定需要并行处理的任务数。4.如权利要求1所述的高通量数据分析方法,其特征在于,该分析方法用于变异检测,测序下机数据文件为fastq格式。5.如权利要求1所述的高通量数据分析方法,其特征在于,该分析方法运行于linux系统,使用linuxshell编程,集群管理工具使用torque。6.如权利要求5所述的高通量数据分析方法,其特征在于,包括以下步骤:(1)对高通量测序下机数据进行数据分割,测序原始数据为fastq格式,下机数据是经过压缩的;(2)使用torque对分割的数据分配计算节点、CPU和内存,作剪切adaptor序列、末端无效序列、低质量末端序列的处理,结果数据格式为fastq;(3)使用torque对步骤(2)获得的结果数据分别分配计算节点、CPU和内存,将reads比对到参考基因组,结果数据格式为sam;(4)使用torque对步骤(3)获得...

【专利技术属性】
技术研发人员:杨飞陈昌岳任一占雪峰张祥林
申请(专利权)人:上海美吉生物医药科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1