一种基于集群的高通量数据分析方法技术

技术编号：15450566 阅读：240 留言：0更新日期：2017-05-31 12:19

一种高通量数据分析方法，一种高通量数据分析方法，对高通量测序下机数据的处理包括：对下机数据进行数据分割；在对下机数据进行数据分割后，生成多个前数据片文件，在与参考基因组的所以比对完成后，将生成的多个比对结果片文件合并为一个比对结果文件；预先指定一个区域文件，将其分割成指定的多个区域子文件；将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割，生成多个后数据片文件，提供给后续步骤处理。对于分割后获得的多个数据片的运算处理，采用集群管理工具分配包括计算节点，以及相应的CPU和内存的计算资源。

A cluster based high throughput data analysis method

A high-throughput data analysis method, a high-throughput data analysis method for data processing machine under high throughput sequencing including data segmentation of machine data; data segmentation of machine data, generating a plurality of data file, completed in the reference genome and so on, will the multiple alignment results sheet files into a result file; a pre specified file area, which is divided into a plurality of sub file specified; the result file is divided again according to a plurality of sub file extraction data specified, generating a plurality of data file, provide for the subsequent processing steps. For the processing of multiple data slices obtained after segmentation, a cluster management tool is used to allocate the computing nodes, including the corresponding CPU and memory computing resources.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于集群的高通量数据分析方法
本专利技术属于基因测序
，特别涉及一种基于集群的高通量数据分析方法。
技术介绍
高通量基因测序技术又称“下一代”测序(next-generationsequencing，NGS)技术，可以一次性测定几十万甚至几百万条序列，是现今应用最广泛的测序技术。相对于传统的Sanger测序技术，NGS具有高速、高通量、低价格等优点。基于高通量测序的变异检测在近年发展迅猛，现今又恰逢精准医疗的大力推广，变异检测的需求面临爆发式的增长。在变异检测的过程中，处理GB级别甚至上百GG的数据量是很普遍的情形，常规分析时间从几个小时到几天不等，医生或病人获知检测报告的时间较长，是精准医疗面临的一个问题。除了提高硬件性能外，常用的加速变异检测的方式是使用多线程的方式对数据进行处理，然而基于应用程序多线程的加速处理对分析速度的提升有限，并且有所限制，如果应用程序不支持多线程，则此种加速则无法进行。现今有基于分布式文件系统的MapReduce加速方法，效果是很好的，但是这种方法需要对分布式文献系统有所了解，需要掌握相应的对口语言编程(比如java)，部署较为困难，使用相较复杂，不利于这种并行计算方式在分析高通量测序数据方面的实施。申请号CN201510192260.8的专利文献，涉及“一种超快速检测人类基因组单碱基突变和微插入缺失的方法，是一种能从人基因组DNA测序结果中快速地检测出单碱基突变、微插入缺失的可行方法”。该申请“通过把人参考基因组序列科学有效地切分为小的子参考序列块，把人重测序中的几乎全部步骤(包括分析时间较长的步骤)都切分为计算复...
一种基于集群的高通量数据分析方法

【技术保护点】
一种高通量数据分析方法，其特征在于，对高通量测序下机数据的处理包括：对下机数据进行数据分割；对于分割后获得的多个数据片的运算处理，采用集群管理工具分配包括计算节点，以及相应的CPU和内存的计算资源。

【技术特征摘要】
1.一种高通量数据分析方法，其特征在于，对高通量测序下机数据的处理包括：对下机数据进行数据分割；对于分割后获得的多个数据片的运算处理，采用集群管理工具分配包括计算节点，以及相应的CPU和内存的计算资源。2.如权利要求1所述的高通量数据分析方法，其特征在于，在对下机数据进行数据分割后，生成多个前数据片文件，在与参考基因组的所有比对完成后，将生成的多个比对结果片文件合并为一个比对结果文件；预先指定一个区域文件，将其分割成指定的多个区域子文件；将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割，生成多个后数据片文件，提供给后续步骤处理。3.如权利要求2所述的高通量数据分析方法，其特征在于，前数据片文件和后数据片文件均为以行为每条记录单位的区隔，做分割处理时，预先设定文件的总行数，以此控制产生的片文件数量，也由此设定需要并行处理的任务数。4.如权利要求1所述的高通量数据分析方法，其特征在于，该分析方法用于变异检测，测序下机数据文件为fastq格式。5.如权利要求1所述的高通量数据分析方法，其特征在于，该分析方法运行于linux系统，使用linuxshell编程，集群管理工具使用torque。6.如权利要求5所述的高通量数据分析方法，其特征在于，包括以下步骤：(1)对高通量测序下机数据进行数据分割，测序原始数据为fastq格式，下机数据是经过压缩的；(2)使用torque对分割的数据分配计算节点、CPU和内存，作剪切adaptor序列、末端无效序列、低质量末端序列的处理，结果数据格式为fastq；(3)使用torque对步骤(2)获得的结果数据分别分配计算节点、CPU和内存，将reads比对到参考基因组，结果数据格式为sam；(4)使用torque对步骤(3)获得...

【专利技术属性】
技术研发人员：杨飞，陈昌岳，任一，占雪峰，张祥林，
申请(专利权)人：上海美吉生物医药科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人