Based on the reference genome compression method, there is no way to solve the problem of slow compression speed. It can be improved by parallel decompression. The process of sequence alignment on the reference genome can be highly parallelized, and many compression algorithms based on the reference genome can be parallelized. Then the use of cluster decompression can improve the speed of cold storage to hot storage and reduce the time cost caused by the cold storage compression algorithm, if the tradition is selected. The multi core computer is parallel to the bottleneck, and the invention uses the Hadoop cluster to make full use of the advantages of MapReduce, to compress the high compression algorithm to achieve high speed in the cluster and obtain a high compression ratio, although such a cluster needs very good computing resources, but the business cloud is projectile. Sexual computing can provide this kind of service. Maybe these tools will become supporting services for commercial cloud in the near future.
【技术实现步骤摘要】
一种用于对基因组进行压缩和解压缩的方法和装置
本专利技术涉及对基因组进行压缩和解压缩
,尤其是涉及对人类基因组数据fastq文件的压缩,是基于hadoop集群的压缩和解压缩的方法和装置。
技术介绍
随着二代测序的迅猛发展,测序成本大幅降低,越来越多的基因组数据不断涌现,无论是对于存储还是网络传输都成了重大负担,如何对数据进行有效的压缩就显得迫在眉睫。高效的压缩方法不但能带来存储空间的节省,也给减少了网络传输的压力。压缩方法主要分为两个方向,一个是基于参考基因组的压缩,一个是非基于参考基因组的压缩,基于参考基因组的压缩能够带来更好的压缩效果,但是更为耗时,因为需要进行比对,这在一定程度带来计算资源的消耗,而且这类方法,往往也依赖于参考基因组的质量,当基因组很好的情况下才能达到良好的压缩效果,但是由于存储的需要,加上fastq文件并不是经常需要,可以对数据采用冷存储。出于这方面的考虑,基于参考基因组的压缩开始受到更多关注。基于参考基因组的压缩方法并非没有办法解决它压缩速度慢的问题,可以通过并行解压缩的方式来提高速度。序列比对到参考基因组上的过程是可以高度并行化的,很多基于参考基因组的压缩算法也是可以并行化的,目前的对基因组进行压缩和解压缩的方法中冷存储转为热存储的速度慢,因冷存储压缩算法带来的时间成本较高,如果选用传统的多核心计算机来做并行化,必然面临瓶颈,所以一种采用采用hadoop集群,充分利用mapreduce的优势,将压缩比高的压缩算法在集群上达到高速度,同时又能获得很高的压缩比的压缩方法和解压缩方法是在本领域迫切需要的。。
技术实现思路
为解决以上 ...
【技术保护点】
1.一种用于对基因组进行压缩的方法,其特征在于,包括:从参考数据库中选择与所述基因组相匹配的参考基因组;对参考基因组创建基于bwt算法的索引;基于hadoop集群将短序列fastq文件与参考基因组进行比对,将短序列比对到参考基因组的过程是在hadoop集群上完成的,是基于hadoop集群对bwt算法的改写;对短序列fastq文件进行预处理,并进行压缩;生成压缩数据文件,生成的压缩产生的数据文件能够利用hadoop集群mapreduce完成解压缩过程。
【技术特征摘要】
1.一种用于对基因组进行压缩的方法,其特征在于,包括:从参考数据库中选择与所述基因组相匹配的参考基因组;对参考基因组创建基于bwt算法的索引;基于hadoop集群将短序列fastq文件与参考基因组进行比对,将短序列比对到参考基因组的过程是在hadoop集群上完成的,是基于hadoop集群对bwt算法的改写;对短序列fastq文件进行预处理,并进行压缩;生成压缩数据文件,生成的压缩产生的数据文件能够利用hadoop集群mapreduce完成解压缩过程。2.根据权利要求1所述的一种用于对基因组进行压缩的方法,其特征在于,其中从参考数据库中选择与所述基因组相匹配的参考基因组包括:选用人类参考基因组,选择所述压缩过程专门针对人类数据进行压缩的算法;基于人类基因数据参考数据库中的参考基因组的特征进行计算,算出不同于其他物种的特征,将这些特征放置于hadoop集群的每个结点中。3.根据权利要求2所述的一种用于对基因组进行压缩的方法,其特征在于,其中所述基因组相匹配的参考基因组包括:基于人类基因组的全部22条常染色体数据以及XY染色体以及线粒体基因组,选用人类基因组hg19版本。4.根据权利要求2所述的一种用于对基因组进行压缩的方法,其特征在于,其中压缩过程包括:通过序列比对过程,将fastq文件分解成多个部分,其中包括ID部分、序列部分以及碱基质量值部分,并对fastq文件建立索引、分发,根据fastq文件中read所处在的文件位置进行分发,然后对fastq文件进行压缩。5.根据权利要求4所述的一种用于对基因组进行压缩的方法,其特征在于,其中将fastq文件进行分解,fastq文件处理后分成三个子文件:文件1:fastq文件的碱基部分,这部分为序列,这些序列来自于高通量测序仪;文件2:ID部分,ID部分是fastq文件中每个短序列的唯一标识符,同时对这些标识符进行处理,使得记录下每个短序列在原来文件中的位置,以及选择与所述基因组的差异最小的参考基因组;文件3:序列的质量值部分,这部分来自于测序仪器的质量控制环节,对这部分没有进行预处理,保留原始状态;最后,对文件1、文件2、文件3构建索引,从而提高读取速度。6.根据权利要求1-5中的任一项所述的一种用于对基因组进行压缩的方法,其特征在于,进一步包括:将参考基因组经过索引处理,这些索引是为了应对hadoop集群的特征而建立的,是专门针对mapreduce的HDFS文件系统而打造的方法。7.根据权利要求1-5中的任一项所述的一种用于对基因组进行压缩的方法,其特征在于,进一步包括:针对hadoop集群而进行的比对分析处理过程,这个过程是对waterman算法的改写,将传统的用于单节点的比对算法进行改写,使之能与hadoop集群体系整合。8.根据权利要去7所述的一种用于对基因组进行压缩的方法,其特征在于,其中针对hadoop集群而进行的比对分析处理过程包括:使用hadoop集群中的mapreduce接口对比对过程进行改写,对HDFS文件系统进行充分利用;比对过程充分并行,hadoop集群的每个结点都会产生一个fastq文件的比对子集,也就是map的过程,最终要将这些子集通过reduce的过程合成一个大的比对集合,然后根据这些比对的结果进行smatoolsmileup处理,从而找到序列之间与参考基因组相同的部分和不同的部分。9.根据权利要去4所述的一种用于对基因组进行压缩的方法,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。