当前位置: 首页 > 专利查询>朱瑞星专利>正文

一种用于对基因组进行压缩和解压缩的方法和装置制造方法及图纸

技术编号:18458944 阅读:24 留言:0更新日期:2018-07-18 12:45
基于参考基因组的压缩方法并非没有办法解决它压缩速度慢的问题,可以通过并行解压缩的方式来提高速度。序列比对到参考基因组上的过程是可以高度并行化的,很多基于参考基因组的压缩算法也是可以并行化的,那么利用集群进行解压缩,可提高冷存储转为热存储的速度,减少因为冷存储压缩算法带来的时间成本,如果选用传统的多核心计算机来做并行化,必然面临瓶颈,而本发明专利技术采用hadoop集群,充分利用mapreduce的优势,将压缩比高的压缩算法在集群上达到高速度,同时又能获得很高的压缩比,虽然这样的集群需要很好的计算资源,但是商业云的弹性计算都能提供这种服务,或许不远的将来这些工具都能成为商业云的配套服务。

A method and device for compressing and decompressing a genome.

Based on the reference genome compression method, there is no way to solve the problem of slow compression speed. It can be improved by parallel decompression. The process of sequence alignment on the reference genome can be highly parallelized, and many compression algorithms based on the reference genome can be parallelized. Then the use of cluster decompression can improve the speed of cold storage to hot storage and reduce the time cost caused by the cold storage compression algorithm, if the tradition is selected. The multi core computer is parallel to the bottleneck, and the invention uses the Hadoop cluster to make full use of the advantages of MapReduce, to compress the high compression algorithm to achieve high speed in the cluster and obtain a high compression ratio, although such a cluster needs very good computing resources, but the business cloud is projectile. Sexual computing can provide this kind of service. Maybe these tools will become supporting services for commercial cloud in the near future.

【技术实现步骤摘要】
一种用于对基因组进行压缩和解压缩的方法和装置
本专利技术涉及对基因组进行压缩和解压缩
,尤其是涉及对人类基因组数据fastq文件的压缩,是基于hadoop集群的压缩和解压缩的方法和装置。
技术介绍
随着二代测序的迅猛发展,测序成本大幅降低,越来越多的基因组数据不断涌现,无论是对于存储还是网络传输都成了重大负担,如何对数据进行有效的压缩就显得迫在眉睫。高效的压缩方法不但能带来存储空间的节省,也给减少了网络传输的压力。压缩方法主要分为两个方向,一个是基于参考基因组的压缩,一个是非基于参考基因组的压缩,基于参考基因组的压缩能够带来更好的压缩效果,但是更为耗时,因为需要进行比对,这在一定程度带来计算资源的消耗,而且这类方法,往往也依赖于参考基因组的质量,当基因组很好的情况下才能达到良好的压缩效果,但是由于存储的需要,加上fastq文件并不是经常需要,可以对数据采用冷存储。出于这方面的考虑,基于参考基因组的压缩开始受到更多关注。基于参考基因组的压缩方法并非没有办法解决它压缩速度慢的问题,可以通过并行解压缩的方式来提高速度。序列比对到参考基因组上的过程是可以高度并行化的,很多基于参考基因组的压缩算法也是可以并行化的,目前的对基因组进行压缩和解压缩的方法中冷存储转为热存储的速度慢,因冷存储压缩算法带来的时间成本较高,如果选用传统的多核心计算机来做并行化,必然面临瓶颈,所以一种采用采用hadoop集群,充分利用mapreduce的优势,将压缩比高的压缩算法在集群上达到高速度,同时又能获得很高的压缩比的压缩方法和解压缩方法是在本领域迫切需要的。。
技术实现思路
为解决以上现有难题,本专利技术公开了一种基于hadoop集群的对基因组进行压缩和解压缩的方法和装置。在hadoop集群上搭建生物信息平台,能够充分利用并行效果,达到理想的运算速度,这样给生物信息平台带来了优势,同时它的可扩展性也带来的巨大的方便。生物信息最基本的需求有两个,一个是数据存储和一个数据的分析,而hadoop集群能同时满足这两个需求。基于参考基因组的压缩办法并非没有办法解决它压缩速度很慢的问题,可以通过并行解压缩的方式来提高速度。首先,序列比对到参考基因组上的过程是可以高度并行化的,很多基于参考基因组的压缩算法都是可以并行化的,那么就可以考虑充分利用集群进行解压缩,从而提高冷存储转为热存储的速度,减少因为冷存储压缩算法带来的时间成本。如果选用传统的多核心计算机来做并行化,必然面临瓶颈,如果采用hadoop集群,充分利用mapreduce的优势,是可以把这些非常耗时,但是压缩比却很好的压缩算法在集群上达到很快速度,而又能同时收获很高的压缩比。虽然这样的集群需要很好的计算资源,但是商业云的弹性计算很多都能提供这种服务,或许不远的将来这些工具都能成为商业云的配套服务。一种用于对基因组进行压缩的方法,包括:从参考数据库中选择与所述基因组相匹配的参考基因组;对参考基因组创建基于bwt算法的索引;基于hadoop集群将短序列fastq文件与参考基因组进行比对,将短序列比对到参考基因组的过程是在hadoop集群上完成的,是基于hadoop集群对bwt算法的改写;根据短序列在参考基因组中的位置来定位,并获取与参考基因组不同的部分;对短序列fastq文件进行预处理,比对align,以标识基因组与参考基因组之间的差异数据;以及生成经压缩的基因组,经压缩的基因组至少包括索引和差异数据,生成的压缩产生的数据文件能够利用hadoop集群mapreduce完成解压缩过程。进一步地,其中从参考数据库中选择与所述基因组相匹配的参考基因组包括:选用人类参考基因组,选择所述压缩过程专门针对人类数据进行压缩的算法;基于人类基因数据参考数据库中的参考基因组的特征进行计算,算出不同于其他物种的特征,将这些特征放置于hadoop集群的每个结点中。进一步地,其中所述基因组相匹配的参考基因组包括:基于人类基因组的全部22条常染色体数据以及XY染色体以及线粒体基因组,选用人类基因组hg19版本。进一步地,其中压缩过程包括:通过序列比对过程,将fastq文件分解成多个部分,其中包括ID部分、序列部分以及碱基质量值部分,并对fastq文件建立索引、分发,根据fastq文件中read所处在的文件位置进行分发,然后对fastq文件进行压缩。参考数据库中的参考基因组中包括的至少一个预定序列中的至少任一项,选择参考基因组,少量提取基因组序列特征,然后充分保留这些特征。在本专利技术中,参考基因fastq数据文件是需要进行排序调整的,所以记录fastq文件中序列本来的顺序是很重要的,要对fastq文件中的序列的顺序进行记录,以便保证fastq能够被还原。进一步地,其中将fastq文件进行分解,fastq文件处理后分成三个子文件:文件1:fastq文件的碱基部分,这部分为序列,这些序列来自于高通量测序仪;文件2:ID部分,ID部分是fastq文件中每个短序列的唯一标识符,同时对这些标识符进行处理,使得记录下每个短序列在原来文件中的位置,以及选择与所述基因组的差异最小的参考基因组;文件3:序列的质量值部分,这部分来自于测序仪器的质量控制环节,对这部分没有进行预处理,保留原始状态;最后,对文件1、文件2、文件3构建索引,从而提高读取速度。进一步地,进一步包括:将参考基因组经过索引处理,这些索引是为了应对hadoop集群的特征而建立的,是专门针对mapreduce的HDFS文件系统而打造的方法。进一步地,包括:针对hadoop集群而进行的比对分析处理过程,这个过程是对waterman算法的改写,将传统的用于单节点的比对算法进行改写,使之能与hadoop集群体系整合。进一步地,其中针对hadoop集群而进行的比对分析处理过程包括:使用hadoop集群中的mapreduce接口对比对过程进行改写,对HDFS文件系统进行充分利用;比对过程充分并行,hadoop集群的每个结点都会产生一个fastq文件的比对子集,也就是map的过程,最终要将这些子集通过reduce的过程合成一个大的比对集合,然后根据这些比对的结果进行smatoolsmileup处理,从而找到序列之间与参考基因组相同的部分和不同的部分。进一步地,其中对fastq文件进行压缩包括:将这其中的短序列与参考基因相同的部分都删除,只保留不相同的部分,这样大量减少的数据的冗余,从而实现了压缩。进一步地,将这其中的短序列与参考基因相同的部分都删除,只保留不相同的部分,包括对质量部分的压缩处理,通常采用通用压缩技术,并未做特别处理。一种用于对基因组进行解压缩的方法,包括:经上述的方法进行压缩的经压缩的基因组,从参考基因组中获取与短序列比对位置相同的序列,并将这些序列提取出来,替换掉与短序列差异的部分,这样就还原了原始的短序列。进一步地,包括:首先,将用通用压缩方法压缩后的差异文件解压缩;然后,利用差异文件的文本内容去到参考基因组上寻找和参考基因组不同的部分;最后,将这些不同的部分和与参考基因组相同的部分进行整合与保留。一种用于对fastq文件进行压缩和解压缩的装置,包括:拆分模块,配置用于对fastq文件进行拆分,先是按照文件内容进行拆分,最后对fastq文件进行水平拆分然后分本文档来自技高网...

【技术保护点】
1.一种用于对基因组进行压缩的方法,其特征在于,包括:从参考数据库中选择与所述基因组相匹配的参考基因组;对参考基因组创建基于bwt算法的索引;基于hadoop集群将短序列fastq文件与参考基因组进行比对,将短序列比对到参考基因组的过程是在hadoop集群上完成的,是基于hadoop集群对bwt算法的改写;对短序列fastq文件进行预处理,并进行压缩;生成压缩数据文件,生成的压缩产生的数据文件能够利用hadoop集群mapreduce完成解压缩过程。

【技术特征摘要】
1.一种用于对基因组进行压缩的方法,其特征在于,包括:从参考数据库中选择与所述基因组相匹配的参考基因组;对参考基因组创建基于bwt算法的索引;基于hadoop集群将短序列fastq文件与参考基因组进行比对,将短序列比对到参考基因组的过程是在hadoop集群上完成的,是基于hadoop集群对bwt算法的改写;对短序列fastq文件进行预处理,并进行压缩;生成压缩数据文件,生成的压缩产生的数据文件能够利用hadoop集群mapreduce完成解压缩过程。2.根据权利要求1所述的一种用于对基因组进行压缩的方法,其特征在于,其中从参考数据库中选择与所述基因组相匹配的参考基因组包括:选用人类参考基因组,选择所述压缩过程专门针对人类数据进行压缩的算法;基于人类基因数据参考数据库中的参考基因组的特征进行计算,算出不同于其他物种的特征,将这些特征放置于hadoop集群的每个结点中。3.根据权利要求2所述的一种用于对基因组进行压缩的方法,其特征在于,其中所述基因组相匹配的参考基因组包括:基于人类基因组的全部22条常染色体数据以及XY染色体以及线粒体基因组,选用人类基因组hg19版本。4.根据权利要求2所述的一种用于对基因组进行压缩的方法,其特征在于,其中压缩过程包括:通过序列比对过程,将fastq文件分解成多个部分,其中包括ID部分、序列部分以及碱基质量值部分,并对fastq文件建立索引、分发,根据fastq文件中read所处在的文件位置进行分发,然后对fastq文件进行压缩。5.根据权利要求4所述的一种用于对基因组进行压缩的方法,其特征在于,其中将fastq文件进行分解,fastq文件处理后分成三个子文件:文件1:fastq文件的碱基部分,这部分为序列,这些序列来自于高通量测序仪;文件2:ID部分,ID部分是fastq文件中每个短序列的唯一标识符,同时对这些标识符进行处理,使得记录下每个短序列在原来文件中的位置,以及选择与所述基因组的差异最小的参考基因组;文件3:序列的质量值部分,这部分来自于测序仪器的质量控制环节,对这部分没有进行预处理,保留原始状态;最后,对文件1、文件2、文件3构建索引,从而提高读取速度。6.根据权利要求1-5中的任一项所述的一种用于对基因组进行压缩的方法,其特征在于,进一步包括:将参考基因组经过索引处理,这些索引是为了应对hadoop集群的特征而建立的,是专门针对mapreduce的HDFS文件系统而打造的方法。7.根据权利要求1-5中的任一项所述的一种用于对基因组进行压缩的方法,其特征在于,进一步包括:针对hadoop集群而进行的比对分析处理过程,这个过程是对waterman算法的改写,将传统的用于单节点的比对算法进行改写,使之能与hadoop集群体系整合。8.根据权利要去7所述的一种用于对基因组进行压缩的方法,其特征在于,其中针对hadoop集群而进行的比对分析处理过程包括:使用hadoop集群中的mapreduce接口对比对过程进行改写,对HDFS文件系统进行充分利用;比对过程充分并行,hadoop集群的每个结点都会产生一个fastq文件的比对子集,也就是map的过程,最终要将这些子集通过reduce的过程合成一个大的比对集合,然后根据这些比对的结果进行smatoolsmileup处理,从而找到序列之间与参考基因组相同的部分和不同的部分。9.根据权利要去4所述的一种用于对基因组进行压缩的方法,其特...

【专利技术属性】
技术研发人员:朱瑞星
申请(专利权)人:朱瑞星
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1