快速DNA测序数据分析平台的数据内存和硬盘分流存储方法技术

技术编号:18289767 阅读:39 留言:0更新日期:2018-06-24 04:35
本发明专利技术公开一种快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,包括:将序列比对数据分成索引数据和其他数据,将索引数据全部存放于计算机内存;对其他数据,按照一定的比例,以基因段为单位,分别放入计算机内存和和硬盘文件中。本发明专利技术降低了IMP算法分析海量基因测序数据时对计算机内存扩大的需求,同时降低了基因测序平台的搭建成本。

【技术实现步骤摘要】
快速DNA测序数据分析平台的数据内存和硬盘分流存储方法
本专利技术涉及数据存储
,特别涉及快速DNA测序数据分析平台的数据内存和硬盘分流存储方法。
技术介绍
随着人类基因组计划的顺利实施和测序技术的快速发展,测序的成本显著降低,而测序速度得到了显著提高,人类全基因组测序的测序成本已经降至$1000以内,DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据,进而分析与解释基因序列里的潜在问题,从海量数据里发掘出对人类有利的信息,成为一个迫切需要解决的问题。应用越来越广泛的人类全基因组测序(WGS)产生的序列数据、以及对海量序列数据进行快速分析处理的持续需求,使数据分析形成了一个新的技术瓶颈,对二代测序技术的临床应用成为制约。同时,为了推动精准医疗,二代测序技术的临床应用对数据分析工具有如下的要求。第一,对程序运行时间上的要求,数据分析方法速度要快。由于二代测序技术产出数据的通量越来越高,检测数据分析方法的速度需要与之相匹配,才能够达到快速确认,快速应对的目的。第二,对数据的私密性的要求,基因数据的隐秘性和安全性需要得到保证。第三,分析精度上的要求。目前在国际上生物信息学领域最广泛使用的短读长序列比对的工具包括SOAP3-dp,BWA-aln,BWA-mem,Bowtie等,最常用的变异检测工具包括GATKHaplotypeCaller,Samtools-mpileup,freebayes等。这些工具整个流程的实现是采用文件I/O系统,序列比对将比对结果导出到硬盘,作为后续处理模块的输入,因而在数据读写方面耗费了大量的时间。IMP测序数据分析平台采用的是内存存储与计算技术,即在IMP测序数据分析平台的整个数据分析流程中,所有的数据处理都是基于内存的数据存储和计算,从而避免了在流程的多个处理步骤之间使用基于文件的中间结果的导入导出,减少了I/O开销,由于所有的序列比对记录经过压缩,全部以共享内存的方式实现各进程/线程间的通信,将数据处理速度加快了100倍左右,极大的提高了运行效率。但是,基因数据的存储量非常大,以30倍深度的人类全基因组数据来说,输出的SAM文件达到200GB,IMP经过数据压缩后,可以在256GB的服务器上完全用内存来存储所有的序列比对数据,省去了I/O存储开销,但是当系统内存大量被用于存储基因数据时,系统的运行效率开始变慢。同时,随着基因数据量的加大,内存的需求量也随之增加,如处理50倍甚至更高深度的WGS数据时,需要把系统内存增加到484GB甚至512GB,因此IMP测序数据分析平台能够同时处理的数据量受限于工作站的硬件配置,要求系统配备大容量,内存基因分析成本大幅增加了。有鉴于此,本专利技术人特别研制出一种优化的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,本案由此产生。
技术实现思路
本专利技术的目的在于提供快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,以降低IMP算法分析海量基因测序数据时对计算机内存扩大的需求,以及降低基因测序平台的搭建成本。为了实现上述目的,本专利技术的技术方案如下:快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,包括:将序列比对数据分成索引数据和其他数据,其中索引数据是指在数据分析处理的过程中需要反复读写的数据,且索引数据占所有数据的少部分,其他数据是指只需要一次性读写的数据;再对前述分类的数据按如下方式进行处理:1)将索引数据全部存放于计算机内存;2)对其他数据,按照一定的比例,以基因段为单位,分别放入计算机内存和内存硬盘文件中,进一步,将索引数据全部存放于共享内存;对于其他数据,按照一定的比例,以基因段为单位,部分放入共享内存和内存映射文件,另一部分通过内存映射文件转移至硬盘。进一步,序列对比数据包括:必须的字段,以CORE数据结构表示,仅包括变异检测所需的字段;可选的字段,以EXT数据结构表示,包括如果指定为输出BAM文件,则要写入BAM文件的其他字段;对于单端和双端短读长序列,前述序列对比记录的CORE数据结构包括以下字段:NEXTREADID,按序列顺序下一个比对记录的索引ID,为零时表示没有下一个比对;SIZE,当前序列比对记录在内存中所需的总字节数;OFFSET,当前序列比对记录在当前内存块中的相对地址;POSITION,该序列在参考序列中的比对位置,是从0到(N-1)的全局位置,其中N是参考序列的长度;TLEN,该值仅用于双端测序序列比对,表示该序列的比对位置与相应的mate序列的比对位置之间的距离;FLAG,位标志,每一个bit代表一种比对情况,与标准SAM文件里的FLAG一致;MAPQ,由比对算法给出的比对质量,MAPQ的值范围为0到60,并使用单个字节表示;CIGAR,简要比对信息表达式,以参考序列为基础,使用数字加字母表示比对结果;SUBREAD,比对序列的子序列,指完全重建该短读长序列本身所需的原始序列的子集;子序列中的每个碱基对使用3位进行无损编码;QUAL,序列的质量信息,使用Rice编码进行无损压缩;对于单端和双端序列,前述其序列比对记录EXT数据结构包含以下字段:RNAME,当参考序列包括多条染色体时,该字段指出序列在参考序列中对应的染色体名称;MD,该字符串用于从该序列完全重构相应位置的参考序列的子序列QNAME,即该序列的名称;AS,序列比对的分数;XS,序列比对可以给出多个结果,将该序列映射到参考序列的不同位置,XS表达第二位的比对结果的分数;NM,从该序列到参考序列的编辑距离,即从序列变换到参考序列对应位置的子序列所需的编辑次数;双端测序序列还包括以下的附加字段:RNEXT,是该序列的mate在参考序列中对应的染色体名称;PNEXT,是该序列的mate在参考序列中的比对位置;将前述NEXTREADID、OFFSET、POSITION及FLAG4个字段作为序列比对记录的索引数据,并将其他所有字段,包括CORE数据的其他字段以及EXT数据的所有字段,都作为其他数据。进一步的,按照比对记录的全局比对位置分成不同的基因段,每一个段有自己的哈希表,数据分流基于基因段实现;在做序列比对时,需要写入所有的序列比对记录,具体的分流存储包括以下几个步骤。A1.根据需要处理的基因测序数据的数据量,估算需要写往硬盘部分的数据大小,设定一个比例,按照比例将部分基因段的其他数据写往内存,而另一部分基因段的其他数据通过内存文件映射的方式写往硬盘;B1.建立起一个从段的标识符到不同存储方案的映射函数,对某一个具体的基因段,其存储方式由该映射函数决定,基因段的标识符由全局比对位置决定;C1.对某一个具体的基因段,如果其存储方式映射为内存,则比对到该基因段上的序列比对记录的数据将被直接写入内存,包括索引数据和其他数据;D1.如果该基因段的存储方式映射为硬盘,则比对到该基因段上的序列比对记录的索引数据仍然写入内存,而其他数据将被写入该基因段对应的硬盘文件;在做变异分析时,需要读取所有的序列比对记录,从分流存储读取比对记录包括以下几个步骤:A2.给定比对记录的全局比对位置,计算对应的基因段的标识符,找到该比对位置对应的基因段,通过从段的标识符到不同存储方案的映射函数,确定该基因段的存储方式;B2.如果该基因段被写入内存,本文档来自技高网
...
快速DNA测序数据分析平台的数据内存和硬盘分流存储方法

【技术保护点】
1.快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于,包括以下步骤:将序列比对数据分成索引数据和其他数据,其中索引数据是指在数据分析处理的过程中需要反复读写的数据,且索引数据占所有数据的少部分,其他数据是指只需要一次性读写的数据;再对前述分类的数据按如下方式进行处理:1)将索引数据全部存放于计算机内存;2)对其他数据,按照一定的比例,以基因段为单位,分别放入计算机内存和内存硬盘文件中,如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于:将索引数据全部存放于共享内存;对于其他数据,按照一定的比例,以基因段为单位,部分放入共享内存和内存映射文件,另一部分通过内存映射文件转移至硬盘。

【技术特征摘要】
1.快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于,包括以下步骤:将序列比对数据分成索引数据和其他数据,其中索引数据是指在数据分析处理的过程中需要反复读写的数据,且索引数据占所有数据的少部分,其他数据是指只需要一次性读写的数据;再对前述分类的数据按如下方式进行处理:1)将索引数据全部存放于计算机内存;2)对其他数据,按照一定的比例,以基因段为单位,分别放入计算机内存和内存硬盘文件中,如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于:将索引数据全部存放于共享内存;对于其他数据,按照一定的比例,以基因段为单位,部分放入共享内存和内存映射文件,另一部分通过内存映射文件转移至硬盘。2.如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于,序列对比数据包括:必须的字段,以CORE数据结构表示,仅包括变异检测所需的字段;可选的字段,以EXT数据结构表示,包括如果指定为输出BAM文件,则要写入BAM文件的其他字段;对于单端和双端短读长序列,前述序列对比记录的CORE数据结构包括以下字段:NEXTREADID,按序列顺序下一个比对记录的索引ID,为零时表示没有下一个比对;SIZE,当前序列比对记录在内存中所需的总字节数;OFFSET,当前序列比对记录在当前内存块中的相对地址;POSITION,该序列在参考序列中的比对位置,是从0到(N-1)的全局位置,其中N是参考序列的长度;TLEN,该值仅用于双端测序序列比对,表示该序列的比对位置与相应的mate序列的比对位置之间的距离;FLAG,位标志,每一个bit代表一种比对情况,与标准SAM文件里的FLAG一致;MAPQ,由比对算法给出的比对质量,MAPQ的值范围为0到60,并使用单个字节表示;CIGAR,简要比对信息表达式,以参考序列为基础,使用数字加字母表示比对结果;SUBREAD,比对序列的子序列,指完全重建该短读长序列本身所需的原始序列的子集;子序列中的每个碱基对使用3位进行无损编码;QUAL,序列的质量信息,使用Rice编码进行无损压缩;对于单端和双端序列,前述其序列比对记录EXT数据结构包含以下字段:RNAME,当参考序列包括多条染色体时,该字段指出序列在参考序列中对应的染色体名称;MD,该字符串用于从该序列完全重构相应位置...

【专利技术属性】
技术研发人员:张翔杨文娴俞容山
申请(专利权)人:厦门极元科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1