【技术实现步骤摘要】
快速DNA测序数据分析平台的数据内存和硬盘分流存储方法
本专利技术涉及数据存储
,特别涉及快速DNA测序数据分析平台的数据内存和硬盘分流存储方法。
技术介绍
随着人类基因组计划的顺利实施和测序技术的快速发展,测序的成本显著降低,而测序速度得到了显著提高,人类全基因组测序的测序成本已经降至$1000以内,DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据,进而分析与解释基因序列里的潜在问题,从海量数据里发掘出对人类有利的信息,成为一个迫切需要解决的问题。应用越来越广泛的人类全基因组测序(WGS)产生的序列数据、以及对海量序列数据进行快速分析处理的持续需求,使数据分析形成了一个新的技术瓶颈,对二代测序技术的临床应用成为制约。同时,为了推动精准医疗,二代测序技术的临床应用对数据分析工具有如下的要求。第一,对程序运行时间上的要求,数据分析方法速度要快。由于二代测序技术产出数据的通量越来越高,检测数据分析方法的速度需要与之相匹配,才能够达到快速确认,快速应对的目的。第二,对数据的私密性的要求,基因数据的隐秘性和安全性需要得到保证。第三,分析精度上的要求。目前在国际上生物信息学领域最广泛使用的短读长序列比对的工具包括SOAP3-dp,BWA-aln,BWA-mem,Bowtie等,最常用的变异检测工具包括GATKHaplotypeCaller,Samtools-mpileup,freebayes等。这些工具整个流程的实现是采用文件I/O系统,序列比对将比对结果导出到硬盘,作为后续处理模块的输入,因而在数据读写方面耗费了大量的时间。IMP测序数据分析平台采 ...
【技术保护点】
1.快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于,包括以下步骤:将序列比对数据分成索引数据和其他数据,其中索引数据是指在数据分析处理的过程中需要反复读写的数据,且索引数据占所有数据的少部分,其他数据是指只需要一次性读写的数据;再对前述分类的数据按如下方式进行处理:1)将索引数据全部存放于计算机内存;2)对其他数据,按照一定的比例,以基因段为单位,分别放入计算机内存和内存硬盘文件中,如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于:将索引数据全部存放于共享内存;对于其他数据,按照一定的比例,以基因段为单位,部分放入共享内存和内存映射文件,另一部分通过内存映射文件转移至硬盘。
【技术特征摘要】
1.快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于,包括以下步骤:将序列比对数据分成索引数据和其他数据,其中索引数据是指在数据分析处理的过程中需要反复读写的数据,且索引数据占所有数据的少部分,其他数据是指只需要一次性读写的数据;再对前述分类的数据按如下方式进行处理:1)将索引数据全部存放于计算机内存;2)对其他数据,按照一定的比例,以基因段为单位,分别放入计算机内存和内存硬盘文件中,如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于:将索引数据全部存放于共享内存;对于其他数据,按照一定的比例,以基因段为单位,部分放入共享内存和内存映射文件,另一部分通过内存映射文件转移至硬盘。2.如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法,其特征在于,序列对比数据包括:必须的字段,以CORE数据结构表示,仅包括变异检测所需的字段;可选的字段,以EXT数据结构表示,包括如果指定为输出BAM文件,则要写入BAM文件的其他字段;对于单端和双端短读长序列,前述序列对比记录的CORE数据结构包括以下字段:NEXTREADID,按序列顺序下一个比对记录的索引ID,为零时表示没有下一个比对;SIZE,当前序列比对记录在内存中所需的总字节数;OFFSET,当前序列比对记录在当前内存块中的相对地址;POSITION,该序列在参考序列中的比对位置,是从0到(N-1)的全局位置,其中N是参考序列的长度;TLEN,该值仅用于双端测序序列比对,表示该序列的比对位置与相应的mate序列的比对位置之间的距离;FLAG,位标志,每一个bit代表一种比对情况,与标准SAM文件里的FLAG一致;MAPQ,由比对算法给出的比对质量,MAPQ的值范围为0到60,并使用单个字节表示;CIGAR,简要比对信息表达式,以参考序列为基础,使用数字加字母表示比对结果;SUBREAD,比对序列的子序列,指完全重建该短读长序列本身所需的原始序列的子集;子序列中的每个碱基对使用3位进行无损编码;QUAL,序列的质量信息,使用Rice编码进行无损压缩;对于单端和双端序列,前述其序列比对记录EXT数据结构包含以下字段:RNAME,当参考序列包括多条染色体时,该字段指出序列在参考序列中对应的染色体名称;MD,该字符串用于从该序列完全重构相应位置...
【专利技术属性】
技术研发人员:张翔,杨文娴,俞容山,
申请(专利权)人:厦门极元科技有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。