基因组数据存储方法及电子设备技术

技术编号:16819404 阅读:29 留言:0更新日期:2017-12-16 12:56
本发明专利技术公开了一种基因组数据存储方法,包括:在基因组比对过程中,得到基因序列比对信息,并创建基因序列统计信息;将所述基因序列比对信息存储于磁盘,并按基因序列比对信息在基因组的比对位置,在内存中存储相应的索引;所述索引为所述基因序列比对信息在磁盘中的存储位置;对所述基因组统计信息进行分类,得到第一统计信息和第二统计信息;将第一统计信息存储于内存,所述第一统计信息为变异检测过程中访问频率高于预设频率的统计信息;将第二统计信息存储于磁盘,所述第二统计信息为无法存储于内存的统计信息和/或变异检测过程中访问频率低于预设频率的统计信息。本发明专利技术还公开了一种采用所述基因组数据存储方法的电子设备。

Genomic data storage method and electronic equipment

The invention discloses a genomic data storage method, including: the genome alignment process, get information than the gene sequence, and create statistical information of gene sequence; the gene sequence information is stored in the disk, and according to the information in the alignment position of genomic gene sequence alignment, is stored in memory of the corresponding index; the index for the gene sequence information in the disk storage location; the classification of the genome of statistical information, the first second statistical information and statistical information; the first statistical information is stored in the memory, the first statistical information is higher than the preset frequency statistical information access mutation detection process; second statistical information is stored in the disk, the second statistical information for detection of statistical information and / or cannot be stored in the memory of the variation of access A statistical information that is less than a preset frequency. The invention also discloses an electronic device using the method of storing the data of the genome.

【技术实现步骤摘要】
基因组数据存储方法及电子设备
本专利技术涉及数据处理
,特别是指一种基因组数据存储方法及电子设备。
技术介绍
基因组变异检测计算流程,一般可分为比对、排序、去重复、重比对、变异检测、过滤等步骤。其中,主要的步骤需要使用BAM文件(SAM的全称是sequencealignmentmap,序列比对图。而BAM文件就是SAM文件的二进制格式的文件(B取自binary))作为输出文件写入硬盘,在下一个步骤再将其从硬盘上读取到内存,接着进行下一步处理。在实现本专利技术的过程中,专利技术人发现现有技术存在如下问题:在人类全基因组数据分析中,原始数据一般在100GB左右,中间的主要分析步骤都需要读写上百GB的文件,整个的计算过程耗费大量的I/O资源且程序效率低下。而专利技术人发现导致该问题的主要原因有:1、中间文件太大,无法直接放入内存。64GB内存是一个典型的常见生物信息分析的机器配置。人类全基因组分析数据,中间结果一般在100GB左右,无法直接存在内存里,而且变异检测过程本身就需要加载参考序列和索引文件到内存里,导致能用来放中间结果的空间进一步缩小。2、中间文件的格式,无法直接用于计算。通用的中间文件格式为SAM/BAM格式,这种格式是一种行记录格式,也就是每行存储一条记录,直接放入内存也不能直接用于计算。变异检测所需要的数据,主要是对每个位点的比对情况的统计信息,包括每个位点各类碱基的数目的分布、插入缺失(InDel)序列和频数、比对中的软剪切(softclipping)序列等信息。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基因组数据存储方法及电子设备,能够解决基因组变异检测过程中需要频繁地输入输出大量二进制文件而造成的低效率问题。基于上述目的本专利技术提供的基因组数据存储方法,包括:在比对过程中,得到基因序列比对信息,并创建基因序列统计信息;将所述基因序列比对信息存储于磁盘,并按基因序列比对信息在基因组的比对位置,在内存中存储相应的索引;所述索引为所述基因序列比对信息在磁盘中的存储位置;对所述基因组统计信息进行分类,得到第一统计信息和第二统计信息;将第一统计信息存储于内存,所述第一统计信息为变异检测过程中访问频率高于预设频率的统计信息;将第二统计信息存储于磁盘,所述第二统计信息为无法存储于内存的统计信息和/或变异检测过程中访问频率低于预设频率的统计信息。可选的,所述第一统计信息包括碱基加权质量值统计信息、正负链统计信息、插入缺失统计信息和软剪切统计信息。可选的,对于没有出现插入缺失和软剪切且碱基类型最多出现过2种的位点,该位点的第一统计信息采用第一数据结构存储;所述第一数据结构,包括:用于表示碱基类型的第一头部;用于表示碱基加权质量值的第一质量值存储部;用于表示正链数量的第一正链数存储部;用于表示负链数量的第一负链数存储部。可选的,对于有插入缺失出现且碱基类型出现过3-4种的位点,该位点的第一统计信息采用第一数据结构和第二数据结构存储;所述第二数据结构,包括:4种碱基类型各自的碱基加权质量值统计信息和正负链统计信息;每种碱基类型的碱基加权质量值统计信息和正负链统计信息的存储结构具体包括:用于表示碱基加权质量值的第二质量值存储部,用于表示正链数量的第二正链数存储部,以及,用于表示负链数量的第二负链数存储部;第一插入统计信息,具体包括:用于表示插入序列的第一插入序列存储部,用于表示低质量插入数量的第一低质量插入数存储部;第一缺失统计信息,具体包括:用于表示缺失长度的第一缺失长度存储部,用于表示高质量缺失数量的第一高质量缺失数存储部,用于表示低质量缺失数量的第一低质量缺失数存储部;所述第一数据结构,包括:用11填充的第二头部;用于表示是否存在插入的第一插入信息存储部,具体包括:用于表示是否存在插入的第一插入信息子存储部,用于表示插入长度的插入长度子存储部,用于表示低质量插入数量的低质量插入数子存储部;用于表示是否存在缺失的第一缺失信息存储部,具体包括:用于表示是否存在缺失的第一缺失信息子存储部;用于指向相应的第二数据结构存储位置的指针。可选的,对于出现多余1个的插入缺失、插入长度大于12个碱基的位点,该位点的第一统计信息采用第一数据结构和第三数据结构存储,且对于这样的位点的第一统计信息,在内存中创建内存池来进行存储;所述第三数据结构,包括:4种碱基类型各自的碱基加权质量值统计信息和正负链统计信息;每种碱基类型的碱基加权质量值统计信息和正负链统计信息的存储结构具体包括:用于表示碱基加权质量值的第三质量值存储部,用于表示正链数量的第三正链数存储部,以及,用于表示负链数量的第三负链数存储部;第二插入统计信息,具体包括:用于表示插入长度的插入长度存储部,用于表示插入序列的第二插入序列存储部,用于表示低质量插入数量的第二低质量插入数存储部,以及,用于表示高质量插入数量的高质量插入数存储部;第二缺失统计信息,具体包括:用于表示缺失长度的第二缺失长度存储部,用于表示高质量缺失数量的第二高质量缺失数存储部,用于表示低质量缺失数量的第二低质量缺失数存储部;所述第一数据结构,包括:用11填充的第三头部;用于表示是否存在插入的第二插入信息存储部,具体包括:用于表示是否存在插入的第二插入信息子存储部,用于表示是否使用了内存池的第一内存池信息子存储部,用于表示在内存池中的占用长度的第一占用长度子存储部;用于表示是否存在缺失的第二缺失信息存储部,具体包括:用于表示是否存在缺失的第二缺失信息子存储部,用于表示是否使用了内存池的第二内存池信息子存储部,用于表示在内存池中的占用长度的第二占用长度子存储部。可选的,对于所述软剪切统计信息,采用一个动态数组来记录,每条记录包括:用于表示软剪切在基因组上所处位置的软剪切位置存储部;用于表示软剪切发生在相应位点左边的次数的软剪切左侧数存储部;用于表示软剪切发生在相应位点右边的次数的软剪切右侧数存储部。可选的,所述索引包括双端比对信息索引和单端比对信息索引;对于双端比对信息索引,采用双端比对数组结构进行存储,所述双端比对数组结构包括:用于表示基因序列的ID的第一ID存储部;用于表示基因序列比对到基因组上的位置的第一比对位置存储部;用于表示基因序列的插入片段长度的插入片段长度存储部;用于表示基因序列的比对质量值的第一比对质量值存储部;用于表示基因序列的平均质量值的第一平均质量值存储部;对于单端比对信息索引,采用单端比对数组结构进行存储,所述单端比对数组结构包括:用于表示基因序列的ID的第二ID存储部;用于表示基因序列比对到基因组上的位置的第二比对位置存储部;用于表示基因序列的比对质量值的第二比对质量值存储部;用于表示基因序列的平均质量值的第二平均质量值存储部;其中,对于每条用于比对的基因序列,根据该基因序列在基因组上的比对位置,其相应的索引依次排列。可选的,将所述基因序列比对信息存储于磁盘,具体包括:所以将基因序列比对信息分成512个文件并存储于磁盘,每个文件存储一定基因组区间的基因序列比对信息,每条基因序列比对信息的存储数据结构包括:用于表示基因序列的序列长度的序列长度存储部;用于表示基因序列本身的序列存储部;用于表示基因序列的质量值的质量值存储部;用于表示基因序列在比对时的比对算法开始位置的开始位置存本文档来自技高网...
基因组数据存储方法及电子设备

【技术保护点】
一种基因组数据存储方法,其特征在于,包括:在比对过程中,得到基因序列比对信息,并创建基因序列统计信息;将所述基因序列比对信息存储于磁盘,并按基因序列比对信息在基因组的比对位置,在内存中存储相应的索引;所述索引为所述基因序列比对信息在磁盘中的存储位置;对所述基因组统计信息进行分类,得到第一统计信息和第二统计信息;将第一统计信息存储于内存,所述第一统计信息为变异检测过程中访问频率高于预设频率的统计信息;将第二统计信息存储于磁盘,所述第二统计信息为无法存储于内存的统计信息和/或变异检测过程中访问频率低于预设频率的统计信息。

【技术特征摘要】
1.一种基因组数据存储方法,其特征在于,包括:在比对过程中,得到基因序列比对信息,并创建基因序列统计信息;将所述基因序列比对信息存储于磁盘,并按基因序列比对信息在基因组的比对位置,在内存中存储相应的索引;所述索引为所述基因序列比对信息在磁盘中的存储位置;对所述基因组统计信息进行分类,得到第一统计信息和第二统计信息;将第一统计信息存储于内存,所述第一统计信息为变异检测过程中访问频率高于预设频率的统计信息;将第二统计信息存储于磁盘,所述第二统计信息为无法存储于内存的统计信息和/或变异检测过程中访问频率低于预设频率的统计信息。2.根据权利要求1所述的方法,其特征在于,所述第一统计信息包括碱基加权质量值统计信息、正负链统计信息、插入缺失统计信息和软剪切统计信息。3.根据权利要求2所述的方法,其特征在于,对于没有出现插入缺失和软剪切且碱基类型最多出现过2种的位点,该位点的第一统计信息采用第一数据结构存储;所述第一数据结构,包括:用于表示碱基类型的第一头部;用于表示碱基加权质量值的第一质量值存储部;用于表示正链数量的第一正链数存储部;用于表示负链数量的第一负链数存储部。4.根据权利要求2所述的方法,其特征在于,对于有插入缺失出现,且碱基类型出现过3-4种的位点,该位点的第一统计信息采用第一数据结构和第二数据结构存储;所述第二数据结构,包括:4种碱基类型各自的碱基加权质量值统计信息和正负链统计信息;每种碱基类型的碱基加权质量值统计信息和正负链统计信息的存储结构具体包括:用于表示碱基加权质量值的第二质量值存储部,用于表示正链数量的第二正链数存储部,以及,用于表示负链数量的第二负链数存储部;第一插入统计信息,具体包括:用于表示插入序列的第一插入序列存储部,用于表示低质量插入数量的第一低质量插入数存储部;第一缺失统计信息,具体包括:用于表示缺失长度的第一缺失长度存储部,用于表示高质量缺失数量的第一高质量缺失数存储部,用于表示低质量缺失数量的第一低质量缺失数存储部;所述第一数据结构,包括:用11填充的第二头部;用于表示是否存在插入的第一插入信息存储部,具体包括:用于表示是否存在插入的第一插入信息子存储部,用于表示插入长度的插入长度子存储部,用于表示低质量插入数量的低质量插入数子存储部;用于表示是否存在缺失的第一缺失信息存储部,具体包括:用于表示是否存在缺失的第一缺失信息子存储部;用于指向相应的第二数据结构存储位置的指针。5.根据权利要求2所述的方法,其特征在于,对于出现多余1个的插入缺失、插入长度大于12个碱基的位点,该位点的第一统计信息采用第一数据结构和第三数据结构存储,且对于这样的位点的第一统计信息,在内存中创建内存池来进行存储;所述第三数据结构,包括:4种碱基类型各自的碱基加权质量值统计信息和正负链统计信息;每种碱基类型的碱基加权质量值统计信息和正负链统计信息的存储结构具体包括:用于表示碱基加权质量值的第三质量值存储部,用于表示正链数量的第三正链数存储部,以及,用于表示负链数量的第三负链数存储部;第二插入统计信息,具体包括:用于表示插入长度的插入长度存储部,用于表示插入序列的第二插入序列存储部,用于表示低质量插入数量的第二低质量插入数存储部,以及,用于表示高质量插入数量的高质量插入数存储部;第二缺失统计信息,具体包括:用于表示...

【专利技术属性】
技术研发人员:蔡文君何光铸王东辉孔令雪
申请(专利权)人:北京荣之联科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1