一种基因大数据分析与计算平台制造技术

技术编号:26732482 阅读:21 留言:0更新日期:2020-12-15 14:36
本发明专利技术公开了一种基因大数据分析与计算平台,涉及基因大数据分析与计算平台领域,该平台由数据读取模块、数据压缩模块、数据分析模块、数据存储模块组成。数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;数据压缩模块将三个数据流独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩;数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;数据存储模块采用分布式框架将数据放在不同的数据节点中存储,既保证了数据的可靠性,同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。

【技术实现步骤摘要】
一种基因大数据分析与计算平台
本专利技术涉及基因数据分析领域,特别涉及一种基因大数据分析与计算平台领域。
技术介绍
计算机作为处理DNA数据的主要工具面临着前所未有的挑战,DNA测序数据的增长速度远远超过了计算机微处理器和存储设备的增长速度。计算机自诞生以来,其性能提高速度基本符合摩尔定律,微处理器性能和存储容量每18和12个月翻一番,然而DNA序列数据每9个月就增加一倍。急剧膨胀的DNA测序数据日益增加,使得存储这些数据的成本亦越来越高。如何高效地存储和管理高通量DNA测序技术和大型基因组项目产生的DNA数据“海啸”已经成为制约DNA测序产业进一步发展的一个重要因素。
技术实现思路
本专利技术所要解决的技术问题是提供一种基因大数据分析与计算平台,该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间,同时通过分布式计算和存储方法,提升了计算和分析的性能。为实现上述目的,本专利技术提供以下的技术方案:一种基因大数据分析与计算平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据分析模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;所述数据压缩模块采用不同的压缩算法对数据流进行数据压缩;所述数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。优选的,所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流,分别采用LZMA算法、游程编码、算术编码进行压缩。优选的,所述数据存储模块由多个数据节点DataNode和中心节点NameNode组成,由中心节点NameNode将数据分发至各个DataNode节点进行存储。采用以上技术方案的有益效果是:该基因大数据分析与计算平台将FASTQ数据分割成元数据、碱基和质量分数三个数据流,针对不同数据流的特点,采用不同的压缩算法进行数据压缩,已到达最大可压缩率,实现无损高效压缩,比传统的压缩算法平台具有更好的压缩效率。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的描述。图1是本专利技术基因大数据分析与计算平台的原理图。图2是本专利技术基因大数据分析与计算平台数据分析模块的原理图。图3是本专利技术基因大数据分析与计算平台数据存储模块的原理图。具体实施方式下面结合附图详细说明本专利技术一种基因大数据分析与计算平台的优选实施方式。结合图1出示本专利技术一种基因大数据分析与计算平台的具体实施方式:如图1所示,该平台包括数据读取模块、数据压缩模块、数据分析、数据存储模块。数据读取模块用于从数据库中读取DNA测序仪的FASTQ数据流,将FASTQ数据流分割为元数据、碱基和质量分数三个数据流,并将数据流导入至数据压缩模块;数据压缩模块采用不同的压缩算法进行数据压缩,然后将压缩后的数据汇总导入至数据存储模块;数据分析模块将FASTQ数据流分割为多个短序列并建立索引,将测序序列分别与各染色体组的参考序列进行比对,得到该测序序列与各染色体参考序列的比对结果;数据存储模块由多个数据节点DataNode和中心节点NameNode组成,NameNode维护所有文件的命名空间,以及每个文件所映射的文件块信息,负责寻找合适的DataNode存放数据块。DataNode就是数据最终存放的地方,数据文件被分割成多个文件块,每个文件块以文件形式存放到多个DataNode之上。数据压缩模块将将FASTQ数据流分割为元数据、碱基和质量分数三个数据流,对不同的数据流采用不同的压缩方法,具体如下:(1)元数据开始于字符‘@’并通常被空格符分隔成三部分。第一部分为短读ID。第二部分由字符串组成,用来记录如测序设备名,流通池及坐标等信息。最后一部分包含关键字‘length=’,用来表示短读长度。第一部分及第三部分的元数据对于每个短读来说高度相同或相似,因此仅存储它们一次。每条短读中元数据的第二部分差异较大,这部分数据将被提取并直接使用LZMA(Lempel-Ziv-Markovchain-Algorithm)算法压缩。(2)碱基数据按照短读的形式分段提取,提取的短读与同源参考基因组比对,将匹配结果编码成‘[POS]<PAL><MLength><MType><MisValues>’的形式,编码的表示如下:POS匹配位置,PAL互补回文匹配标记,MLength匹配长度,MType匹配类型,MisValues差异值。每个短读都必须有匹配位置POS,短读未匹配时,POS将被设为0。当互补回文匹配时,PAL将被设为0,否则PAL将被省略。MLength表示匹配或错误匹配的长度并紧跟着匹配类型MType。匹配类型MType包含匹配(M),插入(I),删除(D)或替换(S)。当匹配类型为插入或替换时,差异值MisValues将由一个或多个{‘A’,‘C’,‘G’,‘T’,‘N’}组成,以确保数据的完整性。将匹配位置使用算术编码进行压缩,将其他信息如PAL,Mlength,Mtype,和MisValues组合在一起并使用霍夫曼编码压缩。(3)质量分数包含很长的连续相同字符,采用对连续相同字符进行游程编码后进行压缩,如连续的二十二个字符‘#’将被编码成‘22#’。如图2所示,数据分析模块采用MapReduce并行计算框架将FASTQ数据流分割为多个短序列Part1、Part2、Part3,采用NGSQC工具包对短序列进行质量过滤,去除测序数据中的干扰数据,然后使用Bowtie2比对工具对测序数据进行比对,得到该测序序列与各染色体参考序列的比对结果Bowchr1,chr2,...,chrM,根据比对结果提取出突变信息SNPchr1,chr2,...,chrM。如图3所示,数据存储模块由多个数据节点DataNode和中心节点NameNode组成,当数据流来到NameNode时,NameNode根据当前所保存的各个DataNode的状态表,计算出当前各个DataNode节点存储容量和吞吐量的优先次序,并返回当前最优的两个DataNode节点所在IP地址,将数据流发送至这两个DataNode节点。DataNode会周期性心跳向NameNode报告以示服务状态,对于长时间没有回应的DataNode,NameNode会把此DataNode作为失效、不可读或不可写的DataNode,或直接从DataNode状态表中删除。以上的仅是本专利技术的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本专利技术创造构思的前提下,还可以做出若干变形和改进,这些都属于本专利技术的保护范围。本文档来自技高网...

【技术保护点】
1.一种基因大数据分析与计算平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据分析模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;所述数据压缩模块采用不同的压缩算法对数据流进行数据压缩;所述数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。/n

【技术特征摘要】
1.一种基因大数据分析与计算平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据分析模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;所述数据压缩模块采用不同的压缩算法对数据流进行数据压缩;所述数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库...

【专利技术属性】
技术研发人员:陈墩金周峻松徐继峰祁建明
申请(专利权)人:广州明领基因科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1