一种基于Spark框架的重测序序列比对方法技术

技术编号:21895810 阅读:56 留言:0更新日期:2019-08-17 16:04
本发明专利技术涉及计算机科学与生物信息学技术领域,特别涉及一种基于Spark框架的重测序序列比对方法;在本发明专利技术中包括三个步骤,分别为RDDs创建步骤、Map步骤和Reduce步骤,先是基于FASTQ文件创建相应的RDDs,并储存在HDFS中;再将BWA的序列比对算法应用到每一个RDDs上,同时RDDs进行多节点映射;最后根据处理需求选择是否执行最后的合并阶段;本发明专利技术将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中,通过分布式计算的方式完成重测序的比对流程优化,从而有效提高重测序数据分析的效率。

A Sequence Alignment Method Based on Spark Framework

【技术实现步骤摘要】
一种基于Spark框架的重测序序列比对方法
本专利技术涉及计算机科学与生物信息学
,特别涉及一种基于Spark框架的重测序序列比对方法。
技术介绍
全基因组重测序是对已有参考序列(ReferenceSequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的差异性分析。通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(CopyNumberVariation,CNV)、插入缺失(InDel,Insertion/Deletion)、结构变异(StructureVariation,SV)等变异位点,这在人类疾病及动植物育种研究等方面具有重大的指导意义。随着测序成本的降低,可以预见我们将积累大量的生物个体的基因组重测序数据。随着第二代测序信息技术(Next-GenerationSequencing,NGS)的发展,我们已经能够在很短的时间内完成一个人的全基因组测序,然而,目前NGS测序仪器单次测序通量可达到数十亿DNA序列,对应于数千亿个字节的原始测序数据,并且测序数据产出和测序成本正在分别以远超摩尔定律的速度快速增加和降低,存储与分析这些数据正面临着极大的考验。在基因组重测序中,有许多基因比对工具如SOAP、BWA、bowtie2等,SOAP是最先出现的基因比对工具,它能够使用较小的计算机内存对基因序列进行比对,但是其对paired-end数据的支持较差,而BWA和bowtie2较SOAP出现的时间晚,但是能够很好地处理single-end和paired-end两种格式的基因测序数据,在数据处理速度方面,bowtie2较BWA有明显的速度优势,但是准确率略微不足,然而这些比对工具的方法大多基于单节点,目前形势多样、来源不一的测序数据集的预处理、管理和分析已经超出了很多生物信息科学家的能力范围,目前要完成一个病人的全基因组测序数据分析往往需要数天,极大地延缓了后续生命、医学科学研究的进程。
技术实现思路
为了克服上述所述的不足,本专利技术的目的是提供一种基于Spark框架的重测序序列比对方法,将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中,通过分布式计算的方式完成重测序的比对流程优化,从而有效提高重测序数据分析的效率。本专利技术解决其技术问题的技术方案是:一种基于Spark框架的重测序序列比对方法,其中,包括如下步骤:步骤S1、RDDs创建步骤,基于FASTQ文件创建相应的RDDs,并储存在HDFS中;步骤S2、Map步骤,将BWA的序列比对算法应用到每一个RDDs上,同时RDDs进行多节点映射;步骤S3、Reduce步骤,根据处理需求选择是否执行最后的合并阶段。作为本专利技术的一种改进,在步骤S1内,包括并列的步骤S101和步骤S102;步骤S101用于单端测序序列,步骤S102用于双端测序序列。作为本专利技术的进一步改进,步骤S101、通过HDFS文件存储创建相应的RDDs,并以FASTQ文件格式的读取标识符作为RDDs中的键,形成<序列ID,序列内容>的键值对。作为本专利技术的更进一步改进,步骤S102、在HDFS上读取和写入的方式对双端数据进行预处理。作为本专利技术的更进一步改进,在步骤S102内,通过Spark驱动程序的HDFSHadoop库直接访问FASTQ文件,完成双端序列的合并且合并成一份新的HDFS文件,并通过添加分隔符的方式来协助区分这两条序列。作为本专利技术的更进一步改进,在步骤S2内,包括步骤S201、采取双独立软件层的设计,一个用来对接BWA软件包,另一个负责处理RDDs。作为本专利技术的更进一步改进,在步骤S2内,还包括处于步骤S201之后的步骤S202、将输入数据传输进入BWA层,并从Map处采集结果。作为本专利技术的更进一步改进,在步骤S3内,根据不同的处理需求选择是否对Map处理记过执行最后的合并阶段。作为本专利技术的更进一步改进,在步骤S101内,序列内容包含与序列ID相对应的所有信息。作为本专利技术的更进一步改进,在步骤S202,映射的多节点并行及每个单映射过程的多线程并行。在本专利技术中包括三个步骤,分别为RDDs创建步骤、Map步骤和Reduce步骤,先是基于FASTQ文件创建相应的RDDs,并储存在HDFS中;再将BWA的序列比对算法应用到每一个RDDs上,同时RDDs进行多节点映射;最后根据处理需求选择是否执行最后的合并阶段;本专利技术将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中,通过分布式计算的方式完成重测序的比对流程优化,从而有效提高重测序数据分析的效率。附图说明为了易于说明,本专利技术由下述的较佳实施例及附图作以详细描述。图1为本专利技术的流程步骤框图;图2为本专利技术内步骤S1的内部流程步骤框图;图3为本专利技术内步骤S2的内部流程步骤框图;图4为本专利技术内Spark框架下序列比对处理流程示意图;图5为本专利技术内双段测序序列处理流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统;HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准;FASTQ文件中每个序列通常有四行:第一行是序列标识以及相关的描述信息,以‘@’开头;第二行是序列;第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;第四行是质量信息,其和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。如图1所示,本专利技术的一种基于Spark框架的重测序序列比对方法,包括如下步骤:步骤S1、RDDs创建步骤,基于FASTQ文件创建相应的RDDs,并储存在HDFS中;步骤S2、Map步骤,将BWA的序列比对算法应用到每一个RDDs上,同时RDDs进行多节点映射;步骤S3、Reduce步骤,根据处理需求选择是否执行最后的合并阶段。在本专利技术中包括三个步骤,分别为RDDs创建步骤、Map步骤和Reduce步骤,先是基于FASTQ文件创建相应的RDDs,并储存在HDFS中;再将BWA的序列比对算法应用到每一个RDDs上,同时RDDs进行多节点映射;最后根据处理需求选择是否执行最后的合并阶段;本专利技术将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中,通过分布式计算的方式完成重测序的比对流程优化,从而有效提高重测序数据分析的效率。如图2所示,在本专利技术中,在步骤S1内,包括并列的步骤S101和步骤S102;步骤S101用于单端本文档来自技高网
...

【技术保护点】
1.一种基于Spark框架的重测序序列比对方法,其特征在于,包括如下步骤:步骤S1、RDDs创建步骤,基于FASTQ文件创建相应的RDDs,并储存在HDFS中;步骤S2、Map步骤,将BWA的序列比对算法应用到每一个RDDs上,同时RDDs进行多节点映射;步骤S3、Reduce步骤,根据处理需求选择是否执行最后的合并阶段。

【技术特征摘要】
1.一种基于Spark框架的重测序序列比对方法,其特征在于,包括如下步骤:步骤S1、RDDs创建步骤,基于FASTQ文件创建相应的RDDs,并储存在HDFS中;步骤S2、Map步骤,将BWA的序列比对算法应用到每一个RDDs上,同时RDDs进行多节点映射;步骤S3、Reduce步骤,根据处理需求选择是否执行最后的合并阶段。2.根据权利要求1所述的一种基于Spark框架的重测序序列比对方法,其特征在于,在步骤S1内,包括并列的步骤S101和步骤S102;步骤S101用于单端测序序列,步骤S102用于双端测序序列。3.根据权利要求2所述的一种基于Spark框架的重测序序列比对方法,其特征在于,步骤S101、通过HDFS文件存储创建相应的RDDs,并以FASTQ文件格式的读取标识符作为RDDs中的键,形成<序列ID,序列内容>的键值对。4.根据权利要求3所述的一种基于Spark框架的重测序序列比对方法,其特征在于,步骤S102、在HDFS上读取和写入的方式对双端数据进行预处理。5.根据权利要求4所述的一种基于Spark框架的重测序序列比对方法,其特征在于,在步骤...

【专利技术属性】
技术研发人员:郑志春郭宁魏彦杰冯圣中周家秀
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1