一种基于Spark框架的重测序序列比对方法技术

技术编号：21895810 阅读：56 留言：0更新日期：2019-08-17 16:04

本发明专利技术涉及计算机科学与生物信息学技术领域，特别涉及一种基于Spark框架的重测序序列比对方法；在本发明专利技术中包括三个步骤，分别为RDDs创建步骤、Map步骤和Reduce步骤，先是基于FASTQ文件创建相应的RDDs，并储存在HDFS中；再将BWA的序列比对算法应用到每一个RDDs上，同时RDDs进行多节点映射；最后根据处理需求选择是否执行最后的合并阶段；本发明专利技术将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中，通过分布式计算的方式完成重测序的比对流程优化，从而有效提高重测序数据分析的效率。

A Sequence Alignment Method Based on Spark Framework

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark框架的重测序序列比对方法
本专利技术涉及计算机科学与生物信息学
，特别涉及一种基于Spark框架的重测序序列比对方法。
技术介绍
全基因组重测序是对已有参考序列(ReferenceSequence)的物种的不同个体进行基因组测序，并以此为基础进行个体或群体水平的差异性分析。通过全基因组重测序，研究者可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(CopyNumberVariation，CNV)、插入缺失(InDel，Insertion/Deletion)、结构变异(StructureVariation，SV)等变异位点，这在人类疾病及动植物育种研究等方面具有重大的指导意义。随着测序成本的降低，可以预见我们将积累大量的生物个体的基因组重测序数据。随着第二代测序信息技术(Next-GenerationSequencing,NGS)的发展,我们已经能够在很短的时间内完成一个人的全基因组测序，然而，目前NGS测序仪器单次测序通量可达到数十亿DNA序列，对应于数千亿个字节的原始测序数据，并且测序数据产出和测序成本正在分别以远超摩尔定律的速度快速增加和降低，存储与分析这些数据正面临着极大的考验。在基因组重测序中，有许多基因比对工具如SOAP、BWA、bowtie2等，SOAP是最先出现的基因比对工具，它能够使用较小的计算机内存对基因序列进行比对，但是其对paired-end数据的支持较差，而BWA和bowtie2较SOAP出现的时间晚，但是能够很好地处理single-end和paired-end两种格式的基因测序数据，在数据处理速度方面...

【技术保护点】
1.一种基于Spark框架的重测序序列比对方法，其特征在于，包括如下步骤：步骤S1、RDDs创建步骤，基于FASTQ文件创建相应的RDDs，并储存在HDFS中；步骤S2、Map步骤，将BWA的序列比对算法应用到每一个RDDs上，同时RDDs进行多节点映射；步骤S3、Reduce步骤，根据处理需求选择是否执行最后的合并阶段。

【技术特征摘要】
1.一种基于Spark框架的重测序序列比对方法，其特征在于，包括如下步骤：步骤S1、RDDs创建步骤，基于FASTQ文件创建相应的RDDs，并储存在HDFS中；步骤S2、Map步骤，将BWA的序列比对算法应用到每一个RDDs上，同时RDDs进行多节点映射；步骤S3、Reduce步骤，根据处理需求选择是否执行最后的合并阶段。2.根据权利要求1所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S1内，包括并列的步骤S101和步骤S102；步骤S101用于单端测序序列，步骤S102用于双端测序序列。3.根据权利要求2所述的一种基于Spark框架的重测序序列比对方法，其特征在于，步骤S101、通过HDFS文件存储创建相应的RDDs，并以FASTQ文件格式的读取标识符作为RDDs中的键，形成<序列ID,序列内容>的键值对。4.根据权利要求3所述的一种基于Spark框架的重测序序列比对方法，其特征在于，步骤S102、在HDFS上读取和写入的方式对双端数据进行预处理。5.根据权利要求4所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤...

【专利技术属性】
技术研发人员：郑志春，郭宁，魏彦杰，冯圣中，周家秀，
申请(专利权)人：深圳先进技术研究院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人