The invention discloses a gene sequence alignment cloud acceleration method comprises the following steps: 1) for gene sequencing of the machine data file Fastq pretreatment, to ensure data integrity when distributing data; 2) by Spark gene sequencing data modification after the completion of the multi node distribution; 3) modification the genetic data obtained for each node, to restore its original Fastq file format; 4) each node through the pipe operator in Spark gene sequence alignment program execution script, running results stored in flexible distributed data set in RDD Spark; 5) operating results stored in the HDFS, such as Amazon, S3 and other distributed file system. The invention adopts a simpler way to alignment tools running on the Spark framework, the Spark mechanism can not only good use of multi machine scheduling, data distribution, monitoring and fault tolerance, and compared to the JNI implementation, the development of low threshold, simple code maintenance and better performance, scalability close to linear.
【技术实现步骤摘要】
一种基因序列比对的云计算加速方法
本专利技术涉及生物基因数据处理领域,尤其是指一种基因序列比对的云计算加速方法,具体是基于云计算框架加速通用基因序列比对程序的方法。
技术介绍
随着基因二代测序技术(Nextgenerationsequencing,NGS)的发展,单个基因测序成本已下降至1000美元以下。与此同时,基因测序的数据正呈现爆炸式增长,以IlluminaHiSeqXTMTen为例,一次运行可以产生60亿条序列信息。有关数据表明,每6个月基因数据量就会翻一番,而依照这个增长速度,到2020年,每年产生的基因数据将达到1个exabase(每4个base等于1个字节),而2025年,这个数据将增长至每年1个zettabase。基因测序数据量的增长及成本的降低都在以一个远超摩尔定律的速度在发展,如何快速处理所产生的基因数据正面临严峻的挑战。无论采用何种测序技术,基因序列比对分析都是理解测序结果数据的最重要一步,也是目前耗时最长步骤之一。序列比对是将测序所得的短序列与已有的参考基因序列进行序列比对,寻找测序结果在参考基因序列上的精确定位。在二代测序技术中,根据测序方法的不同,又可分为单端测序(Single-read)与双末端测序(Paired-end/Mate-paired)两类。单端测序时将基因组随机打断,再对每个片段进行测序,最终只产生单个测序结果文件。双端测序则是对一个长的序列测得其两端序列,最终将产生互成一对的两个测序结果文件。现在的大多数二代测序平台都采用Fastq格式保存下机数据,测序时的一条读序(read),在Fastq文件中将以序列名,序列 ...
【技术保护点】
一种基因序列比对的云计算加速方法,其特征在于,包括以下步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在分布式文件系统。
【技术特征摘要】
1.一种基因序列比对的云计算加速方法,其特征在于,包括以下步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在分布式文件系统。2.根据权利要求1所述的一种基因序列比对的云计算加速方法,其特征在于:在步骤1)中,对基因测序仪的下机数据文件Fastq进行预处理包括读取数据,修改与合并多个输入文件及将数据保存至分布式文件系统或共享文件系统上;所述修改与合并多个输入文件,包括以下步骤:1.1)对于Fastq文件,在一个数据单元内,统一使用不可见字符替换所有的回车字符,不同数据单元之间,以回车字符进行标记,其中,将以Fastq文件中每四行组成的一条读序完整信息称作Fastq文件的一个数据单元,而对于双末端测序,成对的读序称为修改后文件的一个数据单元;1.2)将两个Fastq文件中一一对应的数据单元相互连接;1.3)重复步骤1.1)、1.2),直至Fastq文件处理完毕,并生成一个新的数据文件;在步骤2)中,针对步骤1.1)中以回车字符为不同数据...
【专利技术属性】
技术研发人员:董守斌,刘柽,张铃启,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。