The invention discloses a flexible distributed sequence alignment system Spark and based on SIMD, including a master node and multiple nodes connected to the master node, the master node for the management of metadata and cluster, including the main node of the master node and the Hadoop distributed file system distributed memory file system of the master node, computing framework based on the distributed Spark based on the work; node for data storage and calculation, including the storage layer and computing layer, the storage layer including Alluxio and HDFS, the computing layer includes Spark and SIMD instruction set, Spark distributed computing framework through an intermediary module call sequence alignment algorithm based on sequence alignment based on SIMD. Alluxio and HDFS are used to store the distributed data, Spark is used for distributed computing, and SIMD sequence is used in each node to improve the performance.
【技术实现步骤摘要】
基于Spark和SIMD的弹性分布式序列比对系统及方法
本专利技术涉及一种序列比对系统及方法,具体地涉及一种基于Spark和SIMD的弹性分布式序列比对系统及方法。
技术介绍
序列比对是用来识别双序列之间高度相似的区域,一般用比对得分来评价双序列之间的相似度,为了方便后续分析,会计算最佳比对路径。序列比对算法是生物信息学领域基本而又至关重要的算法,被广泛应用于基因串匹配、本地重新比对等校准操作、变异分析、蛋白质数据库搜索等领域。序列比对包括本地序列比对、全局序列比对和半全局序列比对等。目前最常用的本地序列比对算法是Smith-Waterman(SW)算法,该算法也是目前最常用的序列比对算法之一。SW算法是基于动态规划的算法,可以找出两序列之间的最优本地比对。但是SW算法具有很高的时间复杂度,所以也是最慢的比对算法之一。尽管像BLAST(BasicLocalAlignmentSearchTool)等采用启发式方法的算法速度更快,但是无法保证找到最优解。由于SW算法至关重要,所以从提出到现在,已经有大量的科学家提出了加速SW运行的算法。包括基于SIMD(SingleInstructionMultipleData,单指令多数据流)指令集的加速算法、基于GPU的算法、基于FPGA的算法。相对于基于GPU、FPGA的加速方法,基于SIMD的加速方法更加通用,使用的也更频繁。Farrar提出了将SIMD寄存器并行查询序列但以条纹模式(StripedPattern)访问的算法,相对于其他已经被优化的但没有用SIMD的实现来说有超过6倍的加速比。Farrar的算法已经被嵌 ...
【技术保护点】
一种基于Spark和SIMD的弹性分布式序列比对系统,其特征在于,包括一个主节点和与主节点连接的多个工作节点,所述主节点用于管理元数据和集群,包括基于分布式计算框架Spark的主节点、基于分布式内存文件系统Alluxio的主节点和Hadoop分布式文件系统的主节点;所述工作节点用于数据的存储和计算,包括存储层和计算层,所述存储层包括Alluxio和HDFS,所述计算层包括基于分布式计算框架Spark和SIMD指令集,基于分布式计算框架Spark通过中介模块调用基于SIMD的序列比对算法进行序列比对。
【技术特征摘要】
1.一种基于Spark和SIMD的弹性分布式序列比对系统,其特征在于,包括一个主节点和与主节点连接的多个工作节点,所述主节点用于管理元数据和集群,包括基于分布式计算框架Spark的主节点、基于分布式内存文件系统Alluxio的主节点和Hadoop分布式文件系统的主节点;所述工作节点用于数据的存储和计算,包括存储层和计算层,所述存储层包括Alluxio和HDFS,所述计算层包括基于分布式计算框架Spark和SIMD指令集,基于分布式计算框架Spark通过中介模块调用基于SIMD的序列比对算法进行序列比对。2.根据权利要求1所述的基于Spark和SIMD的弹性分布式序列比对系统,其特征在于,所述中介模块的执行包括以下步骤:通过Spark的Scala类调用Java类,并进行对象和数据转换;通过Java类调用基于SIMD的序列比对算法,将计算结果返回给Java类;Java类将计算结果返回给Scala类,并将Java对象转换成Scala对象。3.根据权利要求1所述的基于Spark和SIMD的弹性分布式序列比对系统,其特征在于,所述基于SIMD的序列比对算法包括分布式本地序列比对算法DSW、分布式全局序列比对算法DNW和分布式半全局序列比对算法DSG。4.一种基于Spark和SIMD的...
【专利技术属性】
技术研发人员:徐波,王超,周学海,李曦,陈香兰,李昌龙,庄航,王茄力,王庆凤,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。