一种基因序列数据处理方法、装置及系统制造方法及图纸

技术编号:18941362 阅读:14 留言:0更新日期:2018-09-15 11:14
本申请实施例公开了一种基因序列数据处理方法、装置及系统,所述方法包括根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。有益效果:1、利用集群资源多节点并行处理基因数据,从而缩短数据处理时间;2、本申请并不涉及修改软件源代码,易于实现;3、没有太大的操作系统/软硬件环境依赖,可以适配于各种计算机集群和各种作业调度系统。

Method, device and system for processing gene sequence data

The embodiment of the present application discloses a gene sequence data processing method, apparatus and system. The method comprises splitting a reference gene sequence according to a set splitting rule to obtain a M group reference gene subsequence; generating M program running scripts, and delivering the M program running scripts to the multi-node computer. In the cluster job scheduling system, the results of M gene sequence processors are obtained. Each program outputs a corresponding gene sequence processors after running the script. The results of M gene sequence processors are summarized to obtain the results of gene sequence data processing. Beneficial effects: 1. Using cluster resources to process genetic data in parallel, thus shortening the processing time; 2. This application does not involve modifying the software source code, easy to implement; 3. There is no too much operating system / software and hardware environment dependence, can be adapted to a variety of computer clusters and various job scheduling systems.

【技术实现步骤摘要】
一种基因序列数据处理方法、装置及系统
本申请涉及计算机
,特别是涉及一种基因序列数据处理方法、装置及系统。
技术介绍
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的学科,它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。随着生物信息学数据量的爆发,各种用于处理生物信息学数据的软件也层出不穷。以基因测序为例,其主要包括测序数据比对、比对数据预处理、查找突变等三个主要步骤,分别涉及到bwa、picard和GATK三个常用软件。具体过程可以理解为:在测序数据比对步骤把每一个测序数据比对到基因组的相应位置的过程;比对完成过后,在比对数据预处理步骤中对比对结果进行化;最后在查找突变步骤中查看整个基因组中每个位置是否存在突变、及突变是否致病等临床诊断所需的信息。其中,测试数据可以为从测序仪产出的非常小的基因片段(一般是100~200个碱基长度,碱基是基因中的最小单元,人的基因组包含了30亿个碱基)。但是,相较于数据的爆发式增长,大多数的生物信息学软件的设计都是基于单线程运行或者是单节点运行的,效率较低。随着精准医疗概念的提出,基因测序及相应的数据处理技术越来越多的开始从实验室走向临床。和实验室不一样的是,临床对于数据处理的时效性有较高的要求。例如,人们希望测序和数据处理像验血一样,可以在一个小时内拿到测试结果。但是目前基因数据从测序仪上进行测序需要数小时到一天的时间,而测序得到的数据进行分析并拿到分析报告又需要耗费约一天的时间,这样的时效性对其临床应用造成了较大的阻碍。
技术实现思路
本申请实施例中提供了一种基因序列数据处理方法、装置及系统,以利于解决现有基因序列数据处理效率较低的问题。第一方面,本申请实施例提供了一种基因序列数据处理方法,应用于多节点计算机集群,所述方法包括:根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。可选地,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。可选地,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。可选地,定义允许同时运行的程序运行脚本的最大数量N;若所述N<M,所述将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,包括:将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;监控所述N个程序运行脚本中每个程序运行脚本的运行状态;若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。可选地,所述程序运行脚本表征的数据处理过程包括:将测序基因序列与相应的参考基因子序列进行对比,获得对比结果;对所述对比结果进行分析,获得基因序列处理子结果。第二方面,本申请实施例提供了一种基因序列数据处理装置,应用于多节点计算机集群,所述装置包括:数据拆分模块,用于根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;集群调度模块,用于生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;汇总模块,用于对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。可选地,所述数据拆分模块,具体用于:根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。可选地,所述数据拆分模块,具体用于:根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。可选地,定义允许同时运行的程序运行脚本的最大数量N;所述集群调度模块,具体用于:若所述N<M,将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;监控所述N个程序运行脚本中每个程序运行脚本的运行状态;若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。第三方面,本申请实施例提供了一种基因序列数据处理系统,包括多节点计算机集群,所述多节点计算机集群上部署用于执行上述第一方面任一项所述的方法的软件。本申请实施例所提供的技术方案具有以下有益效果:1、利用集群资源多节点并行处理基因数据,从而缩短数据处理时间;2、本申请并不涉及修改软件源代码,易于实现;3、没有太大的操作系统/软硬件环境依赖,可以适配于各种计算机集群和各种作业调度系统。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种基因序列数据处理方法流程示意图;图2为本申请实施例提供的一种基因序列数据处理装置结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在高性能计算领域,为了加速软件的运行,大多采用并行的方式。一种是节点内的并行,即采用openmp、pthreads等技术实现的线程级并行,另外一种是节点间的并行,即采用MPI通信协议的进程级并行。当前在二代基因测试流程中的常用软件,如bwa、picard、GATK基本都支持节点内的线程级并行,能够利用一个节点内计算资源,但是都不支持基于MPI通信协议的进程级并行。因此,这些软件都只能在一个节点内运行,没法充分的利用集群的计算能力。当前方式的最大问题是不能同时利用计算集群中的多个计算节点同时计算,但是采用MPI的方式来改写软件并不是一个好的选择,其原因在于bwa、picard、GATK三个软件采用了不同的编程语言和实现方式,比如bwa采用了C语言编写,而picard和GATK则是采用了JAVA语言;C语言相对来说较为容易改成MPI的方式,因为其本身支持MPI相应的函数API,但是对于JAVA语言编写的picard和GATK来说,进行MPI改写则极其麻烦。基于此,本申本文档来自技高网
...

【技术保护点】
1.一种基因序列数据处理方法,其特征在于,应用于多节点计算机集群,所述方法包括:根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。

【技术特征摘要】
1.一种基因序列数据处理方法,其特征在于,应用于多节点计算机集群,所述方法包括:根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。2.根据权利要求1所述的方法,其特征在于,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。3.根据权利要求1所述的方法,其特征在于,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。4.根据权利要求1-3任一项所述的方法,其特征在于,定义允许同时运行的程序运行脚本的最大数量N;若所述N<M,所述将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,包括:将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;监控所述N个程序运行脚本中每个程序运行脚本的运行状态;若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。5.根据权利要求1所述的方法,其特征在于,所述程序运行脚本表征的数据处理过程包括:将测序基因序列与相应的参考基...

【专利技术属性】
技术研发人员:朱红
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1