The embodiment of the present application discloses a gene sequence data processing method, apparatus and system. The method comprises splitting a reference gene sequence according to a set splitting rule to obtain a M group reference gene subsequence; generating M program running scripts, and delivering the M program running scripts to the multi-node computer. In the cluster job scheduling system, the results of M gene sequence processors are obtained. Each program outputs a corresponding gene sequence processors after running the script. The results of M gene sequence processors are summarized to obtain the results of gene sequence data processing. Beneficial effects: 1. Using cluster resources to process genetic data in parallel, thus shortening the processing time; 2. This application does not involve modifying the software source code, easy to implement; 3. There is no too much operating system / software and hardware environment dependence, can be adapted to a variety of computer clusters and various job scheduling systems.
【技术实现步骤摘要】
一种基因序列数据处理方法、装置及系统
本申请涉及计算机
,特别是涉及一种基因序列数据处理方法、装置及系统。
技术介绍
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的学科,它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。随着生物信息学数据量的爆发,各种用于处理生物信息学数据的软件也层出不穷。以基因测序为例,其主要包括测序数据比对、比对数据预处理、查找突变等三个主要步骤,分别涉及到bwa、picard和GATK三个常用软件。具体过程可以理解为:在测序数据比对步骤把每一个测序数据比对到基因组的相应位置的过程;比对完成过后,在比对数据预处理步骤中对比对结果进行化;最后在查找突变步骤中查看整个基因组中每个位置是否存在突变、及突变是否致病等临床诊断所需的信息。其中,测试数据可以为从测序仪产出的非常小的基因片段(一般是100~200个碱基长度,碱基是基因中的最小单元,人的基因组包含了30亿个碱基)。但是,相较于数据的爆发式增长,大多数的生物信息学软件的设计都是基于单线程运行或者是单节点运行的,效率较低。随着精准医疗概念的提出,基因测序及相应的数据处理技术越来越多的开始从实验室走向临床。和实验室不一样的是,临床对于数据处理的时效性有较高的要求。例如,人们希望测序和数据处理像验血一样,可以在一个小时内拿到测试结果。但是目前基因数据从测序仪上进行测序需要数小时到一天的时间,而测序得到的数据进行分析并拿到分析报告又需要耗费约一天的时间,这样的时效性对其临床应用造成了较大的阻碍。 ...
【技术保护点】
1.一种基因序列数据处理方法,其特征在于,应用于多节点计算机集群,所述方法包括:根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。
【技术特征摘要】
1.一种基因序列数据处理方法,其特征在于,应用于多节点计算机集群,所述方法包括:根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列;生成M个程序运行脚本,将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,获得M个基因序列处理子结果,其中,每个程序运行脚本运行结束后输出一个相应的基因序列处理子结果;对所述M个基因序列处理子结果进行汇总,获得基因序列数据处理结果。2.根据权利要求1所述的方法,其特征在于,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:根据所述参考基因序列内染色体的数量,对参考基因序列进行拆分,获得M组参考基因子序列,其中,每组参考基因子序列对应一条染色体。3.根据权利要求1所述的方法,其特征在于,所述根据设定的拆分规则,对参考基因序列进行拆分,获得M组参考基因子序列,包括:根据设定的分组数,对所述参考基因序列进行拆分,获得M组参考基因子序列,其中,任意两组参考基因子序列的长度差值小于或等于预设阈值。4.根据权利要求1-3任一项所述的方法,其特征在于,定义允许同时运行的程序运行脚本的最大数量N;若所述N<M,所述将所述M个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算,包括:将所述M个程序运行脚本中的N个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算;监控所述N个程序运行脚本中每个程序运行脚本的运行状态;若存在一个程序运行脚本运行结束,则将未运行的程序运行脚本中的一个程序运行脚本投递到所述多节点计算机集群的作业调度系统中进行计算。5.根据权利要求1所述的方法,其特征在于,所述程序运行脚本表征的数据处理过程包括:将测序基因序列与相应的参考基...
【专利技术属性】
技术研发人员:朱红,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。