一种基因测序存算协作系统、方法和计算机可读存储介质技术方案

技术编号:36514178 阅读:17 留言:0更新日期:2023-02-01 15:44
本发明专利技术属于测序数据处理技术领域,具体涉及一种基因测序存算协作系统、方法和计算机可读存储介质。本发明专利技术的系统包括:数据处理模块,用于进行基因测序业务的运算;共享存储模块,用于存储基因测序业务相关的文件;数据调度模块,包括DPU,用于进行数据处理模块内的硬件之间的数据搬迁和资源调度,还用于进行数据处理模块和共享存储模块之间的数据搬迁。本发明专利技术还提供了应用该系统进行基因测序的方法。本发明专利技术能够提高基因测序工作的效率,具有很好的应用前景。前景。前景。

【技术实现步骤摘要】
一种基因测序存算协作系统、方法和计算机可读存储介质


[0001]本专利技术属于测序数据处理
,具体涉及一种基因测序存算协作系统、方法和计算机可读存储介质。

技术介绍

[0002]伴随着基因测序技术的快速发展,基因数据的生成呈现指数级增长,基因分析效率提升的需求对基因测序的IT设施能力在传输、存储、计算、管理等方面带来更高挑战。当前业界主流的做法是借助异构硬件加速和算法优化来实现基因测序效率的提升。如基于CPU+FPGA架构的华大智造,illumina,人和未来等,另一种是基于CPU+GPU的异构平台,如赛乐BaseNumber通过基于“CUDA+GPU”环境开发的高并行算法,将DNS测序数据提升百倍。
[0003]CPU+FPGA或CPU+GPU的异构算力架构,虽然可以大大提升计算能力,但仍然存在数据的搬迁和调度问题,如CPU和GPU之间的数据搬迁,CPU和共享存储之间数据的搬迁,CPU和GPU之间资源的调度等,如何减少数据的流动和异构算力的高效调度至关重要。
[0004]DPU(Data Processing Unit)是以数据为中心构造的专用处理器,采用软件定义技术路线支撑基础设施层资源虚拟化,支持存储、安全、服务质量管理等基础设施层服务。以数据为中心的架构,数据转发通道不再需要CPU参与,DPU智能网卡可以直接将数据送达GPU,不需要基于CPU的软件转发,时延上可以提升到3至4微秒。
[0005]目前,DPU尚未应用于基因测序领域,该领域中也缺乏DPU处理基因测序业务的相关业务逻辑的研究。因此,如何将DPU应用于现有的基因测序系统,这仍然是本领域亟需解决的问题。

技术实现思路

[0006]针对现有技术的缺陷,本专利技术提供一种基于DPU的算子下推和数据直通的基因测序存算协作系统和方法,目的在于将部分基因测序算子卸载至DPU及高效的数据调度和处理pipeline,提升基因测序效率。
[0007]一种基因测序存算协作系统,其特征在于,包括:数据处理模块,用于进行基因测序业务的运算;共享存储模块,用于存储基因测序业务相关的文件;数据调度模块,包括DPU,用于进行数据处理模块内的硬件之间的数据搬迁和资源调度,还用于进行数据处理模块和共享存储模块之间的数据搬迁。
[0008]优选的,所述数据处理模块包括CPU和GPU;或,所述数据处理模块包括CPU和FPGA。
[0009]优选的,所述数据调度模块的业务逻辑包括:针对测序仪下机文件,数据存储到共享存储模块后,由DPU识别数据属性,若是Fastq格式,则将数据分发给数据处理模块,进入比对环节;若是Fastq.gz格式,则在DPU侧进行数据解压,数据解压后得到的解压数据分发给数据处理模块,进入比对环节。
[0010]优选的,所述数据调度模块的业务逻辑包括:在比对、排序、去重和变异检测环节中,比对环节输出的SAM文件、排序环节输出的BAM和变异检测环节输出的VCF文件保存于共享存储模块,其他中间文件暂存在DPU的存储单元中,用于程序交互时的临时调用。
[0011]本专利技术还提供一种基因测序存算协作方法,它应用上述基因测序存算协作系统进行基因测序,包括如下步骤:步骤1,将测序仪下机文件存储至共享存储模块;步骤2,数据调度模块对所述测序仪下机文件进行预处理,分发至数据处理模块;步骤3,所述数据处理模块对所述测序仪下机文件进行比对、排序、去重和变异检测,将生成的文件存储至共享存储模块或暂存至DPU的存储单元中。
[0012]优选的,步骤2中,所述数据调度模块的业务逻辑为:由DPU识别数据属性,若是Fastq格式,则将数据分发给数据处理模块,进入比对环节;若是Fastq.gz格式,则在DPU侧进行数据解压,数据解压后得到的解压数据分发给数据处理模块,进入比对环节。
[0013]优选的,步骤3中,所述数据处理模块的业务逻辑为:在比对、排序、去重和变异检测环节中,比对环节输出的SAM文件、排序环节输出的BAM和变异检测环节输出的VCF文件保存于共享存储模块,其他中间文件暂存在DPU的存储单元中,用于程序交互时的临时调用。
[0014]本专利技术还提供一种计算机可读存储介质,其上存储有用于实现上述基因测序存算协作方法的计算机程序。
[0015]本专利技术构建了一种新的用于基因测序的硬件系统,并提供了相应的基因测序的方法。其将基因测序数据解压等预处理算子卸载到DPU上,可节约CPU算力支撑更多的应用业务,同时通过DPU和GPU之间的数据调度将算力分布在更靠近数据发生的地方,可以减少通信。本专利技术能够提高基因测序工作的效率,具有很好的应用前景。
[0016]显然,根据本专利技术的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本专利技术上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
[0017]以下通过实施例形式的具体实施方式,对本专利技术的上述内容再作进一步的详细说明。但不应将此理解为本专利技术上述主题的范围仅限于以下的实例。凡基于本专利技术上述内容所实现的技术均属于本专利技术的范围。
附图说明
[0018]图1为实施例1的流程示意图。
具体实施方式
[0019]需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
[0020]实施例1 基因测序存算协作系统和方法本实施例的系统如图1所示,包括:数据处理模块,用于进行基因测序业务的运算;其由CPU和GPU构架而成;共享存储模块,用于存储基因测序业务相关的文件;
数据调度模块,用于进行数据处理模块内的硬件之间的数据搬迁和资源调度,还用于进行数据处理模块和共享存储模块之间的数据搬迁。其主要部件为DPU,DPU通过PCIe连接设置数据处理模块的服务器系统,通过NVme

OF协议扩展的IB、RoCE网络协议,以RDMA的形式实现共享存储模块的共享和远程访问。
[0021]采用该系统进行基因测序时,包括如下步骤:步骤1,将测序仪下机文件存储至共享存储模块;步骤2,数据调度模块对所述测序仪下机文件进行预处理,分发至数据处理模块;具体的,测序仪下机文件存储到共享存储侧后,首先进入DPU进行数据预处理,由DPU识别数据属性,若是Fastq格式,则直接绕过CPU将数据分发给GPU,进入比对环节;若是Fastq.gz格式,则在DPU侧进行数据解压,节省CPU的算力,数据解压后直接将数据分发给GPU,进入比对环节。
[0022]步骤3,所述数据处理模块对所述测序仪下机文件进行比对、排序、去重和变异检测,将生成的文件存储至共享存储模块或暂存至DPU的存储单元中。
[0023]具体的,在比对、排序、去重和变异检测环节,涉及大量GPU计算以及和共享存储模块的IO交互,本实施例基于业务的处理逻辑,构建数据处理的pipeline,进而减少数据生命周期的流动。包括:除比对环节输出的SAM文件、排序环节输出的BA本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因测序存算协作系统,其特征在于,包括:数据处理模块,用于进行基因测序业务的运算;共享存储模块,用于存储基因测序业务相关的文件;数据调度模块,包括DPU,用于进行数据处理模块内的硬件之间的数据搬迁和资源调度,还用于进行数据处理模块和共享存储模块之间的数据搬迁。2.按照权利要求1所述的基因测序存算协作系统,其特征在于:所述数据处理模块包括CPU和GPU;或,所述数据处理模块包括CPU和FPGA。3.按照权利要求1所述的基因测序存算协作系统,其特征在于:所述数据调度模块的业务逻辑包括:针对测序仪下机文件,数据存储到共享存储模块后,由DPU识别数据属性,若是Fastq格式,则将数据分发给数据处理模块,进入比对环节;若是Fastq.gz格式,则在DPU侧进行数据解压,数据解压后得到的解压数据分发给数据处理模块,进入比对环节。4.按照权利要求1所述的基因测序存算协作系统,其特征在于:所述数据调度模块的业务逻辑包括:在比对、排序、去重和变异检测环节中,比对环节输出的SAM文件、排序环节输出的BAM和变异检测环节输出的VCF文件保存于共享存储模块,其他中间文件暂存在DPU的存储单元中,用于程序交互时的临时调用。5.一种基因测序存算协作方法,其特征在于:它应用权利要求1

【专利技术属性】
技术研发人员:应志野于浩澎辜永红陈一龙李斌杰张凯丽盛玖成孝禹葛平周梦琳
申请(专利权)人:华为技术有限公司赛乐基因科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1