The present invention provides a modular management method and device for large data processing flow, wherein the method includes: dividing the flow into one or more independent parts, each part being a module; establishing a class tree process structure according to the dependencies between the modules, wherein the class tree process structure The intermediate node has one or more child nodes and one or more parent nodes, and the module corresponds to the node one by one; the sample list is split into multiple running units; and the scripts of the module are run sequentially according to the configuration file, the class tree process structure, and the running unit. The invention realizes modular management of large data processing flow, supports centralized management of multi-user systems, and can dynamically control process tasks.
【技术实现步骤摘要】
大数据处理流程模块化管理方法及装置
本专利技术涉及计算机
,尤其涉及计算机处理流程自动管理方法,具体来说就是一种大数据处理流程模块化管理方法及装置。
技术介绍
近年来,随着计算机及互联网技术的快速发展,计算机日益庞大及多样化,包括生物信息在内的一些领域长期以来都面临着分析数据量大,单项分析耗时长,分析项目多,不同分析间存在依赖性不能单纯地同时进行等挑战。尽管计算机性能发展迅速,但这些挑战会因数据采集量的持续增大而存在。面对分析数据量大、单项分析耗时长、分析项目多、不同分析间存在依赖性不能单纯地同时进行等问题,各式各样的大数据流程处理方法横空出世。但现有的流程处理方法不能提供针对流程系统性地操作,也不能真正的将具体流程实例从流程管理程序中抽离出来而形成一种通用化的流程管理框架。例如现有流程管理方法将流程设计成“硬代码”,利用该方法一旦建立流程处理框架,在流程和算法选择上一般不会发生改变,改变的只是数据,因此这种方法只能解决单一流程、单一项目,不能模块化,难以替换流程中的某项分析,无法动态控制流程任务。因此,本领域技术人员亟需研发出一种支持多用户同时进行、能够动态控制流程任务的大数据处理流程管理方法。
技术实现思路
有鉴于此,本专利技术要解决的技术问题在于提供一种大数据处理流程模块化管理方法及装置,解决了现有数据处理流程不支持多用户系统中心化管理、缺乏流程任务动态控制的问题。为了解决上述技术问题,本专利技术的具体实施方式提供一种大数据处理流程模块化管理方法,包括:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;根据所述模块之间的依赖关系建立类树状 ...
【技术保护点】
1.一种大数据处理流程模块化管理方法,其特征在于,该方法包括:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应;将样本列表拆分成多个运行单位;以及根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。
【技术特征摘要】
1.一种大数据处理流程模块化管理方法,其特征在于,该方法包括:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应;将样本列表拆分成多个运行单位;以及根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。2.如权利要求1所述的大数据处理流程模块化管理方法,其特征在于,根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本的步骤之后,该方法还包括:所述模块的脚本生成一个或多个进行具体计算任务的shell脚本。3.如权利要求2所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本生成一个或多个进行具体计算任务的shell脚本的步骤之后,该方法还包括:所述模块的脚本反馈所述shell脚本的控制指令数据。4.如权利要求3所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本反馈所述shell脚本的控制指令数据的步骤之后,该方法还包括:根据所述控制指令数据在系统后台运行所述shell脚本。5.如权利要求4所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本生成一个或多个进行具体计算任务的shell脚本的步骤之后,该方法还包括:检测所述shell脚本的运行情况,并向用户反馈所述shell脚本的运行状态信息。6.如权利要求3所述的大数据处理流程模块化管理方法,其特征在于,所述控制指令数据具体包括:shell脚本的内存占用量、shell脚本的CPU占用量、shell脚本的运行时间、shell脚本的生成指令和shell脚本的拆分指令。7.如权利要求2所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本生成进行具体计算任务的shell脚本的步骤之后,该方法还包括:将所述shell脚本拆分成多个并行运行的子shell脚本。8.如权利要求1所述的大数据处理流程模块化管理方法,其特征在于,根据...
【专利技术属性】
技术研发人员:徐畅,贾文龙,李帅成,
申请(专利权)人:香港城市大学,
类型:发明
国别省市:中国香港,81
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。