大数据处理流程模块化管理方法及装置制造方法及图纸

技术编号:19176777 阅读:62 留言:0更新日期:2018-10-17 00:15
本发明专利技术提供了一种大数据处理流程模块化管理方法及装置,其中,方法包括:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应;将样本列表拆分成多个运行单位;根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。本发明专利技术实现了大数据处理流程的模块化管理,支持多用户系统的中心化管理,能够动态控制流程任务。

Modular management method and device for big data processing flow

The present invention provides a modular management method and device for large data processing flow, wherein the method includes: dividing the flow into one or more independent parts, each part being a module; establishing a class tree process structure according to the dependencies between the modules, wherein the class tree process structure The intermediate node has one or more child nodes and one or more parent nodes, and the module corresponds to the node one by one; the sample list is split into multiple running units; and the scripts of the module are run sequentially according to the configuration file, the class tree process structure, and the running unit. The invention realizes modular management of large data processing flow, supports centralized management of multi-user systems, and can dynamically control process tasks.

【技术实现步骤摘要】
大数据处理流程模块化管理方法及装置
本专利技术涉及计算机
,尤其涉及计算机处理流程自动管理方法,具体来说就是一种大数据处理流程模块化管理方法及装置。
技术介绍
近年来,随着计算机及互联网技术的快速发展,计算机日益庞大及多样化,包括生物信息在内的一些领域长期以来都面临着分析数据量大,单项分析耗时长,分析项目多,不同分析间存在依赖性不能单纯地同时进行等挑战。尽管计算机性能发展迅速,但这些挑战会因数据采集量的持续增大而存在。面对分析数据量大、单项分析耗时长、分析项目多、不同分析间存在依赖性不能单纯地同时进行等问题,各式各样的大数据流程处理方法横空出世。但现有的流程处理方法不能提供针对流程系统性地操作,也不能真正的将具体流程实例从流程管理程序中抽离出来而形成一种通用化的流程管理框架。例如现有流程管理方法将流程设计成“硬代码”,利用该方法一旦建立流程处理框架,在流程和算法选择上一般不会发生改变,改变的只是数据,因此这种方法只能解决单一流程、单一项目,不能模块化,难以替换流程中的某项分析,无法动态控制流程任务。因此,本领域技术人员亟需研发出一种支持多用户同时进行、能够动态控制流程任务的大数据处理流程管理方法。
技术实现思路
有鉴于此,本专利技术要解决的技术问题在于提供一种大数据处理流程模块化管理方法及装置,解决了现有数据处理流程不支持多用户系统中心化管理、缺乏流程任务动态控制的问题。为了解决上述技术问题,本专利技术的具体实施方式提供一种大数据处理流程模块化管理方法,包括:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应;将样本列表拆分成多个运行单位;根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。本专利技术的具体实施方式还提供一种大数据处理流程模块化管理装置,包括:分解单元,用于将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;建立单元,用于根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应;第一拆分单元,用于将样本列表拆分成多个运行单位;处理单元,用于根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。根据本专利技术的上述具体实施方式可知,大数据处理流程模块化管理方法及装置至少具有以下有益效果:根据模块(每个模块拥有一个脚本,通过复用模块的脚本,一个流程可以适用于多个项目的数据处理)之间的关系,建立类树状流程结构;根据运行单位及配置文件运行模块的脚本,从而实现了大数据处理流程的模块化管理,支持多用户系统的中心化管理,能够动态控制流程任务,可以对流程进行实时判断,并向用户反馈shell脚本的运行状态信息(例如shell脚本的完成情况及资源占用情况等),以便流程意外终止时,用户及时采取必要措施,安全可靠。应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本专利技术所欲主张的范围。附图说明下面的所附附图是本专利技术的说明书的一部分,其绘示了本专利技术的示例实施例,所附附图与说明书的描述一起用来说明本专利技术的原理。图1为本专利技术具体实施方式提供的一种大数据处理流程模块化管理方法的实施例一的流程图;图2为本专利技术具体实施方式提供的一种大数据处理流程模块化管理方法的实施例二的流程图;图3为本专利技术具体实施方式提供的一种大数据处理流程模块化管理方法的实施例三的流程图;图4为本专利技术具体实施方式提供的一种大数据处理流程模块化管理方法的实施例四的流程图;图5为本专利技术具体实施方式提供的一种大数据处理流程模块化管理装置的实施例一的示意框图;图6为本专利技术具体实施方式提供的一种大数据处理流程模块化管理装置的实施例二的示意框图;图7为本专利技术具体实施方式提供的一种大数据处理流程模块化管理装置的实施例三的示意框图;图8为本专利技术具体实施方式提供的一种大数据处理流程模块化管理装置的实施例四的示意框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本专利技术所揭示内容的精神,任何所属
技术人员在了解本
技术实现思路
的实施例后,当可由本
技术实现思路
所教示的技术,加以改变及修饰,其并不脱离本
技术实现思路
的精神与范围。本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本专利技术,其仅为了区别以相同技术用语描述的元件或操作。关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。图1为本专利技术具体实施方式提供的一种大数据处理流程模块化管理方法的实施例一的流程图,如图1所示,首先将流程分解成相互独立的模块,再根据模块之间的依赖关系建立类树状流程结构,最后运行类树状流程结构中模块脚本生成的shell脚本。该附图所示的具体实施方式中,大数据处理流程模块化管理方法包括:步骤101:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块。每个模块相互独立,各司其职,并且根据流程步骤,可知这些模块之间存在相互依赖关系。步骤102:根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应。具体来说,非中间节点指根节点和终端子节点,类树状流程结构的其它节点均为中间节点,根节点具有一个或多个子节点,终端子节点具有一个或多个父节点,中间节点具有一个或多个子节点和一个或多个父节点。模块分布在节点上,即模块与节点一一对应。类树状流程结构不是严格意义上的树状图,类树状流程结构可以具有一个或多个根节点。步骤103:将样本列表拆分成多个运行单位。运行单位可以并行处理,并且相互独立,有多少个运行单位,就需要运行多少次模块的脚本。步骤104:根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。本专利技术的具体实施例中,样本列表的类型具体包括:文件路径、测序文库名、测序样本编号和患者编号等;所述配置文件以JSON格式存储。本专利技术的具体实施例中,步骤104具体包括:根据所述配置文件和所述运行单位运行父节点对应的模块的脚本;根据所述配置文件和所本文档来自技高网
...

【技术保护点】
1.一种大数据处理流程模块化管理方法,其特征在于,该方法包括:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应;将样本列表拆分成多个运行单位;以及根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。

【技术特征摘要】
1.一种大数据处理流程模块化管理方法,其特征在于,该方法包括:将流程分解成一个或多个相互独立的部分,每个部分作为一个模块;根据所述模块之间的依赖关系建立类树状流程结构,其中,所述类树状流程结构的中间节点具有一个或多个子节点和一个或多个父节点,所述模块与所述节点一一对应;将样本列表拆分成多个运行单位;以及根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本。2.如权利要求1所述的大数据处理流程模块化管理方法,其特征在于,根据配置文件、类树状流程结构和所述运行单位依次运行所述模块的脚本的步骤之后,该方法还包括:所述模块的脚本生成一个或多个进行具体计算任务的shell脚本。3.如权利要求2所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本生成一个或多个进行具体计算任务的shell脚本的步骤之后,该方法还包括:所述模块的脚本反馈所述shell脚本的控制指令数据。4.如权利要求3所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本反馈所述shell脚本的控制指令数据的步骤之后,该方法还包括:根据所述控制指令数据在系统后台运行所述shell脚本。5.如权利要求4所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本生成一个或多个进行具体计算任务的shell脚本的步骤之后,该方法还包括:检测所述shell脚本的运行情况,并向用户反馈所述shell脚本的运行状态信息。6.如权利要求3所述的大数据处理流程模块化管理方法,其特征在于,所述控制指令数据具体包括:shell脚本的内存占用量、shell脚本的CPU占用量、shell脚本的运行时间、shell脚本的生成指令和shell脚本的拆分指令。7.如权利要求2所述的大数据处理流程模块化管理方法,其特征在于,所述模块的脚本生成进行具体计算任务的shell脚本的步骤之后,该方法还包括:将所述shell脚本拆分成多个并行运行的子shell脚本。8.如权利要求1所述的大数据处理流程模块化管理方法,其特征在于,根据...

【专利技术属性】
技术研发人员:徐畅贾文龙李帅成
申请(专利权)人:香港城市大学
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1