当前位置: 首页 > 专利查询>清华大学专利>正文

一种大数据分析流程的执行计划生成方法技术

技术编号:17654751 阅读:112 留言:0更新日期:2018-04-08 08:12
本发明专利技术提供一种大数据分析流程的执行计划生成方法,所述方法根据每个分析任务生成了可执行的任务实例,然后根据任务实例中保存的依赖关系,建立有向无环图,按照依赖关系遍历依赖任务序列,并执行依赖实例,所述依赖实例为依赖任务的任务实例,所述依赖任务为所述依赖任务序列中与所述分析任务相依赖的其他分析任务,然后执行所述任务实例,生成任务结果文件。本发明专利技术提供的大数据分析流程的执行计划生成方法,根据大数据分析流程中分析任务具有数据传递关系的特点,以规则的形式强化了分析任务之间在数据上的关联关系,提高了大数据分析的效率,降低了大数据分析对技术人员技能的要求,避免将数据透露给大数据分析提供商,降低了安全风险。

【技术实现步骤摘要】
一种大数据分析流程的执行计划生成方法
本专利技术涉及大数据
,尤其涉及一种大数据分析流程的执行计划生成方法。
技术介绍
随着大数据技术的不断发展,市场上出现了许多相关技术和产品,成为大数据获取、存储、处理分析或可视化的有效手段。但使用这些技术和产品存在较高的技术门槛,怎样将大数据技术以标准化的形式组织起来,为使用者提供便捷、高效的使用方法,成为一项巨大挑战。传统的工作流引擎作为各个领域应用系统的一部分,具备较好的通用性和完备性,但流程定义复杂,强调角色、分工、信息传递路由、内容等级等执行业务流程的解决方案,并不适合聚焦于数据传递、数据处理和分析、结果展现等方面的大数据分析流程。大数据分析流程中的任务多种多样,但具备一些特殊性质。比如几乎所有任务都需要传入数据,而任务的输出也局限于模型、数据、计算结果这几类。另外,任务之间除了调度上的先后关系,还包括数据上的传递关系。这些性质决定了大数据分析流程需要更具针对性的技术手段来组织和执行。现有技术中,大数据分析服务提供商提供一系列基于云平台的大数据分析产品。但是,这些大数据分析产品并不开源,产品的使用需要较高的技术门槛,对操作者的技术水本文档来自技高网...
一种大数据分析流程的执行计划生成方法

【技术保护点】
一种大数据分析流程的执行计划生成方法,其特征在于,包括:若判断获知分析任务对应的任务实例未执行完成且所述任务实例存在依赖任务,则遍历依赖任务序列,并执行所述依赖任务序列中的所述依赖任务;在执行完所述依赖任务序列中的所述依赖任务以后,若判断获知所述任务实例执行完成,则生成任务结果文件。

【技术特征摘要】
1.一种大数据分析流程的执行计划生成方法,其特征在于,包括:若判断获知分析任务对应的任务实例未执行完成且所述任务实例存在依赖任务,则遍历依赖任务序列,并执行所述依赖任务序列中的所述依赖任务;在执行完所述依赖任务序列中的所述依赖任务以后,若判断获知所述任务实例执行完成,则生成任务结果文件。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述任务实例的执行状态标识判断所述任务实例是否执行完成,所述执行状态标识包括第一标识以及第二标识,所述第一标识用于表示所述任务实例的执行过程中发生异常,所述第二标识用于表示所述任务实例的执行过程中未发生异常。3.根据权利要求1所述的方法,其特征在于,所述执行所述任务实例具体为:调用第三方程序执行所述任务实例中指定的可执行文件,所述指定的可执行文件为实现所述分析任务的算法的可执行文件。4.根据权利要求1所述的方法,其特征在于,还包括:将每个分析任务的描述保存到第一内存哈希表中,所述分析任务的描述包括任务地址、任务名称、任务参数值、依赖任务序列和依赖任务输出端口;遍历所述第一内存哈希表中的所有的分析任务,对所述分析任务进行实例化;再次遍历所述第一内存哈希表中的所有的分析任务,补充所述分析任务的依赖关系;生成所述分析任务对应的任务实例。5.根据权利要求4所述的方法,其特征在于,所述遍历所述第一内存哈希表中的所有的分析任务,对所述分析任务进行实例化具体为:根据所述分析任务的任务名称,从外部标准化算子库中获取实现所述分析任务的算法的参数元信息、输入和输出信息、执行环境和可执行文件;创建所述任务实例的对象,生成数据库记录,所述数据库记录存储所述任务实例的任务实例地址、任务实例执行状态标识和任务实例输出结果地址;创建所述任务实例的目录,用来存储与...

【专利技术属性】
技术研发人员:王建民龙明盛孙家广裴忠一黄向东
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1