当前位置: 首页 > 专利查询>盐城工学院专利>正文

一种用于对大数据任务进行分布式处理的方法技术

技术编号:16607847 阅读:31 留言:0更新日期:2017-11-22 18:11
本发明专利技术涉及一种用于对大数据任务进行分布式处理的方法,所述方法包括:确定针对大数据任务的任务处理次序,所述任务处理次序包括组间次序和组内次序;所述组间次序用于指示网络节点所在的组的次序,所述组内次序用于指示网络节点在其所属的组中的次序;根据至少两个网络节点各自对应的任务处理次序,确定所述至少两个网络节点中的要进行任务处理的网络节点,所述至少两个网络节点中任务处理次序低的网络节点的全部或部分任务依赖于至少一个任务处理次序高的网络节点;以及向所述要进行任务处理的网络节点发送任务处理指示,所述任务处理指示用于指示所述要进行任务处理的网络节点开始处理任务。

【技术实现步骤摘要】
一种用于对大数据任务进行分布式处理的方法
本专利技术涉及分布式系统领域,并且更具体地涉及一种用于对大数据任务进行分布式处理的方法。
技术介绍
目前,大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出大数据任务包括很多不同类型的子任务运行在大数据平台之上的情况,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python等。通常,这些子任务需要不同的运行环境,并且除了定时运行,各种类型之间的任务存在依赖关系。目前各业务的数据任务基本都是靠Crontab定时调度,各个任务之间的依赖仅靠简单的串行来实现。这样做的问题:很容易造成前面的任务未结束或者失败,后面的任务也运行起来,最终跑出错误的分析结果;任务不能并发执行,增加任务执行的整体时间窗口;任务管理和维护很不方便,不好统计任务的执行时间及运行日志;以及缺乏及时有效的告警。
技术实现思路
根据本专利技术的一个方面,提供一种用于对大数据任务进行分布式处理的设备,设备包括:次序分配单元,用于确定针对大数据任务的任务处理次序,任务处理次序包括组间次序和组内次序;组间次序用于指示网络节点所在的组的次序,组内次序用于指示网络节点在其所属的组中的次序;其中,组间次序低的组中包含的网络节点的全部或部分任务依赖于至少一个组间次序高的组中包含的网络节点;在同一组内,组内次序低的网络节点的全部或部分任务依赖于至少一个组内次序高的网络节点;任务指定单元,用于根据至少两个网络节点各自对应的任务处理次序,确定至少两个网络节点中的要进行任务处理的网络节点,至少两个网络节点中任务处理次序低的网络节点的全部或部分任务依赖于至少一个任务处理次序高的网络节点;以及控制单元,用于向要进行任务处理的网络节点发送任务处理指示,任务处理指示用于指示要进行任务处理的网络节点开始处理任务。优选地,任务指定单元,用于当接收到至少两个网络节点中的请求网络节点发送的任务处理请求时,查询至少一个目标组,至少一个目标组是尚未完成任务处理的各个组中组间次序最高的组;获取任务处理列表,任务处理列表中包含每一个目标组中尚未完成任务处理的各个网络节点中、组内次序最高的至少一个网络节点;检测请求网络节点是否存在于任务处理列表中;若请求网络节点存在于任务处理列表中,则确定请求网络节点为要进行任务处理的网络节点。优选地,任务指定单元,用于当接收到至少两个网络节点中的请求网络节点发送的任务处理请求时,查询请求网络节点的组间次序和组内次序;检测请求网络节点的组间次序是否为至少两个网络节点中尚未完成任务处理的各个网络节点的组间次序中的最高次序;若请求网络节点的组间次序是至少两个网络节点中尚未完成任务处理的各个网络节点的组间次序中的最高次序,则检测请求网络节点的组内次序是否为请求网络节点所在组内尚未完成任务处理的各个网络节点的组内次序中的最高次序;若请求网络节点的组内次序是请求网络节点所在组内尚未完成任务处理的各个网络节点的组内次序中的最高次序,则确定请求网络节点为要进行任务处理的网络节点。优选地,任务指定单元,用于查询至少一个目标组,目标组是尚未完成任务处理的各个组中、组间次序最高的组;对于至少一个目标组中的每一个目标组,将目标组中尚未完成任务处理的各个网络节点中、组内次序最高的至少一个网络节点确定为要进行任务处理的网络节点。优选地,系统还包括:获取单元,用于在任务指定单元根据至少两个网络节点各自对应的任务处理次序,确定至少两个网络节点中的要进行任务处理的网络节点之前,获取至少两个网络节点之间的依赖关系;以及次序确定单元,用于根据至少两个网络节点之间的依赖关系确定至少两个网络节点各自对应的任务处理次序。根据本专利技术的另一个方面,提供一种用于对大数据任务进行分布式处理的方法,包括:确定针对大数据任务的任务处理次序,任务处理次序包括组间次序和组内次序;组间次序用于指示网络节点所在的组的次序,组内次序用于指示网络节点在其所属的组中的次序;其中,组间次序低的组中包含的网络节点的全部或部分任务依赖于至少一个组间次序高的组中包含的网络节点;在同一组内,组内次序低的网络节点的全部或部分任务依赖于至少一个组内次序高的网络节点;根据至少两个网络节点各自对应的任务处理次序,确定至少两个网络节点中的要进行任务处理的网络节点,至少两个网络节点中任务处理次序低的网络节点的全部或部分任务依赖于至少一个任务处理次序高的网络节点;以及向要进行任务处理的网络节点发送任务处理指示,任务处理指示用于指示要进行任务处理的网络节点开始处理任务。优选地,根据至少两个网络节点各自对应的任务处理次序,确定至少两个网络节点中的要进行任务处理的网络节点,包括:当接收到至少两个网络节点中的请求网络节点发送的任务处理请求时,查询至少一个目标组,至少一个目标组是尚未完成任务处理的各个组中组间次序最高的组;获取任务处理列表,任务处理列表中包含每一个目标组中尚未完成任务处理的各个网络节点中、组内次序最高的至少一个网络节点;检测请求网络节点是否存在于任务处理列表中;若请求网络节点存在于任务处理列表中,则确定请求网络节点为要进行任务处理的网络节点。优选地,根据至少两个网络节点各自对应的任务处理次序,确定至少两个网络节点中的要进行任务处理的网络节点,包括:当接收到至少两个网络节点中的请求网络节点发送的任务处理请求时,查询请求网络节点的组间次序和组内次序;检测请求网络节点的组间次序是否为至少两个网络节点中尚未完成任务处理的各个网络节点的组间次序中的最高次序;若请求网络节点的组间次序是至少两个网络节点中尚未完成任务处理的各个网络节点的组间次序中的最高次序,则检测请求网络节点的组内次序是否为请求网络节点所在组内尚未完成任务处理的各个网络节点的组内次序中的最高次序;若请求网络节点的组内次序是请求网络节点所在组内尚未完成任务处理的各个网络节点的组内次序中的最高次序,则确定请求网络节点为要进行任务处理的网络节点。优选地,根据至少两个网络节点各自对应的任务处理次序,确定至少两个网络节点中的要进行任务处理的网络节点,包括:查询至少一个目标组,目标组是尚未完成任务处理的各个组中、组间次序最高的组;对于至少一个目标组中的每一个目标组,将目标组中尚未完成任务处理的各个网络节点中、组内次序最高的至少一个网络节点确定为要进行任务处理的网络节点。优选地,方法还包括:在根据至少两个网络节点各自对应的任务处理次序,确定至少两个网络节点中的要进行任务处理的网络节点之前,获取至少两个网络节点之间的依赖关系;根据至少两个网络节点之间的依赖关系确定至少两个网络节点各自对应的任务处理次序。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术优选实施方式的分布式处理系统的结构示意图;图2为根据本专利技术实施方式的分布式处理设备的结构示意图;图3为根据本专利技术另一实施方式的分布式处理设备的结构示意图;图4为根据本专利技术实施方式的对大数据任务进行分布式处理的方法的流程图;图5为根据本专利技术另一实施方式的对大数据任务进行分布式处理的方法的流程图;图6为根据本专利技术优选实施方式的分布式处理方法的流程图。具体实施方式现在参考附图介绍本专利技术的示例性实施方式,然而,本专利技术可以用许本文档来自技高网...
一种用于对大数据任务进行分布式处理的方法

【技术保护点】
一种用于对大数据任务进行分布式处理的方法,其特征在于,所述方法包括:确定针对大数据任务的任务处理次序,所述任务处理次序包括组间次序和组内次序;所述组间次序用于指示网络节点所在的组的次序,所述组内次序用于指示网络节点在其所属的组中的次序;其中,所述组间次序低的组中包含的网络节点的全部或部分任务依赖于至少一个组间次序高的组中包含的网络节点;在同一组内,组内次序低的网络节点的全部或部分任务依赖于至少一个组内次序高的网络节点;根据至少两个网络节点各自对应的任务处理次序,确定所述至少两个网络节点中的要进行任务处理的网络节点,所述至少两个网络节点中任务处理次序低的网络节点的全部或部分任务依赖于至少一个任务处理次序高的网络节点;以及向所述要进行任务处理的网络节点发送任务处理指示,所述任务处理指示用于指示所述要进行任务处理的网络节点开始处理任务。

【技术特征摘要】
1.一种用于对大数据任务进行分布式处理的方法,其特征在于,所述方法包括:确定针对大数据任务的任务处理次序,所述任务处理次序包括组间次序和组内次序;所述组间次序用于指示网络节点所在的组的次序,所述组内次序用于指示网络节点在其所属的组中的次序;其中,所述组间次序低的组中包含的网络节点的全部或部分任务依赖于至少一个组间次序高的组中包含的网络节点;在同一组内,组内次序低的网络节点的全部或部分任务依赖于至少一个组内次序高的网络节点;根据至少两个网络节点各自对应的任务处理次序,确定所述至少两个网络节点中的要进行任务处理的网络节点,所述至少两个网络节点中任务处理次序低的网络节点的全部或部分任务依赖于至少一个任务处理次序高的网络节点;以及向所述要进行任务处理的网络节点发送任务处理指示,所述任务处理指示用于指示所述要进行任务处理的网络节点开始处理任务。2.根据权利要求1所述的一种用于对大数据任务进行分布式处理的方法,其特征在于,所述根据至少两个网络节点各自对应的任务处理次序,确定所述至少两个网络节点中的要进行任务处理的网络节点,包括:当接收到所述至少两个网络节点中的请求网络节点发送的任务处理请求时,查询至少一个目标组,所述至少一个目标组是尚未完成任务处理的各个组中组间次序最高的组;获取任务处理列表,所述任务处理列表中包含每一个所述目标组中尚未完成任务处理的各个网络节点中、组内次序最高的至少一个网络节点;检测所述请求网络节点是否存在于所述任务处理列表中;若所述请求网络节点存在于所述任务处理列表中,则确定所述请求网络节点为所述要进行任务处理的网络节点。3.根据权利要求1所述的一种用于对大数据任务进行分布式处理的方法,其特征在于,所述根据至少两个网络节点各自对应的任务处理次序,确定所述至少两个网络节点中的要进行任务处理的网络节点,包括:当接收到所述至少两个网络节点中的请求网络节点发送的任务处理请求时,查询所述请求网络节点的组间次序和组内次序;检测所述请求网络节点的组间次序是否为所述至少两个网络节点中尚未完成任务处理的各个网络节点的组间次序中的最高次序;若所述请求网络节点的组间次序是所述至少两个网络节点中尚未完成任务处理的各个网络节点的组间次序中的最高次序,则检测所述请求网络节点的组内次序是否为所述请求网络节点所在组内尚未完成任务处理的各个网络节点的组内次序中的最高次序;若所述请求网络节点的组内次序是所述请求网络节点所在组内尚未完成任务处理的各个网络节点的组内次序中的最高次序,则确定所述请求网络节点为所述要进行任务处理的网络节点。4.根据权利要求1所述的一种用于对大数据任务进行分布式处理的方法,其特征在于,所述根据至少两个网络节点各自对应的任务处理次序,确定所述至少两个网络节点中的要进行任务处理的网络节点,包括:查询至少一个目标组,所述目标组是尚未完成任务处理的各个组中、组间次序最高的组;对于所述至少一个目标组中的每一个目标组,将所述目标组中尚未完成任务处理的各个网络节点中、组内次序最高的至少一个网络节点确定为所述要进行任务处理的网络节点。5.根据权利要求1所述的一种用于对大数据任务进行分布式处理的方法,其特征在于,所述方法还包括:在根据至少两个网络节点各自对应的任务处理次序,确定所述至少两个网络节点中的要进行任务处理的网络节点之前,获取所述至少两个网络节点之间的依赖关系;根据...

【专利技术属性】
技术研发人员:袁敏
申请(专利权)人:盐城工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1