分布式批量作业分配方法及装置制造方法及图纸

技术编号:26596820 阅读:15 留言:0更新日期:2020-12-04 21:18
本发明专利技术提供了一种分布式批量作业分配方法及装置,涉及计算机技术领域,该方法包括:获取待分配作业的第一资源偏好数据、多个作业节点的第二资源偏好数据和待分配作业间的依赖关系数据,以每个第二资源偏好数据为聚类中心,对第一资源偏好数据进行K均值聚类处理,得到多个聚类结果,按照待分配作业的个数和依赖关系数据确定每个待分配作业的优先级信息,计算空闲作业节点与聚类结果的相似度值,根据相似度值确定目标聚类结果,根据优先级信息在目标聚类结果中为空闲作业节点分配作业。本发明专利技术对待分配作业先进行聚类,再针对每个空闲作业节点进行聚类内的搜索,能够更快速的找到适合的作业进行分配,实现更高效的分布式批量作业分配。

【技术实现步骤摘要】
分布式批量作业分配方法及装置
本专利技术涉及计算机
,尤其是涉及一种分布式批量作业分配方法及装置。
技术介绍
现有银行个人客户权益系统,批量框架为分布式多节点的批处理调度方法,主节点进行任务分发,每个子节点并行作业。然而当有多个作业同时等待被处理时,子节点选取作业的方式是随机选择一个处理。然而不同节点性能优势和作业的优先级、资源消耗侧重点是有差异的。随机的方式并不能高效的使用节点资源。
技术实现思路
本专利技术提供了一种分布式批量作业分配方法及装置,可以通过为子节点选择更合适的作业,提高批量作业的分配效率。第一方面,本专利技术实施例提供了一种分布式批量作业分配方法,该方法包括:获取待分配作业的第一资源偏好数据、多个作业节点的第二资源偏好数据和待分配作业间的依赖关系数据;以每个所述第二资源偏好数据为聚类中心,对所述第一资源偏好数据进行K均值聚类处理,得到多个聚类结果;按照所述待分配作业的个数和所述依赖关系数据确定每个待分配作业的优先级信息;计算空闲作业节点与所述聚类结果的相似度值,根据所述相似度值确定目标聚类结果;根据所述优先级信息在所述目标聚类结果中为所述空闲作业节点分配作业。第二方面,本专利技术实施例还提供一种分布式批量作业分配装置,该装置包括:获取模块,用于获取待分配作业的第一资源偏好数据、多个作业节点的第二资源偏好数据和待分配作业间的依赖关系数据;聚类模块,用于以每个所述第二资源偏好数据为聚类中心,对所述第一资源偏好数据进行K均值聚类处理,得到多个聚类结果;权重模块,用于按照所述待分配作业的个数和所述依赖关系数据确定每个待分配作业的优先级信息;计算模块,用于计算空闲作业节点与所述聚类结果的相似度值,根据所述相似度值确定目标聚类结果;分配模块,用于根据所述优先级信息在所述目标聚类结果中为所述空闲作业节点分配作业。第三方面,本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述分布式批量作业分配方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述分布式批量作业分配方法的计算机程序。本专利技术实施例带来了以下有益效果:本专利技术实施例提供了一种分布式批量作业分配方案,该方案首先获取待分配作业的第一资源偏好数据、多个作业节点的第二资源偏好数据和待分配作业间的依赖关系数据,之后,以每个第二资源偏好数据为聚类中心,对第一资源偏好数据进行K均值聚类处理,得到多个聚类结果,按照待分配作业的个数和依赖关系数据确定每个待分配作业的优先级信息,计算空闲作业节点与聚类结果的相似度值,根据相似度值确定目标聚类结果,最后根据优先级信息在目标聚类结果中为空闲作业节点分配作业。本专利技术实施例对待分配作业先进行聚类,然后再针对每个空闲作业节点进行聚类内的搜索,能够更快速的找到适合的作业进行分配。从而实现更高效的分布式批量作业分配。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的分布式批量作业分配方法流程图;图2为本专利技术实施例提供的优先权信息确定步骤示意图;图3为本专利技术实施例提供的分布式批量作业分配方法实施步骤示意图;图4为本专利技术实施例提供的一种分布式批量作业分配装置结构框图;图5为本专利技术实施例提供的另一种分布式批量作业分配装置结构框图;图6为本专利技术实施例提供的计算机设备结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前批量可执行作业的分配方式为随机分配,现有分布式作业分配方案,未考虑作业和节点机器的差异性。没有充分利用资源。资源瓶颈时也无法针对性的扩容。基于此,本专利技术实施例提供的一种分布式批量作业分配方法及装置,该方法为每个批量节点选择更适合的作业,能够整体提高批量作业的执行效率。也可以更准确了解当前资源瓶颈,针对性扩容。为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种分布式批量作业分配方法进行详细介绍。为了便于理解,首先对涉及的技术术语进行解释。余弦相似性:通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。公式为:其中,Ai和Bi分别代表向量A和B的各分量。K-平均算法(k-meansclustering):源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。布谷鸟搜索(CuckooSearch,CS):通过模拟某些种属布谷鸟的寄生育雏(BroodParasitism),来有效地求解最优化问题的算法。同时,CS也采用相关的Levy飞行搜索机制。布谷鸟搜索(CS)使用蛋巢代表解。最简单情况是,每巢有一个蛋,布谷鸟的蛋代表了一种新的解。其目的是使用新的和潜在的更好的解,以取代不那么好的解。该算法基于三个理想化的规则:每个布谷鸟下一个蛋,堆放在一个随机选择的巢中;最好的高品质蛋巢将转到下一代;巢的数量是固定的,布谷鸟的蛋被发现的概率为pa。本专利技术实施例提供了一种分布式批量作业分配方法,参见图1所示的一种分布式批量作业分配方法流程图,该方法包括以下步骤:步骤S102,获取待分配作业的第一资源偏好数据、多个作业节点的第二资源偏好数据和待分配作业间的依赖关系数据。在本专利技术实施例中,第一资源偏好数据用于描述待分配作业对资源的偏好情况,第二资源偏好数据用于描述作业节点对资源的偏好情况,待分配作业间的依赖关系数据用于描述待分配作业的执行顺序信息。步骤S104,以每个第二资源偏好数据为聚类中心,对第一资源偏好数据进行K均值聚类处理,得到多个聚类结果。在本专利技术实施例中,K均值聚类处理是指利用K-平均算法进行计算。本文档来自技高网...

【技术保护点】
1.一种分布式批量作业分配方法,其特征在于,包括:/n获取待分配作业的第一资源偏好数据、多个作业节点的第二资源偏好数据和待分配作业间的依赖关系数据;/n以每个所述第二资源偏好数据为聚类中心,对所述第一资源偏好数据进行K均值聚类处理,得到多个聚类结果;/n按照所述待分配作业的个数和所述依赖关系数据确定每个待分配作业的优先级信息;/n计算空闲作业节点与所述聚类结果的相似度值,根据所述相似度值确定目标聚类结果;/n根据所述优先级信息在所述目标聚类结果中为所述空闲作业节点分配作业。/n

【技术特征摘要】
1.一种分布式批量作业分配方法,其特征在于,包括:
获取待分配作业的第一资源偏好数据、多个作业节点的第二资源偏好数据和待分配作业间的依赖关系数据;
以每个所述第二资源偏好数据为聚类中心,对所述第一资源偏好数据进行K均值聚类处理,得到多个聚类结果;
按照所述待分配作业的个数和所述依赖关系数据确定每个待分配作业的优先级信息;
计算空闲作业节点与所述聚类结果的相似度值,根据所述相似度值确定目标聚类结果;
根据所述优先级信息在所述目标聚类结果中为所述空闲作业节点分配作业。


2.根据权利要求1所述的方法,其特征在于,获取待分配作业的第一资源偏好数据和多个作业节点的第二资源偏好数据之前,还包括:
获取待分配作业的预估资源消耗数据和多个作业节点的资源处理能力数据;
根据所述预估资源消耗数据生成第一资源偏好特征向量,并将所述第一资源偏好向量作为第一资源偏好数据;
根据所述资源处理能力数据生成第二资源偏好特征向量,并将所述第二资源偏好向量作为第二资源偏好数据。


3.根据权利要求1所述的方法,其特征在于,按照所述待分配作业的个数和所述依赖关系数据确定每个待分配作业的优先级信息,包括:
按照所述待分配作业的个数确定每个待分配作业的初始权重;
根据所述初始权重和所述依赖关系数据确定每个待分配作业的优先级信息。


4.根据权利要求3所述的方法,其特征在于,包括按照如下公式根据所述初始权重和所述依赖关系数据确定每个待分配作业的优先级信息:



其中,n为待分配作业的总个数,wi为待分配作业的优先级信息,m为被依赖作业的序号,wj为被依赖作业的优先级信息。


5.根据权利要求1所述的方法,其特征在于,根据所述优先级信息在所述目标聚类结果中为所述空闲作业节点分配作业,包括:
根据所述优先级信息利用布谷鸟搜索算法在所述目标聚类结果中确定目标待分配作业;
将所述目标待分配作业中无依赖作业或依赖作业已完成的待分配作业分配给所述空闲作业节点。


6.一种分布式批量作业分配装置,其特征在于,包括:
获取模块,用于获取待分配作业的第一资源偏好数据、多个作业节点的第二资...

【专利技术属性】
技术研发人员:肖慧闵杜越郑东欣
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1