一种数据调度方法及系统技术方案

技术编号:15706550 阅读:98 留言:0更新日期:2017-06-26 20:25
本发明专利技术公开了一种数据调度方法及系统,其中方法包括:基于至少一个服务器的历史处理性能数据,确定所述历史处理性能数据中包括的至少一种属性,以及每一种属性对应的至少一种类别;基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型;其中,所述服务器测评模型中包括:由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点;基于所述服务器测评模型,对所述服务器集群中的至少一个服务器进行测评得到针对所述至少一个服务器中的每一个服务器的测评结果;根据所述至少一个服务器中每一个服务器的测评结果进行数据调度。

Data scheduling method and system

The invention discloses a data dispatching method and system, wherein the method comprises the following steps: historical process performance data of at least one server based on determining the historical performance data include at least one attribute, and each attribute corresponding to at least one of the categories; historical performance data based on the at least one a server, the server to establish evaluation model; among them, including the server evaluation model: at least one branch path consisting of at least one attribute and at least one category, and each branch path by the evaluation results of leaf nodes; the server evaluation model based on the at least one server the server in the cluster evaluation obtained for each server evaluation results of the at least one server; according to the at least one Each server in the server is evaluated for data scheduling.

【技术实现步骤摘要】
一种数据调度方法及系统
本专利技术涉及通信领域中的服务器集群管理技术,尤其涉及一种数据调度方法及系统。
技术介绍
随着进入大数据时代,大数据发展已经成为国家战略,随着硬件水平的不断发展,数据中心的软硬件设施性能在不断的提升。其中网络带宽瓶颈不断被突破,目前万兆网络已经成为数据中心的标准配置。服务器的存储和计算能力也遵循摩尔定律不断升级和优化。然而多数基于传统数据分发调度策略已经不能满足当前大数据环境下对于大数据量、实时性数据传输的要求。这些调度策略在一定程度上解决了数据传输中的连接、调度问题,但是已经不适应现在的大数据环境下数据传输需求以及硬件配置的飞速发展。比如,以下几种方式:轮循(RoundRobin),选择这种方式就意味着能力比较弱的服务器也会在下一轮循环中接受轮循,即使这个服务器已经不能再处理当前这个请求了。这可能导致能力较弱的服务器超载。加权轮循(WeightedRoundRobin),管理员只是简单的通过服务器的处理能力来定义各台服务器的权重。最少连接数(LeastConnection),传入的请求是根据每台服务器当前所打开的连接数来分配的。即活跃连接数最少的服务器会自动接收下一个传入的请求。但是,如果所有的服务器是相同的,那么基本上总是会优先选择第一台服务器。最少连接数慢启动时间(LeastConnectionSlowStartTime),基于管理人员配置的过渡时间进行处理。加权最少连接(WeightedLeastConnection),也是需要由管理员根据服务器情况定制的权重所决定的活跃连接数,来进行数据调度。固定权重(FixedWeighted),这种方式中每个真实服务器的权重需要基于服务器优先级来配置。加权响应(WeightedResponse),这种方式假定服务器心跳检测是基于机器的快慢,但是这种假设也许不总是能够成立。源IP哈希(SourceIPHash),对于同一主机来说他对应的服务器总是相同,使用这种方式,可能导致服务器负载不平衡。可以看出,上述现有技术中提供的多种调度方式,都无法保证根据服务器的属性进行性能的分析进而进行调度,从而无法为数据调度的及时处理提供保证。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据调度方法及系统,能至少解决现有技术中存在的上述问题。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术实施例提供了一种数据调度方法,所述方法包括:基于至少一个服务器的历史处理性能数据,确定所述历史处理性能数据中包括的至少一种属性,以及每一种属性对应的至少一种类别;基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型;其中,所述服务器测评模型中包括:由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点;基于所述服务器测评模型,对所述服务器集群中的至少一个服务器进行测评得到针对所述至少一个服务器中的每一个服务器的测评结果;根据所述至少一个服务器中每一个服务器的测评结果进行数据调度。本专利技术实施例提供了一种数据调度系统,包括:数据预处理单元,用于基于至少一个服务器的历史处理性能数据,确定所述历史处理性能数据中包括的至少一种属性,以及每一种属性对应的至少一种类别;模型建立单元,用于基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型;其中,所述服务器测评模型中包括:由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点;服务器测评单元,用于基于所述服务器测评模型,对所述服务器集群中的至少一个服务器进行测评得到针对所述至少一个服务器中的每一个服务器的测评结果;调度单元,用于根据所述至少一个服务器中每一个服务器的测评结果进行数据调度。本专利技术实施例提供了数据调度方法及系统,首先根据服务器集群中各个服务器对应的历史处理性能数据的至少一种属性以及至少一个类别,建立服务器决策模型,进而对机器性能数据进行实时计算从而判断机器是空闲还是繁忙状态,基于此判断结果将数据分发到较为空闲到机器上去。如此,充分考虑到机器性能的多种属性,基于多种属性进行性能分析,进而提升数据调度的准确性,提升数据处理的及时性。附图说明图1为本专利技术实施数据调度方法流程示意图;图2为本专利技术实施例模型建立方法流程示意图;图3为本专利技术实施例数据调度系统组成结构示意图。具体实施方式下面结合附图及具体实施例对本专利技术再作进一步详细的说明。实施例一、本实施例提供了一种数据调度方法,如图1所示,所述方法包括:步骤101:基于至少一个服务器的历史处理性能数据,确定所述历史处理性能数据中包括的至少一种属性,以及每一种属性对应的至少一种类别;步骤102:基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型;其中,所述服务器测评模型中包括:由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点;步骤103:基于所述服务器测评模型,对所述服务器集群中的至少一个服务器进行测评得到针对所述至少一个服务器中的每一个服务器的测评结果;步骤104:根据所述至少一个服务器中每一个服务器的测评结果进行数据调度。本实施例提供的方法可以应用于服务器集群中。所述服务器测评模型中的测评结果即叶子节点可以为服务器的空闲程度,比如,可以为服务器空闲、繁忙以及正常。进一步地,本实施例中基于至少一个服务器的历史处理性能数据,确定所述历史处理性能数据中包括的至少一种属性,以及每一种属性对应的至少一种类别,可以为一种预处理操作。其中,所述历史处理性能数据还可以包括:服务器的标识信息、服务器的空闲程度等信息。所述至少一种属性可以有CPU空闲情况、内存占用情况、网络拥塞情况、磁盘读写情况、客户端连接数量等。相应的类别可以有CPU空闲、繁忙、正常,内存占用高、内存占用正常、内存占用低,网络拥塞情况严重、网络拥塞情况正常、网络拥塞情况无,磁盘读写情况正常、磁盘读写情况异常,客户端链接数量多、客户端链接数量少、客户端连接数量正常等等。具体的,假设有一数据集D,数据集D的属性为A1、A2、…、Ak,将其标注为c1、c2、…、cn这n个类别。比如,集群中机器的属性:网络IO、硬盘IO、CPU、内存等作为属性数据集,把每个属性的繁忙程度作为类别,如空闲、繁忙、适中等。所述基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型,包括:基于所述历史处理性能数据中的至少一种属性对应的类别,计算得到所述历史处理性能数据的熵,并分别计算每一种属性对应的熵;基于每一种属性的熵以及历史处理性能数据的熵,确定每一种属性的信息增益,基于所述每一种属性的信息增益对所述至少一种属性进行排序,得到排序后的至少一种属性;基于所述至少一种属性的排序,建立由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点。在本步骤中,基于数据预处理后的数据集构建分类器,此步骤中使用ID3决策树算法进行实现。决策树算法通过递归地分隔训练数据,每一个递归都选择最佳分类属性作为分隔当前数据集的属性,最佳分类属性的选择通过混杂度函数实现;ID3决策树算法使用信息增量作为混杂度函数,信息增益基于信息论中的本文档来自技高网
...
一种数据调度方法及系统

【技术保护点】
一种数据调度方法,其特征在于,所述方法包括:基于至少一个服务器的历史处理性能数据,确定所述历史处理性能数据中包括的至少一种属性,以及每一种属性对应的至少一种类别;基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型;其中,所述服务器测评模型中包括:由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点;基于所述服务器测评模型,对所述服务器集群中的至少一个服务器进行测评得到针对所述至少一个服务器中的每一个服务器的测评结果;根据所述至少一个服务器中每一个服务器的测评结果进行数据调度。

【技术特征摘要】
1.一种数据调度方法,其特征在于,所述方法包括:基于至少一个服务器的历史处理性能数据,确定所述历史处理性能数据中包括的至少一种属性,以及每一种属性对应的至少一种类别;基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型;其中,所述服务器测评模型中包括:由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点;基于所述服务器测评模型,对所述服务器集群中的至少一个服务器进行测评得到针对所述至少一个服务器中的每一个服务器的测评结果;根据所述至少一个服务器中每一个服务器的测评结果进行数据调度。2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个服务器的历史处理性能数据,建立服务器测评模型,包括:基于所述历史处理性能数据中的至少一种属性对应的类别,计算得到所述历史处理性能数据的熵,并分别计算每一种属性对应的熵;基于每一种属性的熵以及历史处理性能数据的熵,确定每一种属性的信息增益,基于所述每一种属性的信息增益对所述至少一种属性进行排序,得到排序后的至少一种属性;基于所述至少一种属性的排序,建立由至少一个属性以及至少一个类别构成的至少一条分支路径,以及由测评结果构成的每一条分支路径的叶子节点。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当在所述服务器集群中添加新的服务器时,采集所述新的服务器的处理性能数据;对所述新的服务器的处理性能数据进行处理,得到至少一个属性以及至少一个类型;利用至少一个属性以及至少一个类型以及所述服务器测评模型,确定所述新的服务器的测评结果。4.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个服务器中每一个服务器的测评结果进行数据调度,包括:确定需要分配目标数据时,基于服务器集群中至少一个服务器对应的处理能力的测评结果,选取得到符合第一预设条件的目标服务器,其中,所述第一预设条件表征目标服务器的所述处理能力的测评结果为空闲;将所述目标数据调度至所述目标服务器。5.根据权利要求4所述的方法,其特征在于,所述将所述目标数据调度至所述目标服务器之后,所述方法还包括:获取所述目标服务器针对所述目标数据进行处理的处理时长;判断所述处理时长是否大于预设门限值,若大于预设门限值,则控制重新建立服务器测评模型。6.根据权利要求5所述的方法,其特征在于,所述重新建立服务器测评模型,包括:将当前服务器评测模型中的根节点对应的属性删除;再基于所述至少一个服务器的历史处理性能...

【专利技术属性】
技术研发人员:张宝海鲍媛媛
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1