多中心数据任务处理方法、装置及系统制造方法及图纸

技术编号:8834116 阅读:143 留言:0更新日期:2013-06-22 20:23
本发明专利技术公开了一种多中心数据任务处理方法、装置及系统。其中该方法包括:A、采集数据任务信息;B、根据所述数据任务信息生成数据任务模型图,对所述数据任务模型图进行切割,即对所述数据任务模型图中的所有节点分组,其中,所述数据任务模型图中的节点为各个数据任务;C、将不同组的数据任务部署到相应的数据中心。本发明专利技术的多中心数据任务处理方法、装置及系统,通过建立体现数据任务之间的关联关系的模型,基于该模型进行多中心任务分配,使得任务分配更加的直观准确,更加均衡。避免数据的大量迁移和冗余,各个中心之间传输的数据量较小,降低网络负荷的压力,提高总体的数据处理效率,保证多个数据中心之间负荷基本相同。

【技术实现步骤摘要】

本专利技术涉及一种业务支撑技术,尤其涉及一种多中心数据任务处理方法、装置及系统
技术介绍
出于安全的考虑,企业通常会建立两个或多个数据处理中心,实现容灾。而在日常则会采用任务分配的方式使负载在数据处理中心间均摊,每个数据处理中心处理不同的任务,处理存储不同的数据,特别是复杂的非直接面向应用的中间数据。然而由于数据间存在复杂的关联关系,往往一个数据处理需要依赖多个数据来源,非常可能是另外一个数据中心处理的数据结果,这样就需要数据从某个中心导出,再经过网络传输,导入到需要计算的中心,而这个过程时间消耗很大,大大降低了系统总体处理效率。如何对双中心进行任务分配是双中心或多中心工作的一个重点问题。常见的任务分配方式有很多,有动态的和固定的。动态的分配有轮询算法、随机分配算法、最小连接算法、最快响应算法、链路带宽算法等等。固定分配算法主要按专家意见。对于数据处理型系统例如数据仓库系统而言,动态的任务分配算法并不适用,因为需要将任务分配动作和数据分配动作同步执行,而数据同步会花费更多的传输时间和加载时间。固定分配是被广泛采用的,计算任务主要按数据所在位置分配。目前固定分配算法多采用专家意见进行定性划分,手动调整,例如按照应用或者按照地域划分,这种划分通常是周期性的由人工进行规划,规划时基于当时所统计的数据进行,很难保证最优的分配,会导致数据多处存放冗余、数据传输量大、计算重复、无法形成统一视图等一系列的问题。例如在中国移动的经分系统的两级系统可以认为是按地域划分的一种方式,如图所示,为了实现省级经分中按地域的统计需要建立一级经营分析系统,实现汇总数据的中心,实现全国级的数据计算。而以前中国联通的经分仅建设了省级经分,未建设一级经分,因此不能实现全网的数据分析,不得不重新建立总部经分系统。另外,现有技术中还有其他的实现方案:一、例如专利申请号为200610170646.X,专利技术名称为《分布式数据中心逻辑统一的实现方法及系统》中描述了一种分布式数据中心逻辑统一的实现方法,各数据中心采用顾客信息控制Cics作为连接客户端与数据中心的应用服务器;该方法包括步骤:通过将各数据中心对应的CICS互连建立各数据中心通讯;客户端接收数据处理请求,确定数据处理属于跨数据中心时,将客户端和服务器端有关数据处理的会计分录合并在客户端。此专利技术提供一种分布式数据中心逻辑统一的系统。该专利的方法仅适用于简单计算,数据粒度较粗,数据量较少的场景下,才可以在CICS配合下在客户端实现合并,但是在数据计算流程通常比较复杂,数据量很大,数据粒度细,并不能解决目前跨中心的数据仓库类系统或海量数据处理类系统的任务分配问题。二、google在单数据中心的云计算部署有着先进的技术,通过Map-reduce和GFS机制获得单数据中心的数据并行处理。而类google架构的hadoop开源同样专注于单数据中心内的数据并行处理。他们在跨数据中心的任务分配的完整性和隔离性上仍未能很好解决,主要采用按地域或应用划分计算任务,例如google map部署于一个数据中心,而googlemail部署于另一个数据中心,之间并无数据顺序计算与调度关系。现有常用的方法有以下缺点:1、现有的动态分配算法适用于数据无关或不与海量数据相关的计算,不适用于数据量巨大的计算场景,会造成数据的大量迁移和数据的大量冗余;2、现有的固定分配方法通常以地域应用划分,通常是基于很长时间的统计信息,很难保证最优的分配,会导致数据多处存放冗余、数据传输量大、计算重复、无法形成统一视图等一系列的问题;3、基于客户端做合并的方法也不适用于数据量巨大的计算;4、基于单中心的数据计算分配与并行处理,由于并非考虑数据中心间的数据同步和数据迁移,因此同样不适用于跨数据中心的数据计算。
技术实现思路
本专利技术的目的在于,提供一种多中心数据任务处理方法、装置及系统,适用于数据量巨大且关联度复杂的多中心计算需求,任务分配更加均衡。为实现上述目的,根据本专利技术的一个方面,提供一种多中心数据任务处理方法,包括:A、采集数据任务信息;B、根据所述数据任务信息生成数据任务模型图,对所述数据任务模型图进行切害IJ,即对所述数据任务模型图中的所有节点分组,其中,所述数据任务模型图中的节点为各个数据任务;C、将不同组的数据任务部署到相应的数据中心。步骤B中,根据所述数据任务信息生成数据任务模型图包括:生成每个节点的节点信息,所述节点信息包括:该数据任务单次计算输出数据量、处理需要的总存储量和处理需要的计算量;生成节点之间的连接关系(边),所述边为节点之间的计算关系及数据流向,所述边包括:数据流向的起点和终点。步骤B中,根据所述数据任务信息生成数据任务模型图后还包括:在所述数据任务模型图中,当第一节点输出的数据仅用于计算第二节点,合并所述第一节点和第二节点;和/或当第一节点的输出到第二节点的输出的数据为静态数据时,合并所述第一节点和第二节点;和/或当第一节点和第二节点之间的数据流量小于预设的第一门限,删除该两节点之间的边,当第一节点仅与第二节点连接时,同时删除所述第一节点。具体地,对所述数据任务模型图进行切割包括:按照数据任务的执行顺序将所述数据任务模型图中的节点分层;从数据量大的层开始进行切割。优选地,该方法还包括:计算每层节点切割后的切割数据量,切割数据量为被切割的边中数据流向的起点的单次计算输出数据量之和;根据所述切割数据量选择该层节点的切割方案。更优地,该方法还包括:对每层节点切割后,计算切割后每组节点的处理需要的总存储量之和及处理需要的计算量之和;计算每组节点对应数据中心的计算量负载度和存储量负载度,所述计算量负载度为每组节点的处理需要的计算量之和除以对应数据中心总计算量,所述存储量负载度为每组节点的处理需要的总存储量之和除以对应数据中心总存储量;计算所述数据中心的计算量负载度两两之间的差值,得到计算量不均衡度;计算所述数据中心的存储量负载度两两之间的差值,得到存储量不均衡度;根据所述计算量不均衡度和存储量不均衡度选择该层节点的切割方案。步骤A之后还包括:监控多个数据中心的不均衡度,当所述不均衡度大于预设门限时,执行步骤B。监控多个数据中心不均衡度包括:获取各个数据中心的当前任务处理量及其最大任务处理量,计算各个数据中心的负载度,即用数据中心的当前任务处理量除以最大任务处理量;计算所述数据中心的负载度两两之间的差值即得到数据中心的不均衡度;和/或获取各个数据中心的CPU负荷及存储占用率,计算所有数据中心的平均CPU负荷和平均存储占用率;计算各数据中心的CPU负荷与平均CPU负荷的差值的绝对值,并将得到的绝对值求和得到数据中心的CPU负荷不均衡度;计算各数据中心的存储占用率与平均存储占用率的差值的绝对值,并将得到的绝对值求和得到数据中心的存储不均衡度。为实现上述目的,根据本专利技术的另一个方面,提供一种数据任务分配装置,包括:建模单元,用于根据数据任务信息生成数据任务模型图,其中,所述数据任务模型图中的节点为各个数据任务;切割单元,用于对所述数据任务模型图进行切割,即对所述数据任务模型图中的所有节点分组;部署单元,用于将不同组的数据任务部署到相应的数据中心。其中,建模单元,用于生成每个节点的节点信息,所述节点信息包括:该数据任本文档来自技高网
...

【技术保护点】
一种多中心数据任务处理方法,其特征在于,包括:A、采集数据任务信息;B、根据所述数据任务信息生成数据任务模型图,对所述数据任务模型图进行切割,即对所述数据任务模型图中的所有节点分组,其中,所述数据任务模型图中的节点为各个数据任务;C、将不同组的数据任务部署到相应的数据中心。

【技术特征摘要】
1.一种多中心数据任务处理方法,其特征在于,包括: A、采集数据任务信息; B、根据所述数据任务信息生成数据任务模型图,对所述数据任务模型图进行切割,即对所述数据任务模型图中的所有节点分组,其中,所述数据任务模型图中的节点为各个数据任务; C、将不同组的数据任务部署到相应的数据中心。2.根据权利要求1所述的多中心数据任务处理方法,其特征在于,所述步骤B中,根据所述数据任务信息生成数据任务模型图包括: 生成每个节点的节点信息,所述节点信息包括:该数据任务单次计算输出数据量、处理需要的总存储量和处理需要的计算量; 生成节点之间的连接关系(边),所述边为节点之间的计算关系及数据流向,所述边包括:数据流向的起点和终点。3.根据权利要求2所述的多中心数据任务处理方法,其特征在于,所述步骤B中,根据所述数据任务信息生成数据任务模型图后还包括: 在所述数据任务模型图中,当第一节点输出的数据仅用于计算第二节点,合并所述第一节点和第二节点; 和/或当第一节点的输出到第二节点的输出的数据为静态数据时,合并所述第一节点和第二节点; 和/或当第一节点和第二节点之间的数据流量小于预设的第一门限,删除该两节点之间的边,当第一节点仅与第二节点连接时,同时删除所述第一节点。4.根据权利要求2或3所述的多中心数据任务处理方法,其特征在于,所述对所述数据任务模型图进行切割包括: 按照数据任务的执行顺序将所述数据任务模型图中的节点分层;从数据量大的层开始进行切割。5.根据权利要求4所述的多中心数据任务处理方法,其特征在于,还包括: 计算每层节点切割后的切割数据量,切割数据量为被切割的边中数据流向的起点的单次计算输出数据量之和; 根据所述切割数据量选择该层节点的切割方案。6.根据权利要求4或5所述的多中心数据任务处理方法,其特征在于,还包括: 对每层节点切割后,计算切割后每组节点的处理需要的总存储量之和及处理需要的计算量之和; 计算每组节点对应数据中心的计算量负载度和存储量负载度,所述计算量负载度为每组节点的处理需要的计算量之和除以对应数据中心总计算量,所述存储量负载度为每组节点的处理需要的总存储量之和除以对应数据中心总存储量; 计算所述数据中心的计算量负载度两两之间的差值,得到计算量不均衡度;计算所述数据中心的存储量负载度两两之间的差值,得到存储量不均衡度; 根据所述计算量不均衡度和存储量不均衡度选择该层节点的切割方案。7.根据权利要求1所述的多中心数据任务处理方法,其特征在于,所述步骤A之后还包括:监控多个数据中心的不均衡度,当所述不均衡度大于预设门限时,执行步骤B。8.根据权利要求7所述的多中心数据任务处理方法,其特征在于,所述监控多个数据中心不均衡度包括: 获取各个数据中心的当前任务处理量及其最大任务处理量,计算各个数据中心的负载度,即用数据中心的当前任务处理量除以最大任务处理量;计算所述数据中心的负载度两两之间的差值即得到数据中心的不均衡度; 和/或获取各个数据中心的CPU负荷及存储占用率,计算所有数据中心的平均CPU负荷和平均存储占用率;计算各数据中心的CPU负荷与平均CPU负荷的差值的绝对值,并将得到的绝对值求和得到数据中心的CPU负荷不均衡度;计算各数据中心的存储占用率与平均存储占用率的差值的绝对值,并将得到的绝对值求和得到数据中心的存储不均衡度。9.一种数据任务分配装置,其特征在于,包括: 建模单元,用于根据数据任务信息生成数据任务模型图,其中,所述数据任务模型图中的节点为各个数据任务; 切...

【专利技术属性】
技术研发人员:尚晶袁向阳孙少陵
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1