服务提供方法以及使用该方法的装置制造方法及图纸

技术编号:7758906 阅读:116 留言:0更新日期:2012-09-14 00:31
本发明专利技术公开了一种服务提供方法和服务提供装置。该服务提供方法包括:收集有关配置至少一个服务并在多个节点中动态分布安排的多个任务的运行状态信息;和基于有关所述多个收集的任务的运行状态信息来运行调度,其中所述多个任务中的每一个具有至少一个输入源和一个输出源,要对于每一输入源处理的数据单位和数据处理操作由用户定义,并且该调度通过参考所定义的数据单位而删除输入到至少一个任务的数据的至少一部分,或者该调度在至少一个复制任务中处理。本发明专利技术的示范实施例可有效地提供大容量流数据的接近实时分析和处理服务。

【技术实现步骤摘要】

本专利技术涉及服务提供方法以及服务提供装置,并更具体地,涉及能够考虑到各种应用环境来有效提供大容量流数据的接近实时分析和处理服务的服务提供方法以及服务提供装置。
技术介绍
由于无处不在(ubiquitous)的计算环境的引入以及以用户为中心的因特网服务市场的快速发展,所以要处理的数据量已迅速增加,并且也已使得数据的类型更多样化。所以,已进行各种分布(distributed)数据处理研究,以便提供用于大容量数据的接近实时分析和处理服务。作为各种分布数据处理研究之一,图I是示出了根据现有技术的用于处理大容量数据的并行分布处理结构的一个示范实施例的示意图。参考图I,服务100包括单一输入源(输入源I) 100和单一输出源(输出源I) 130,并由处理来自输入源的数据的多个节点(节点I到节点5) 111到115来运行。该服务可通过组合所提供的算子(operator)并定义数据流图来定义。在该情况下,该数据流图可由在多个节点(节点I到节点5)111到115的每一个中存在的多个数据处理操作(0P I到OP 5) 116到120、以及用于描述在所述多个数据处理操作(0P I到OP5)116到120之间的数据流的有向非循环图(DAG)的定义来表示。这样,服务110被分布安排在簇内的所述多个节点(节点I到节点5) 111到115中,并被并行运行,由此相对快速地支持用于大容量数据的服务。基于上述并行分布处理结构的根据现有技术的用于大容量数据处理的并行分布处理系统将在下面描述。首先,公知Borealis系统是适于并行分布处理流数据的系统,并且提供用于处理流数据的各种算子,例如Union、filter、Tumble、Join等。Borealis系统在分布节点中安排配置这些服务的算子,并并行执行这些算子,由此执行用于大容量流数据的并行分布处理。然而,由于仅可处理整形后的数据并且仅可通过所提供的算子的组合来运行用户的服务定义,所以Borealis系统难以应用到复杂服务技术并与根据服务特性用于数据处理操作的用户的优化技术组合。 其间,MapReduce (映射缩小)系统是为了支持用于在被配置为具有便宜大规模节点的簇上存储的大容量数据的并行分布操作而提出的并行分布处理系统,其可从Google公司得到。MapReduce系统支持用户定义映射和缩小操作,并将所述映射和缩小操作复制到多节点作为多任务,以并行地分布处理大容量数据。Dryad系统是比MapReduce系统更扩展的基于数据流图的并行分布处理系统。在Dryad系统中,用户描述数据处理操作作为顶点(vertex),并且顶点之间的数据传递由信道表示,由此配置服务。一般来说,顶点可对应于节点,而信道可对应于边缘或线。Dryad系统基于有关簇中的节点的负载信息来动态地分布排列这些顶点,从而快速运行用户注册/定义的服务,由此并行处理大容量数据。其间,Hadoop在线系统改善仅在其中MapReduce系统的大容量数据的映射和缩小操作完全结束的情况下才可获得处理结果的缺点,使得用户可甚至在处理过程中获得处理结果的数据。然而,所有MapReduce、Dryad、Hadoop在线系统仅将除了流数据之外的在簇中的文件中存储的存储数据看作处理对象。另外,存在这样的问题,即,MapReduce和Hadoop在线系统仅提供固定的映射和缩小操作,而不支持能够在应用中获得处理结果的各种方法。所以,现有技术不能考虑到各种应用环境而有效提供大容量流数据的接近实时分 析和处理服务。
技术实现思路
已努力作出本专利技术,以提供能够考虑到各种应用环境、而有效提供大容量流数据的接近实时分析和处理服务的服务提供方法和服务提供装置。此外,已努力作出本专利技术,以提供能够通过向多个节点动态地分布排列用户所定义的数据处理操作、而连续并行执行数据处理的服务提供方法和服务提供装置。本专利技术的示范实施例提供一种服务提供方法,包括收集有关配置至少一个服务并在多个节点中动态分布安排的多个任务的运行状态信息;和基于有关所述多个收集的任务的运行状态信息来运行调度,其中所述多个任务中的每一个具有至少一个输入源和一个输出源,要对于每一输入源处理的数据单位和数据处理操作由用户定义,并且该调度通过参考所定义的数据单位而删除输入到至少一个任务的数据的至少一部分,或者该调度在至少一个复制任务中处理。可基于在所述多个任务的每一个中定义的数据划分数目和诸如数据划分方法的与数据划分相关的信息、或基于在所述多个任务的每一个中定义的删除数据量和诸如删除数据选择参考的与数据删除相关的信息,来执行该调度。该调度步骤可进一步包括基于有关所述多个收集的任务的运行状态信息,来确定是否存在不满足服务质量的服务;如果存在,则选择作为不满足的理由的任务;和对于所选择的任务运行该调度。用于所选择的任务的调度可根据在所述多个任务中的资源使用状态信息来删除输入数据的至少一部分,或在所选择的任务的至少一个复制任务中处理。本专利技术的另一示范实施例提供了一种服务提供装置,包括服务运行器管理模块,用于收集有关配置至少一个服务并在多个节点中动态分布安排的多个任务的运行状态信息;和调度和排列模块,用于基于有关所述多个收集的任务的运行状态信息来运行调度,其中所述多个任务中的每一个具有至少一个输入源和一个输出源,要对于每一输入源处理的数据单位和数据处理操作由用户定义,并且该调度通过参考所定义的数据单位而删除输入到至少一个任务的数据的至少一部分,或者该调度在至少一个复制任务中处理。可基于在所述多个任务的每一个中定义的数据划分数目和诸如数据划分方法的与数据划分相关的信息、或基于在所述多个任务的每一个中定义的删除数据量和诸如删除数据选择参考的与数据删除相关的信息,来执行该调度。该调度和排列模块可基于有关所述多个收集的任务的运行状态信息,来确定是否存在不满足服务质量的服务,如果存在,则选择作为不满足的理由的任务,并对于所选择的任务运行该调度。用于所选择的任务的调度可根据在所述多个任务中的资源使用状态信息来删除输入数据的至少一部分,或可在所选择的任务的至少一个复制任务中处理。该服务提供装置可进一步包括服务管理模块,用于控制一般数据分布处理;和任务恢复模块,用于在任务错误时恢复和重新运行任务。、所述多个节点中的每一个可包括一个任务运行器,并且该任务运行器可收集有关位于所述多个节点中的每一节点处的至少一个任务的运行状态信息和资源使用状态信息,以将收集的运行状态信息和资源使用状态信息传递到该数据分布处理装置,并可根据该服务提供装置的调度运行来控制所述至少一个任务的运行。该任务运行器可运行与该服务提供装置的调度运行分离的调度,以控制该运行。该任务运行器处的调度可改变任务运行顺序,以便满足对于每一任务设置的服务质量。本专利技术的另一示范实施例提供了一种服务提供方法,包括传送对于用户定义的服务的运行请求;和接收根据该运行请求运行的服务,其中该服务的运行步骤包括收集有关配置该服务并在多个节点中动态分布安排的多个任务的运行状态信息;和基于有关所述多个收集的任务的运行状态信息来运行调度,其中所述多个任务中的每一个具有至少一个输入源和一个输出源,定义要对于每一输入源处理的数据单位和数据处理操作,并且该调度通过参考所定义的数据单位而删除输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:崔贤花金泳畅金炳摄李明哲金东吾李训淳李美英
申请(专利权)人:韩国电子通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1