【技术实现步骤摘要】
一种云计算环境下的大数据存储和处理平台及处理方法
本专利技术涉及云计算环境下的大数据存储及处理的
,更具体地说,涉及一种云计算环境下的大数据存储和处理平台及处理方法。
技术介绍
云计算与大数据的迅速发展孵化了一批云服务商。而根据他们提供的服务类型,可以将云服务分为三个层面,IaaS(InfrastructureasaService)、PaaS(PlatformasaService)以及SaaS(SoftwareasaService)。针对PaaS(平台即服务)它包括离线数据处理、海量数据在线服务等应用场景。它允许用户按需灵活创建云端集群以及快速简易地使用数据存储及处理服务,主要包括自定义集群软硬件基础设施、丰富的集群作业类型,也可以定制集群作业的执行策略。通过将业务集群托管到云端,可以简化集群的部署、管理及监控,也能够提高集群的可扩展性、可靠性以及安全性,还能够降低企业的成本。针对云计算环境下资源的弹性供给以及不同类型的数据存储及处理需求,构建一个基于云计算的并提供各种不同的数据存储服务以及处理转换分析服务的大数据平台是当下云服务商亟需探索研究的内容。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种云计算环境下的大数据存储和处理平台及处理方法,实现针对离线数据处理、实时数据处理以及交互式查询的统一存储、处理。为了达到上述目的,本专利技术采用以下技术方案:本专利技术提供了一种云计算环境下的大数据存储和处理平台,包括:集群计算框架、集群资源管理器、存储系统、弹性集群管理中心,以及应用程序框架,所述集群计算框架,用于对用户提交的作业针 ...
【技术保护点】
一种云计算环境下的大数据存储和处理平台,其特征在于,包括:集群计算框架、集群资源管理器、存储系统、弹性集群管理中心,以及应用程序框架;所述集群计算框架,用于对用户提交的作业针对不同的业务处理需求进行批处理、流式处理以及交互式处理操作;所述集群资源管理器,用于负责管理及调度集群资源和作业;所述存储系统,用于负责输入数据集、处理结果及日志信息的存储管理;所述弹性集群管理中心,用于负责接收用户的请求、管理用户提交的工作流、监控集群和作业的执行状况、管理集群的配置信息、引导集群和应用程序框架以及保证整个集群的运行是可靠的;所述应用程序框架,用于构建数据仓库、为大型数据集提供更高层次的抽象处理以及准实时处理;所述弹性集群管理中心包括用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器、以及集群管理控制器6个模块;所述用户请求处理器,用于负责接收来自管理客户端、管理接口以及管理命令行用户的请求,并将它转发给相应组成部分;所述集群配置管理器,用于负责管理集群的配置信息,包括集群虚拟机配置信息、作业配置信息、集群运行策略、以及作业执行策略;所述集群引导管理器,用于负责集群虚拟 ...
【技术特征摘要】
1.一种云计算环境下的大数据存储和处理平台,其特征在于,包括:集群计算框架、集群资源管理器、存储系统、弹性集群管理中心,以及应用程序框架;所述集群计算框架,用于对用户提交的作业针对不同的业务处理需求进行批处理、流式处理以及交互式处理操作;所述集群资源管理器,用于负责管理及调度集群资源和作业;所述存储系统,用于负责输入数据集、处理结果及日志信息的存储管理;所述弹性集群管理中心,用于负责接收用户的请求、管理用户提交的工作流、监控集群和作业的执行状况、管理集群的配置信息、引导集群和应用程序框架以及保证整个集群的运行是可靠的;所述应用程序框架,用于构建数据仓库、为大型数据集提供更高层次的抽象处理以及准实时处理;所述弹性集群管理中心包括用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器、以及集群管理控制器6个模块;所述用户请求处理器,用于负责接收来自管理客户端、管理接口以及管理命令行用户的请求,并将它转发给相应组成部分;所述集群配置管理器,用于负责管理集群的配置信息,包括集群虚拟机配置信息、作业配置信息、集群运行策略、以及作业执行策略;所述集群引导管理器,用于负责集群虚拟机以及计算框架的启动及关闭,以及其它应用程序的引导操作,另外,集群引导管理器也负责调用集群资源重分配的接口;所述作业流程管理器,用于负责根据用户提交到集群配置管理器的作业相关配置来对整个作业流进行管理与监控;所述集群状态监视器,用于负责收集集群整体的运行状况并对其进行简单的性能分析、评估及展示;所述集群管理控制器,用于负责监控用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器五个模块的运行,保证整个弹性集群管理中心正常工作。2.根据权利要求1所述云计算环境下的大数据存储和处理平台的处理方法,其特征在于,该方法包括集群配置初始化并创建集群、向集群提交作业流、作业流调度执行、集群资源重新分配、终止集群及获取处理结果这五个方面的流程步骤,具体的实现步骤如下:S1、集群配置初始化并创建集群:用户登录到集群管理控制台前,需在最佳的外部存储上创建输入数据集、脚本文件的存储目录;然后,用户初始化集群配置和设置集群的运行策略,集群配置包括选择不同类型下的不同规格的虚拟机节点并选择出主节点;此时,用户若选择立即启动虚拟机集群,则弹性集群管理中心的集群引导管理器会加载集群配置管理器中的集群引导操作的相关配置信息,并引导启动虚拟机集群;S2、向集群提交作业流:启动虚拟机集群后,用户向集群提交一系列作业步骤,在提交作业步骤时,需要指定输入数据集、脚本文件、集群日志文件位置以及脚本文件的运行参数信息;与此同时,用户可设置作业步骤的调度策略,这些作业配置信息会提交给弹性集群管理中心的用户请求处理器,最终会交由集群配置管理器进行存储管理;在作业步骤配置完后,可选择立刻调度执行,则集群引导管理器会启动集群计算框架及可选的应用程序,并通知集群的主节点根据集群配置信息通过专用网络拷贝存储在外部存储的输入数据集及脚本数据,之后,集群资源管理器会给各节点分配资源,并开始调度执行当前作业步骤;S3、作业流调度执行:在作业的运行过程中,集群资源管理器会向集群主节点反馈各节点的资源负载及作业执行状况,这些信息会通过主节点最终汇报给弹性集群管理中心的作业流程管理器以及集群状态监视器,作业流程管理器根据集群配置管理器中的作业相关配置信息,对用户提交的作业流进行监控管理,其主要侧重于对作业流的管理与监控,以及对作业步骤的宏观调度,而集群控制管理器会保障集群各个模块的正常运行,恢复并重新启动故障模块;S4、集群资...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。