一种云计算环境下的大数据存储和处理平台及处理方法技术

技术编号:17779474 阅读:26 留言:0更新日期:2018-04-22 07:51
本发明专利技术公开了一种云计算环境下的大数据存储和处理平台及处理方法,平台包括:集群计算框架,用于对用户提交的作业针对不同的业务处理需求处理操作;集群资源管理器,用于负责管理及调度集群资源和作业;存储系统,用于负责数据的存储管理;弹性集群管理中心,用于负责接收用户的请求、管理用户提交的工作流、监控集群和作业的执行状况、管理集群的配置信息、引导集群和应用程序框架以及保证整个集群的运行的可靠性;应用程序框架,用于构建数据仓库、为大型数据集提供更高层次的抽象处理以及准实时处理;本发明专利技术能够提供各种数据处理业务场景需求的解决方案,相比传统的数据存储、处理方式,更高效、更可靠、更灵活、更简易、更安全且更经济。

【技术实现步骤摘要】
一种云计算环境下的大数据存储和处理平台及处理方法
本专利技术涉及云计算环境下的大数据存储及处理的
,更具体地说,涉及一种云计算环境下的大数据存储和处理平台及处理方法。
技术介绍
云计算与大数据的迅速发展孵化了一批云服务商。而根据他们提供的服务类型,可以将云服务分为三个层面,IaaS(InfrastructureasaService)、PaaS(PlatformasaService)以及SaaS(SoftwareasaService)。针对PaaS(平台即服务)它包括离线数据处理、海量数据在线服务等应用场景。它允许用户按需灵活创建云端集群以及快速简易地使用数据存储及处理服务,主要包括自定义集群软硬件基础设施、丰富的集群作业类型,也可以定制集群作业的执行策略。通过将业务集群托管到云端,可以简化集群的部署、管理及监控,也能够提高集群的可扩展性、可靠性以及安全性,还能够降低企业的成本。针对云计算环境下资源的弹性供给以及不同类型的数据存储及处理需求,构建一个基于云计算的并提供各种不同的数据存储服务以及处理转换分析服务的大数据平台是当下云服务商亟需探索研究的内容。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种云计算环境下的大数据存储和处理平台及处理方法,实现针对离线数据处理、实时数据处理以及交互式查询的统一存储、处理。为了达到上述目的,本专利技术采用以下技术方案:本专利技术提供了一种云计算环境下的大数据存储和处理平台,包括:集群计算框架、集群资源管理器、存储系统、弹性集群管理中心,以及应用程序框架,所述集群计算框架,用于对用户提交的作业针对不同的业务处理需求进行批处理、流式处理以及交互式处理操作;所述集群资源管理器,用于负责管理及调度集群资源和作业;所述存储系统,用于负责输入数据集、处理结果及日志信息的存储管理;所述弹性集群管理中心,用于负责接收用户的请求、管理用户提交的工作流、监控集群和作业的执行状况、管理集群的配置信息、引导集群和应用程序框架以及保证整个集群的运行是可靠的;所述应用程序框架,用于构建数据仓库、为大型数据集提供更高层次的抽象处理以及准实时处理;所述弹性集群管理中心包括用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器、以及集群管理控制器6个模块;所述用户请求处理器,用于负责接收来自管理客户端、管理接口以及管理命令行用户的请求,并将它转发给相应组成部分;所述集群配置管理器,用于负责管理集群的配置信息,包括集群虚拟机配置信息、作业配置信息、集群运行策略、以及作业执行策略;所述集群引导管理器,用于负责集群虚拟机以及计算框架的启动及关闭,以及其它应用程序的引导操作,另外,集群引导管理器也负责调用集群资源重分配的接口;所述作业流程管理器,用于负责根据用户提交到集群配置管理器的作业相关配置来对整个作业流进行管理与监控;所述集群状态监视器,用于负责收集集群整体的运行状况并对其进行简单的性能分析、评估及展示;所述集群管理控制器,用于负责监控用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器五个模块的运行,保证整个弹性集群管理中心正常工作。本专利技术还提供了一种云计算环境下的大数据存储和处理平台的处理方法,该方法包括集群配置初始化并创建集群、向集群提交作业流、作业流调度执行、集群资源重新分配、终止集群及获取处理结果这五个方面的流程步骤,具体的实现步骤如下:S1、集群配置初始化并创建集群:用户登录到集群管理控制台前,需在最佳的外部存储上创建输入数据集、脚本文件的存储目录;然后,用户初始化集群配置和设置集群的运行策略,集群配置包括选择不同类型下的不同规格的虚拟机节点并选择出主节点;此时,用户若选择立即启动虚拟机集群,则弹性集群管理中心的集群引导管理器会加载集群配置管理器中的集群引导操作的相关配置信息,并引导启动虚拟机集群;S2、向集群提交作业流:启动虚拟机集群后,用户向集群提交一系列作业步骤,在提交作业步骤时,需要指定输入数据集、脚本文件、集群日志位置以及脚本文件的运行参数信息;与此同时,用户可设置作业步骤的调度策略,这些作业配置信息会提交给弹性集群管理中心的用户请求处理器,最终会交由集群配置管理器进行存储管理;在作业步骤配置完后,可选择立刻调度执行,则集群引导管理器会启动集群计算框架及可选的应用程序,并通知集群的主节点根据集群配置信息通过专用网络拷贝存储在外部存储的输入数据集及脚本数据,之后,集群资源管理器会给各节点分配资源,并开始调度执行当前作业步骤;S3、作业流调度执行:在作业的运行过程中,集群资源管理器会向集群主节点反馈各节点的资源负载及作业执行状况,这些信息会通过主节点最终汇报给弹性集群管理中心的作业流程管理器以及集群状态监视器,作业流程管理器根据集群配置管理器中的作业相关配置信息,对用户提交的作业流进行监控管理,其主要侧重于对作业流的管理与监控,以及对作业步骤的宏观调度,而集群控制管理器会保障集群各个模块的正常运行,恢复并重新启动故障模块;S4、集群资源重新分配:用户在作业执行的过程中,实时对集群资源进行重分配;用户通过控制台提交修改后的集群配置信息,修改后的集群配置信息会通过用户请求处理器,最终交由集群配置管理器,以重新给集群分配资源,而对于集群自动调整资源分布,是由集群配置管理器、集群管理控制器、集群状态监视器以及集群引导管理器四个模块的协调工作,以达到集群资源自动重分配的目的;S5、终止集群及获取处理结果:当用户提交的整个作业流调度完毕后,集群主节点会删除集群虚拟机节点的缓存,并且会将作业的处理结果及集群日志拷贝到用户设置的相应的外部存储,而此时作业流程管理器会加载集群配置管理器的配置信息以调用集群引导管理器,对集群执行关闭操作,或者保持集群持续运行。作为优选的技术方案,步骤S1中,所述最佳外部存储的实践,即将安全性、高效性及可扩展性作为集群数据源的选择依据,并选择性创建集群运行日志存储目录。作为优选的技术方案,步骤S4中,所述集群资源重新分配是通过自动及手动的方式进行,每种分配方式都包括粗粒度的伸缩集群节点,以及细粒度的调整实例节点的处理器核心数量、处理进程数和对应的线程数。作为优选的技术方案,弹性集群管理中心的集群引导管理器通过与集群主节点进行通信,以触发添加或移除集群节点的接口,以及调整集群节点资源的接口,通过调试接口对集群资源进行粗粒度的动态添加或移除虚拟机,或重新设置集群实例节点的内存容量、处理器核心数量,甚至针对某些作业可以细化到工作进程数量以及每个工作进程所包含的线程数。作为优选的技术方案,弹性集群管理中心的集群状态监视器会实时监控集群的健康状况,并进行简单的分析、评估以及可视化的操作;通过集群配置管理器、集群状态监视器、集群引导管理器以及集群管理控制器这四个模块的协调工作可以自动伸缩集群节点,以及动态的更改集群实例节点的内存容量、处理器核心数量。作为优选的技术方案,集群节点的动态伸缩操作,会考虑到集群节点数据的一致性及均衡性,当集群有大量闲置节点时,在调用动态从集群移除实例节点的接口前,会将节点存储的数据进行转存储,而当有新的虚拟机节点加入集群时,在默认情况下,集群也会进行集群数据的均衡操作。作为优选的技本文档来自技高网...
一种云计算环境下的大数据存储和处理平台及处理方法

【技术保护点】
一种云计算环境下的大数据存储和处理平台,其特征在于,包括:集群计算框架、集群资源管理器、存储系统、弹性集群管理中心,以及应用程序框架;所述集群计算框架,用于对用户提交的作业针对不同的业务处理需求进行批处理、流式处理以及交互式处理操作;所述集群资源管理器,用于负责管理及调度集群资源和作业;所述存储系统,用于负责输入数据集、处理结果及日志信息的存储管理;所述弹性集群管理中心,用于负责接收用户的请求、管理用户提交的工作流、监控集群和作业的执行状况、管理集群的配置信息、引导集群和应用程序框架以及保证整个集群的运行是可靠的;所述应用程序框架,用于构建数据仓库、为大型数据集提供更高层次的抽象处理以及准实时处理;所述弹性集群管理中心包括用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器、以及集群管理控制器6个模块;所述用户请求处理器,用于负责接收来自管理客户端、管理接口以及管理命令行用户的请求,并将它转发给相应组成部分;所述集群配置管理器,用于负责管理集群的配置信息,包括集群虚拟机配置信息、作业配置信息、集群运行策略、以及作业执行策略;所述集群引导管理器,用于负责集群虚拟机以及计算框架的启动及关闭,以及其它应用程序的引导操作,另外,集群引导管理器也负责调用集群资源重分配的接口;所述作业流程管理器,用于负责根据用户提交到集群配置管理器的作业相关配置来对整个作业流进行管理与监控;所述集群状态监视器,用于负责收集集群整体的运行状况并对其进行简单的性能分析、评估及展示;所述集群管理控制器,用于负责监控用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器五个模块的运行,保证整个弹性集群管理中心正常工作。...

【技术特征摘要】
1.一种云计算环境下的大数据存储和处理平台,其特征在于,包括:集群计算框架、集群资源管理器、存储系统、弹性集群管理中心,以及应用程序框架;所述集群计算框架,用于对用户提交的作业针对不同的业务处理需求进行批处理、流式处理以及交互式处理操作;所述集群资源管理器,用于负责管理及调度集群资源和作业;所述存储系统,用于负责输入数据集、处理结果及日志信息的存储管理;所述弹性集群管理中心,用于负责接收用户的请求、管理用户提交的工作流、监控集群和作业的执行状况、管理集群的配置信息、引导集群和应用程序框架以及保证整个集群的运行是可靠的;所述应用程序框架,用于构建数据仓库、为大型数据集提供更高层次的抽象处理以及准实时处理;所述弹性集群管理中心包括用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器、以及集群管理控制器6个模块;所述用户请求处理器,用于负责接收来自管理客户端、管理接口以及管理命令行用户的请求,并将它转发给相应组成部分;所述集群配置管理器,用于负责管理集群的配置信息,包括集群虚拟机配置信息、作业配置信息、集群运行策略、以及作业执行策略;所述集群引导管理器,用于负责集群虚拟机以及计算框架的启动及关闭,以及其它应用程序的引导操作,另外,集群引导管理器也负责调用集群资源重分配的接口;所述作业流程管理器,用于负责根据用户提交到集群配置管理器的作业相关配置来对整个作业流进行管理与监控;所述集群状态监视器,用于负责收集集群整体的运行状况并对其进行简单的性能分析、评估及展示;所述集群管理控制器,用于负责监控用户请求处理器、集群配置管理器、集群引导管理器、作业流程管理器、集群状态监视器五个模块的运行,保证整个弹性集群管理中心正常工作。2.根据权利要求1所述云计算环境下的大数据存储和处理平台的处理方法,其特征在于,该方法包括集群配置初始化并创建集群、向集群提交作业流、作业流调度执行、集群资源重新分配、终止集群及获取处理结果这五个方面的流程步骤,具体的实现步骤如下:S1、集群配置初始化并创建集群:用户登录到集群管理控制台前,需在最佳的外部存储上创建输入数据集、脚本文件的存储目录;然后,用户初始化集群配置和设置集群的运行策略,集群配置包括选择不同类型下的不同规格的虚拟机节点并选择出主节点;此时,用户若选择立即启动虚拟机集群,则弹性集群管理中心的集群引导管理器会加载集群配置管理器中的集群引导操作的相关配置信息,并引导启动虚拟机集群;S2、向集群提交作业流:启动虚拟机集群后,用户向集群提交一系列作业步骤,在提交作业步骤时,需要指定输入数据集、脚本文件、集群日志文件位置以及脚本文件的运行参数信息;与此同时,用户可设置作业步骤的调度策略,这些作业配置信息会提交给弹性集群管理中心的用户请求处理器,最终会交由集群配置管理器进行存储管理;在作业步骤配置完后,可选择立刻调度执行,则集群引导管理器会启动集群计算框架及可选的应用程序,并通知集群的主节点根据集群配置信息通过专用网络拷贝存储在外部存储的输入数据集及脚本数据,之后,集群资源管理器会给各节点分配资源,并开始调度执行当前作业步骤;S3、作业流调度执行:在作业的运行过程中,集群资源管理器会向集群主节点反馈各节点的资源负载及作业执行状况,这些信息会通过主节点最终汇报给弹性集群管理中心的作业流程管理器以及集群状态监视器,作业流程管理器根据集群配置管理器中的作业相关配置信息,对用户提交的作业流进行监控管理,其主要侧重于对作业流的管理与监控,以及对作业步骤的宏观调度,而集群控制管理器会保障集群各个模块的正常运行,恢复并重新启动故障模块;S4、集群资...

【专利技术属性】
技术研发人员:何克晶曾巧巧
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1