基于无服务器计算的大数据处理方法及装置制造方法及图纸

技术编号:19511107 阅读:38 留言:0更新日期:2018-11-21 07:40
本发明专利技术公开一种能提供高弹性、细粒度、高效率的云计算服务的基于无服务器计算的大数据处理方法及装置。方法包括如下步骤:(10)任务发布:用户上传所需要进行处理的数据集和算法代码文件;(20)作业调度:根据系统环境配置,对集群资源进行调度,自动分配计算处理单元;(30)数据处理:调取算法文件和相应数据集,执行数据运算;(40)集群监管:对于集群资源动态情况、数据处理运行情况进行实时监控。装置包括任务发布模块(1)、作业调度模块(2)、数据处理模块(3)和集群监管模块(4),所述作业调度模块(2)一端与任务发布模块(1)相连,另一端分别与数据处理模块(3)和集群监管模块(4)相连。

【技术实现步骤摘要】
基于无服务器计算的大数据处理方法及装置
本专利技术属于大数据处理领域,特别是一种能提供高弹性、细粒度、高效率的云计算服务的基于无服务器计算的大数据处理方法及装置。
技术介绍
自2006年AmazonWebService发布的第一个云服务S3开始,存储、计算等IT基础设施的能力纷纷以服务的方式提供给用户,相继出现了SaaS(软件即服务)、IaaS(基础设施即服务)、PaaS(平台即服务)等不同形态的云服务。在这个过程中,Serverless(无服务器化)的趋势越来越明显。IaaS将真实的物理机变成了虚拟机,PaaS进一步将虚拟机变成了包含基础设施的中间件服务,而SaaS将中间件服务扩展到更为基础的后端能力。这些是云计算解决效率和成本的重要体现。但当前云计算服务的抽象粒度大多在服务器级别,要管理和使用这些云计算资源仍然有不小的门槛和成本。目前用户在使用传统的大数据处理服务时,需要首先根据业务情况选择相应规格的服务器,接着进行对服务器网络和操作系统的配置,然后再在服务群中部署安装与数据处理任务有关的组件。与此同时还面临着负载均衡、配置升级等一系列有关服务器运维技术方面的需求。等上述流程结束后,用户方能提交任务需求来获取平台的数据处理服务。此外,传统的大数据处理服务基于C/S架构,需要在服务器上长期维持相应的进程来处理用户发来的请求。在技术层面,需要用户考虑如何守护进程,如何降故障时产生的影响等等。因此,这就要求用户在使用传统的大数据处理服务时,既要具备数据处理等业务能力,还要具备一定的服务器运维能力。上述现有技术对大数据的处理存在的问题是:1、在使用大数据处理服务时,经常会面临业务突增的情况,这就要求服务器必须拓展硬件能力来应对业务高峰,即使高峰时间仅占整个运行时间的10%。这就需要用户自行搭建资源伸缩机制和负载均衡,耗时较多。2、传统的大数据处理服务主要以服务器作为基础的硬件管理单元,一般以月或年为周期长期运行,而在此期间与数据处理相关的组件待机等待调用,资源利用率低,维护成本高,还需要用户解决服务器宕机等一系列底层系统的问题。3、当多个用户对于系统环境有不同的要求时,需要进行服务器扩容操作,自行重复新建物理环境、配置运行环境等流程,消耗大量人力物力。
技术实现思路
本专利技术的目的在于提供一种基于无服务器计算的大数据处理方法及装置,能提供高弹性、细粒度、高效率的云计算服务。实现本专利技术目的的技术方案为:一种基于无服务器计算的大数据处理方法,包括如下步骤:(10)任务发布:用户通过浏览器访问数据处理平台入口页面,上传所需要进行处理的数据集和算法代码文件;(20)作业调度:分别将接收的数据集和代码文件发送至底层存储模块和集群管理节点资源文件夹中;同时,根据用户所需的系统环境配置,通过对集群资源进行调度,自动分配计算处理单元;(30)数据处理:分布式计算处理单元同集群管理节点与底层存储模块进行通信,调取算法文件和相应数据集,执行运算处理并保存结果;(40)集群监管:集群管理节点对于集群资源动态情况、数据处理运行情况进行实时监控和日志记录,并反馈至任务发布模块Web界面中。实现本专利技术另一目的的技术方案为:一种基于无服务器计算的大数据处理装置,包括:任务发布模块(1),用于向用户提供大数据处理平台的Web访问入口实现从上传所需要进行处理的数据集和算法代码文件,到实时监控数据处理工作状态和获取返回结果的全生命周期管理;作业调度模块(2),用于接收所述任务发布模块(1)提交的用户任务请求信息和数据集并保存至底层存储系统中,同时会根据用户所需的配置,通过对集群资源进行调度,自动创建和分配分布式计算处理单元及高速数据访问通道,从而构建符合用户需求的数据处理模块;还用于对平台数据处理模块的实时监控和宕机保护,以及对集群中基础资源服务的创建和扩展管理;数据处理模块(3),用于分布式计算处理单元同集群管理节点与底层存储系统进行通信,调取用户提交的算法文件和相应数据集,进行数据处理并保存执行结果;还用于记录数据处理过程中产生的日志信息并保存反馈至集群管理节点;集群监管模块(4),用于执行所述作业调度模块下发的命令,根据用户需求构建用于对集群网络资源、计算资源和存储资源进行管理的服务;还用于对于集群的资源动态情况、数据处理执行情况进行实时监控和日志记录,并反馈至任务发布模块Web界面中;所述作业调度模块(2)一端与任务发布模块(1)相连,另一端分别与数据处理模块(3)和集群监管模块(4)相连。本专利技术与现有技术相比,其显著优点为:1.用户可以利用无服务器计算架构的弹性扩展特性,快速构建新的计算能力来满足当前需求。2.在Serverless无服务器计算架构中,平台将计算资源作为服务的形式而不是以服务器的形式提供给用户,并通过细粒化的管理,使用户能够快速地调动和使用海量计算资源。同时,通过业务事件来触发对资源的调用,当业务完成后,资源能够自动进行释放,有效地节省了成本,提高了资源利用率。3.实现了用户业务与集群大数据处理平台的隔离。用户无需关心开发过程的具体细节,不再运维任何云主机和操作系统,只需要提交算法执行文件和数据集,发布任务后即可实施监控处理运行情况并获取返回结果。所有配置和应用生命周期管理的工作都由系统自动负责,从而保证开发者无需再为云服务器中的各类虚拟资源分神,使其能够专注于核心业务的开发,节省了大量的时间和人力成本综上,通过本专利技术与现有技术的对比,可以看出所提出的基于无服务器计算的大数据处理方法及装置能够自动化地完成用户提交的数据处理任务,并且最大限度减少了用户在管理服务器上所花费的工作和精力,更具备通用性、高效性和易用性的特点。附图说明图1为本专利技术基于无服务器计算的大数据处理方法的主流程图。图2为图1中作业调度步骤的流程图。图3为图1中数据处理步骤的流程图。图4为本专利技术基于无服务器计算的大数据处理装置的结构框图。图中的附图标记含义如下:1-任务发布模块,2-作业调度模块,3-数据处理模块,4-集群监管模块,10-任务发布,20-作业调度,30-数据处理,40-集群监管,21-数据保存,22-构建数据处理模块,23-资源监控,31-系统通信,32-数据处理,33-过程保存。具体实施方式如图1所示,本专利技术基于无服务器计算的大数据处理方法,包括如下步骤:(10)任务发布:用户通过浏览器访问数据处理平台入口页面,上传所需要进行处理的数据集和算法代码文件;(20)作业调度:分别将接收的数据集和代码文件发送至底层存储模块和集群管理节点资源文件夹中;同时,根据用户所需的系统环境配置,通过对集群资源进行调度,自动分配计算处理单元;如图2所示,所述(20)作业调度步骤包括:(21)数据保存:接收用户任务请求信息和数据集,并保存至底层存储系统中;(22)构建数据处理模块:根据用户所需的配置,通过对集群资源的调度自动创建和分配分布式计算处理单元及高速数据访问通道,构建符合用户需求的数据处理模块;(23)资源监控:对数据处理模块进行实时监控和宕机保护,同时负责集群中基础资源服务的创建和扩展管理。(30)数据处理:分布式计算处理单元同集群管理节点与底层存储模块进行通信,调取算法文件和相应数据集,执行运算处理并保存结果;如图3所示,所述(30)数据本文档来自技高网
...

【技术保护点】
1.一种基于无服务器计算的大数据处理方法,其特征在于,包括如下步骤:(10)任务发布:用户通过浏览器访问数据处理平台入口页面,上传所需要进行处理的数据集和算法代码文件;(20)作业调度:分别将接收的数据集和代码文件发送至底层存储模块和集群管理节点资源文件夹中;同时,根据用户所需的系统环境配置,通过对集群资源进行调度,自动分配计算处理单元;(30)数据处理:分布式计算处理单元同集群管理节点与底层存储模块进行通信,调取算法文件和相应数据集,执行运算处理并保存结果;(40)集群监管:集群管理节点对于集群资源动态情况、数据处理运行情况进行实时监控和日志记录,并反馈至任务发布模块Web界面中。

【技术特征摘要】
1.一种基于无服务器计算的大数据处理方法,其特征在于,包括如下步骤:(10)任务发布:用户通过浏览器访问数据处理平台入口页面,上传所需要进行处理的数据集和算法代码文件;(20)作业调度:分别将接收的数据集和代码文件发送至底层存储模块和集群管理节点资源文件夹中;同时,根据用户所需的系统环境配置,通过对集群资源进行调度,自动分配计算处理单元;(30)数据处理:分布式计算处理单元同集群管理节点与底层存储模块进行通信,调取算法文件和相应数据集,执行运算处理并保存结果;(40)集群监管:集群管理节点对于集群资源动态情况、数据处理运行情况进行实时监控和日志记录,并反馈至任务发布模块Web界面中。2.根据权利要求1所述的大数据处理方法,其特征在于,所述(20)作业调度步骤包括:(21)数据保存:接收用户任务请求信息和数据集,并保存至底层存储系统中;(22)构建数据处理模块:根据用户所需的配置,通过对集群资源的调度自动创建和分配分布式计算处理单元及高速数据访问通道,构建符合用户需求的数据处理模块;(23)资源监控:对数据处理模块进行实时监控和宕机保护,同时负责集群中基础资源服务的创建和扩展管理。3.根据权利要求1所述的大数据处理方法,其特征在于,所述(30)数据处理步骤包括:(31)系统通信:分布式计算处理单元同集群管理节点与底层存储系统进行通信;(32)数据处理:调取用户提交的算法文件和相应数据集,进行数据处理并保存执行结果;(33)过程保存:记录数据处理过程中产生的日志信息并保存反馈至集群管理节点。4.一种基于无服务器计算的大数据处理装置,其特征在于,包括:任务发布模块(1),用于向用户提供大数据处理平台的Web访问入口实现从上传所需要进行处理的数...

【专利技术属性】
技术研发人员:张功萱翟昕宇王希冀周秀敏
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1