一种基于云计算的大数据处理方法及系统技术方案

技术编号:36732013 阅读:15 留言:0更新日期:2023-03-04 09:59
本申请公开了一种基于云计算的大数据处理方法及系统,其中,服务器获取作业启动指令,作业启动指令至少包括:作业标识;服务器根据作业标识,从预设的数据库中获取与作业标识相对应的作业元数据;服务器根据作业元数据,确定执行当前作业的多个工具元数据,并确定多个工具元数据之间的执行顺序,以使云计算管理平台按照执行顺序依次基于根据工具元数据生成的调用命令,从镜像文件仓库中调用工具元数据所对应的工具镜像文件,并运行工具镜像文件,以对当前作业对应的待处理数据进行阶段处理,直至当前作业处理结束;其中,调用命令与工具元数据一一对应。通过上述方案,实现了在降低成本的情况下,提高大数据处理速度。提高大数据处理速度。提高大数据处理速度。

【技术实现步骤摘要】
一种基于云计算的大数据处理方法及系统


[0001]本申请涉及数据处理
,尤其涉及一种基于云计算的大数据处理方法及系统。

技术介绍

[0002]数据治理是一个复杂的过程。数据处理对象的内容与质量不同,所需要采取的处理步骤、处理逻辑也不同。面对数量巨大、内容丰富、格式多样、质量不齐的数据,需要开发大量处理工具才能提高处理效率。但是,处理工具也有大小之分、繁简之别。大而复杂的工具包含更多的逻辑,处理数据的能力更强。然而数据具有多样性,因此无论单一工具多么复杂,都无法完全满足数据处理的全部需求。并且大的复杂的工具缺乏灵活性,维护成本高。小的简单的工作相对的灵活性较高、维护成本低,但是其数据处理能力较弱,对数据的处理具有局限性。
[0003]基于此,如何在降低大数据处理成本的基础上,能够快速高效的进行大数据处理成为亟需解决的技术问题。

技术实现思路

[0004]本说明书实施例提供一种基于云计算的大数据处理方法及系统全要素质量数据管理的平台及设备、介质,用于解决现有技术中的如下技术问题:如何在降低大数据处理成本的基础上,能够快速高效的进行大数据处理。
[0005]本说明书实施例采用下述技术方案:
[0006]一种基于云计算的大数据处理方法,所述方法包括:
[0007]服务器获取作业启动指令,所述作业启动指令至少包括:作业标识;
[0008]服务器根据所述作业标识,从预设的数据库中获取与所述作业标识相对应的作业元数据;
[0009]服务器根据所述作业元数据,确定执行当前作业的多个工具元数据,并确定多个工具元数据之间的执行顺序,以使云计算管理平台按照所述执行顺序依次基于根据所述工具元数据生成的调用命令,从镜像文件仓库中调用所述工具元数据所对应的工具镜像文件,并运行所述工具镜像文件,以对所述当前作业对应的待处理数据进行阶段处理,直至所述当前作业处理结束;
[0010]其中,所述调用命令与所述工具元数据一一对应。
[0011]在本申请的一些实施例中,在获取作业启动指令之前,所述方法还包括:
[0012]服务器接收管理客户端发送的工具元数据,并将所述工具元数据保存至相应的数据库;
[0013]服务器接收管理客户端上传的与所述工具元数据对应的工具源程序包,并根据所述工具源程序包生成部署工具命令,以使所述管理客户端根据所述部署工具命令,将所述工具源程序包打包成相应的工具镜像文件并将所述工具镜像文件上传至所述镜像仓库进
行存储。
[0014]在本申请的一些实施例中,所述方法还包括:
[0015]服务器生成所述工具元数据与所述工具镜像文件之间的关联关系并存储。
[0016]在本申请的一些实施例中,获取所述作业启动指令,具体包括:
[0017]服务器根据外部系统发送的数据存储路径数据,生成所述作业启动指令;或
[0018]服务器根据预设时间间隔,生成所述作业启动指令;
[0019]其中,所述数据存储路径为所述外部系统在监测到相应的存储设备,存储有待处理数据时,根据所述待处理数据的存储路径生成的。
[0020]在本申请的一些实施例中,在根据所述作业标识,从预设的数据库中获取与所述作业标识相对应的作业元数据之前,所述方法还包括:
[0021]服务器接收所述管理客户端基于用户的第二操作创建的作业,以及与所述作业所对应的作业元数据;
[0022]服务器确定所述作业元数据与所述作业之间的关联关系并存储,以及将所述作业元数据存储至相应的数据库;
[0023]其中,所述作业元数据至少包括:作业标识,所述作业为多个工具按照顺序串联组成的;所述作业元数据与所述作业一一对应。
[0024]在本申请的一些实施例中,所述根据所述作业标识,从预设的数据库中获取与所述作业标识相对应的作业元数据,具体包括:
[0025]服务器确定所述预设的数据库中是否存在与所述作业标识相对应的作业元数据;
[0026]在不存在与所述作业标识相对应的作业元数据的情况下,服务器向管理客户端发送提示信息;
[0027]其中,所述提示信息用于提示管理员创建与所述作业标识相对应的数据库;
[0028]接收管理客户端基于提示信息发送的与所述作业标识相对应的作业元数据,并存储至相应的数据库。
[0029]在本申请的一些实施例中,所述方法还包括:
[0030]管理客户端在接收到作业创建命令后,向管理员展示预先存储的工具标识,并基于管理员操作确定管理员选定的工具标识;其中,所述工具标识与所述
[0031]所述管理客户端根据选定的工具标识,以及各工具的执行顺序,创建作业;
[0032]所述管理客户端基于用户相应的操作,确定与所述作业相对应的作业元数据并存储至相应的数据库中。
[0033]在本申请的一些实施例中,所述对当前作业对应的待处理数据进行处理得到阶段处理结果,具体包括:
[0034]所述云计算管理平台中的K8S

MASTER服务根据接收的调用命令,向云数据管理平台中的K8S

NODE服务发送基于所述调用命令生成的调度命令;
[0035]所述云数据管理平台中的K8S

NODE服务根据所述调度命令中的工具元数据,从镜像仓库中拉取与所述工具元数据对应的工具镜像文件,并以容器的方式运行所述工具镜像文件,以对所述待处理数据进行阶段处理。
[0036]在本申请的一些实施例中,所述方法还包括:
[0037]实时获取所述当前作业的作业运行状态,并存储至相应的数据库,以使所述管理
客户端能够通过数据库查看所述作业运行状态;
[0038]其中,所述作业运行状态至少包括:启动、正在运行的工具的工具标识、正常结束、异常结束。
[0039]一种基于云计算的大数据处理系统,述系统包括:作业模块;所述作业模块包括:
[0040]作业启动管理单元,用于获取作业启动指令,所述作业启动指令至少包括:作业标识;
[0041]作业运行管理单元,用于根据所述作业标识,从预设的数据库中获取与所述作业标识相对应的作业元数据;以及
[0042]还用于根据所述作业元数据,确定执行当前作业的多个工具元数据,并确定多个工具元数据之间的执行顺序,以使云计算管理平台按照所述执行顺序依次基于根据所述工具元数据生成的调用命令,从镜像文件仓库中调用所述工具元数据所对应的工具镜像文件,并运行所述工具镜像文件,以对所述当前作业对应的待处理数据进行阶段处理,直至所述当前作业处理结束;
[0043]其中,所述调用命令与所述工具元数据一一对应。
[0044]本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过作业的形式连接多个小工具,共同参与数据治理,可以充分利用现有工具资源,避免重复开发,节省人力和物力。并且,工具与工具之间的任意组合可以形成多种综合能力,功能强大,能够快速适应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于云计算的大数据处理方法,其特征在于,所述方法包括:服务器获取作业启动指令,所述作业启动指令至少包括:作业标识;服务器根据所述作业标识,从预设的数据库中获取与所述作业标识相对应的作业元数据;服务器根据所述作业元数据,确定执行当前作业的多个工具元数据,并确定多个工具元数据之间的执行顺序,以使云计算管理平台按照所述执行顺序依次基于根据所述工具元数据生成的调用命令,从镜像文件仓库中调用所述工具元数据所对应的工具镜像文件,并运行所述工具镜像文件,以对所述当前作业对应的待处理数据进行阶段处理,直至所述当前作业处理结束;其中,所述调用命令与所述工具元数据一一对应。2.根据权利要求1所述的方法,其特征在于,在获取作业启动指令之前,所述方法还包括:服务器接收管理客户端发送的工具元数据,并将所述工具元数据保存至相应的数据库;服务器接收管理客户端上传的与所述工具元数据对应的工具源程序包,并根据所述工具源程序包生成部署工具命令,以使所述管理客户端根据所述部署工具命令,将所述工具源程序包打包成相应的工具镜像文件并将所述工具镜像文件上传至所述镜像仓库进行存储。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:服务器生成所述工具元数据与所述工具镜像文件之间的关联关系并存储。4.根据权利要求1所述的方法,其特征在于,获取所述作业启动指令,具体包括:服务器根据外部系统发送的数据存储路径数据,生成所述作业启动指令;或服务器根据预设时间间隔,生成所述作业启动指令;其中,所述数据存储路径为所述外部系统在监测到相应的存储设备,存储有待处理数据时,根据所述待处理数据的存储路径生成的。5.根据权利要求1所述的方法,其特征在于,在根据所述作业标识,从预设的数据库中获取与所述作业标识相对应的作业元数据之前,所述方法还包括:服务器接收所述管理客户端基于用户的第二操作创建的作业,以及与所述作业所对应的作业元数据;服务器确定所述作业元数据与所述作业之间的关联关系并存储,以及将所述作业元数据存储至相应的数据库;其中,所述作业元数据至少包括:作业标识,所述作业为多个工具按照顺序串联组成的;所述作业元数据与所述作业一一对应。6.根据权利要求1所述的方法,其特征在于,所述根据所述作业标识,从预设的数据库中获取与所述作业标识相对应的作业元数据,具体包括:服务器确定所述预设的数据库中是否存在与所述作业标识相对应的作业元数据;在不存...

【专利技术属性】
技术研发人员:孙长杰李照川申传旺陈义蒙牟清波
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1