一种基于Alluxio的大数据作业运行方法和系统技术方案

技术编号:31492280 阅读:10 留言:0更新日期:2021-12-18 12:29
本申请公开了一种基于Alluxio的大数据作业运行系统和方法,通过基于大数据框架的应用系统向容器化的存储访问控制系统发出访问存储的请求;存储访问控制系统解析请求中请求参数,并下发至容器化的Alluxio系统;Alluxio系统根据请求参数获取对应的数据元信息并返回至存储访问控制系统;存储访问控制系统接收对应的数据元信息并返回至应用系统;应用系统根据对应数据元信息完成对同一节点上Alluxio系统Worker组件中数据操作,从而实现了基于大数据框架的存储与计算分离,通过直接操作与应用系统同一节点上容器化的Alluxio系统中的Worker组件缓存中的数据,避免了访问存储空间带来的网络性能损耗。带来的网络性能损耗。带来的网络性能损耗。

【技术实现步骤摘要】
一种基于Alluxio的大数据作业运行方法和系统


[0001]本申请涉及大数据
,尤其涉及一种基于Alluxio的大数据作业运行方法和系统。

技术介绍

[0002]随着计算机技术的发展,大数据计算已经在各行各业得到了广泛的应用。在传统大数据应用场景中,一般都采用存储计算耦合的架构,将计算和存储放在一起,从而实现全量数据的计算与汇总处理。
[0003]在传统的单一类型计算的大数据应用场景中,传统的存储计算耦合的架构有其合理性,然而,在数字经济时代,数据驱动体验,数据驱动决策,数据驱动流程的多场景互动结合应用的时代需求背景下,对于大数据计算的性能上的要求也在快速提高,传统的大数据计算架构在性能上的瓶颈已经突显出来。因此,如何进一步提高大数据计算架构的性能是我们丞待解决的问题。
[0004]上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]为了解决上述技术问题,本申请提出了一种基于Alluxio的大数据作业运行方法和系统。在该方法中,通过将基于大数据框架的作业运行环境分为存储集群和计算集群,分别使用容器化部署,并在数据通信层使用三网络平面,将计算进程之间的通信与计算进程及存储服务之间的通信隔离,进而避免了两者之间的干扰,提升了网络性能,Alluxio系统以容器化方式部署在计算集群上,其中Alluxio系统的Master容器和容器编排引擎(如Kubernetes)的Master组件部署在同一节点上,容器编排引擎的每个node节点上都部署一个Alluxio系统的Worker容器,在用户下达计算指令时,容器化的基于大数据框架的应用系统向容器化的存储访问控制系统直接发出访问存储的请求,容器化的存储访问控制系统通过解析请求中的请求参数,获取请求的作业类型(创建数据、读取数据、更新数据和删除数据),并将处理之后的请求发送给容器化的Alluxio系统,容器化的Alluxio系统中Master节点根据信息比对,查找容器化的Alluxio系统中Worker节点中的缓存数据分片,生成对应的数据元信息,并将数据元信息返回至容器化的存储访问控制系统,容器化的存储访问控制系统再将接收到的数据元信息返回至容器化的基于大数据框架的应用系统,从而实现了基于大数据框架的作业存储与计算分离,通过将存储放到不同的集群上,避免了存储网络带来的网络性能损失,同时提升了计算集群上的资源利用率,进而提高了存储访问性能和作业计算的性能。
[0006]第一方面,提供一种基于Alluxio的大数据作业运行系统。该系统包括:容器化的基于大数据框架的应用系统、容器化的存储访问控制系统、容器化的Alluxio系统、分布式文件系统和三网络平面结构,所述容器化的存储访问控制系统分别用于与容器化的基于大
数据框架的应用系统和所述容器化的Alluxio系统在三网络平面上进行数据交互,所述容器化的Alluxio系统分别用于与容器化的存储访问控制系统和分布式文件系统在三网络平面上进行数据交互,所述容器化的基于大数据框架的应用系统根据计算需求选配,所述分布式文件系统根据存储需求选配;所述容器化的基于大数据框架的应用系统,用于:接收用户下达的计算指令;以及,根据所述计算指令向所述容器化的存储访问控制系统发出访问存储的请求;和/或,接收所述容器化的存储访问控制系统反馈数据信息,下发所述请求对应的操作指令;所述容器化的存储访问控制系统,用于:接收所述基于大数据框架的应用系统访问存储的请求;以及,解析所述请求中请求参数,并下发至所述容器化的Alluxio系统;和/或,接收所述容器化的Alluxio系统反馈的数据元信息,并将所述数据元信息返回至所述基于大数据框架的应用系统;所述容器化的Alluxio系统,用于:挂载所述分布式文件系统;将所述分布式文件系统中数据缓存至对应Worker节点,并生成数据元信息;将所述数据元信息保存至Master模块中;以及,根据所述容器化的存储访问控制系统下发的请求参数获取对应的数据元信息,并返回至所述容器化的存储访问控制系统;所述分布式文件系统,用于:存储大数据作业的数据;以及,接收所述应用系统下发的操作指令,完成所述请求;所述多重网络结构,用于:提供容器化的基于大数据框架的应用系统中计算集群内部网络通信;提供容器化的基于大数据框架的应用系统中计算集群与容器化的Alluxio系统之间进行通信;以及,提供分布式文件系统内部的存储集群网络通信。这样,用户通过容器化的基于大数据框架的应用系统下达的计算指令,能够通过向容器化的存储访问控制系统发出访问存储的请求,容器化的存储访问控制系统根据解析后的作业将请求参数下发至容器化的Alluxio系统,容器化的Alluxio系统的Master节点通过比对对应的Worker节点上的数据分片生成数据元信息,并将数据元信息返回至容器化的存储访问控制系统,容器化的存储访问控制系统接收到数据元信息后,将数据元信息返回至容器化的基于大数据框架的应用系统,基于大数据框架的应用系统根据返回的数据元信息执行用户下达的计算指令,从而实现了基于大数据框架的作业存储与计算分离,通过将存储放到不同的集群上,避免了存储网络带来的网络性能损失,同时提升了计算集群上的资源利用率,进而提高了存储访问性能和作业计算的性能。
[0007]示例性的,容器化的基于大数据框架的应用系统可以为搭载有Spark、Hadoop Mapreduce、Hbase等大数据引擎的应用系统。
[0008]示例性的,分布式文件系统可以为Amazon S3、Apache HDFS、OpenStack Swift等分布式文件存储系统。
[0009]根据第一方面,所述容器化的存储访问控制系统,还用于:接收所述应用系统的创建数据请求;解析所述创建数据请求,获取第一数据参数信息;将所述第一数据参数信息下发至所述容器化的Alluxio系统,并获取反馈第一数据元信息;将所述第一数据元信息返回至所述应用系统。这样,容器化的存储访问控制系统便能够对外提供统一的访问接口,对访问请求进行预处理获取创建数据请求中的第一数据参数,将第一数据参数发送至容器化的Alluxio系统,并根据返回的数据元信息返回至应用系统,从而将请求解析从容器化的Alluxio系统中分离,进而提高了存储访问性能。
[0010]根据第一方面,或者以上第一方面的任意一种实现方式,所述容器化的Alluxio系统,还用于:接收所述容器化的存储访问控制系统下发的第一数据参数信息;Master组件查
询本地存储的元数据,判断是否存在与所述文件夹名称匹配的Worker组件的位置信息;若存在,则根据第一预设信息生成第一数据元信息,将所述第一数据元信息返回至所述容器化的存储访问控制系统;若不存在,则根据对应的Worker位置信息生成第一数据元信息,将所述第一数据元信息返回至所述容器化的存储访问控制系统。这样,实现了容器化的Alluxio系统在整个系统中仅提供数据的存取服务,容器化的Alluxio系统在接收到第一数据参数信息后,根据第一数据参数找到对应Worke本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Alluxio的大数据作业运行系统,其特征在于,包括:容器化的基于大数据框架的应用系统、容器化的存储访问控制系统、容器化的Alluxio系统、分布式文件系统和三网络平面结构,所述容器化的存储访问控制系统分别用于与容器化的基于大数据框架的应用系统和所述容器化的Alluxio系统在三网络平面上进行数据交互,所述容器化的Alluxio系统分别用于与容器化的存储访问控制系统和分布式文件系统在三网络平面上进行数据交互,所述容器化的基于大数据框架的应用系统根据计算需求选配,所述分布式文件系统根据存储需求选配,所述三网络平面结构根据网络需求选配;所述容器化的基于大数据框架的应用系统,用于:接收用户下达的计算指令;以及,根据所述计算指令向所述容器化的存储访问控制系统发出访问存储的请求;和/或,接收所述容器化的存储访问控制系统反馈数据信息,下发所述请求对应的操作指令;所述容器化的存储访问控制系统,用于:接收所述基于大数据框架的应用系统访问存储的请求;以及,解析所述请求中请求参数,并下发至所述容器化的Alluxio系统;和/或,接收所述容器化的Alluxio系统反馈的数据元信息,并将所述数据元信息返回至所述基于大数据框架的应用系统;所述容器化的Alluxio系统,用于:挂载所述分布式文件系统;将所述分布式文件系统中数据缓存至对应Worker节点,并生成数据元信息;将所述数据元信息保存至Master模块中;以及,根据所述容器化的存储访问控制系统下发的请求参数获取对应的数据元信息,并返回至所述容器化的存储访问控制系统;所述分布式文件系统,用于:存储大数据作业的数据;以及,接收所述应用系统下发的操作指令,完成所述请求;所述多重网络结构,用于:提供容器化的基于大数据框架的应用系统中计算集群内部网络通信;提供容器化的基于大数据框架的应用系统中计算集群与容器化的Alluxio系统之间进行通信;以及,提供分布式文件系统内部的存储集群网络通信。2.如权利要求1所述的系统,其特征在于,所述容器化的存储访问控制系统,还用于:接收所述应用系统的创建数据请求;解析所述创建数据请求,获取第一数据参数信息;将所述第一数据参数信息下发至所述容器化的Alluxio系统,并获取反馈第一数据元信息;将所述第一数据元信息返回至所述应用系统。3.如权利要求2所述的系统,其特征在于,所述容器化的Alluxio系统,还用于:
接收所述容器化的存储访问控制系统下发的第一数据参数信息;Master组件查询本地存储的元数据,判断是否存在与所述文件夹名称匹配的Worker组件的位置信息;若存在,则根据第一预设信息生成所述第一数据元信息,将所述第一数据元信息返回至所述容器化的存储访问控制系统;若不存在,则根据对应的Worker位置信息生成所述第一数据元信息,将所述第一数据元信息返回至所述容器化的存储访问控制系统。4.如权利要求1所述的系统,其特征在于,所述容器化的存储访问控制系统,还用于:接收所述应用系统的读取数据请求;解析所述读取数据请求,获取第二数据参数信息;将所述第二数据参数信息下发至所述容器化的Alluxio系统,并获取反馈第二数据元信息;将所述第二数据元信息返回至所述应用系统。5.如权利要求4所述的系统,其特征在于,所述容器化的Alluxio系统,还用于:接收所述容器化的存储访问控制系统下发的第二数据参数信息;解析所述第二数据参数信息,获取所述第二数据参数信息中的文件名称;根据所述文件名称,查找本地是否存在...

【专利技术属性】
技术研发人员:黄林余波谢冬鸣林健
申请(专利权)人:东云睿连武汉计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1