一种基于jupyterhub分布式部署的数据读取方法技术

技术编号:37314158 阅读:9 留言:0更新日期:2023-04-21 22:56
本发明专利技术涉及一种基于jupyterhub分布式部署的数据读取方法,所述的方法包括以下步骤:1)将jupyterlab和jupyterhub的安装包制作成镜像,部署在k8s上,实现容器化的分布式部署;2)采用jupyterhub进行统一用户管理,Ks8进行资源管理;3)启动pod服务,进行数据建模,判断是否需要查询远程数据,若否,则进入步骤4),若是,则进入步骤5);4)读取本地建模数据;5)使用alluxio

【技术实现步骤摘要】
一种基于jupyterhub分布式部署的数据读取方法


[0001]本专利技术涉及计算机数据建模领域,尤其是涉及一种基于jupyterhub分布式部署的数据读取方法。

技术介绍

[0002]如今自助式数据建模是逐渐成为企业必备技能,随着自助式建模平台正逐步升级迭代,已经支持数据清理和转换,数据分析,统计建模,数值模拟,机器学习等功能,现有技术方案使用jupyterhub作为模型管理平台,jupyterhub是基于jupyterlab进行上层建领,本身能够更好的兼容jupyterlab的操作规则,整个应用是基于容器化的分布式部署,使用jupyterhub可以创建一个多用户hub,它可以生成、管理和代理单用户jupyterlab服务器的多个实例。
[0003]但是现有技术存在如下缺点:
[0004]1)业务模型训练的数据源多样,数据读取缺乏统一管理;
[0005]2)从远程读取数据延迟较高,部分模型训练耗时高;
[0006]3)模型部分需要读取仓库hdfs数据,模型内部开发读取数据功能复杂;
[0007]4)数据源缺乏统一命名管理。

技术实现思路

[0008]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于jupyterhub分布式部署的数据读取方法。
[0009]本专利技术的目的可以通过以下技术方案来实现:
[0010]一种基于jupyterhub分布式部署的数据读取方法,所述的方法包括以下步骤:
[0011]1)将jupyterlab安装包制作成镜像,部署在k8s集群上,实现容器化部署;
[0012]2)将jupyterhub安装包制作成镜像,部署在K8s集群上,实现容器化的分布式部署;
[0013]3)采用jupyterlab作为开发和执行工具,使用jupyterhub进行统一用户管理,使用Ks8进行资源管理;
[0014]4)启动pod服务,进行数据建模,并判断是否需要查询远程数据,若否,则进入步骤5),若是,则进入步骤6);
[0015]5)读取本地建模数据,本地建模数据是通过alluxio把热数据在靠近数据应用的集群进行缓存的数据;
[0016]6)使用alluxio

fuse挂载分布式文件,使用alluxio把来自不同的远端存储系统,以及hdfs的数据都挂载到alluxio统一的命名空间之内,实现数据统一命名管理;
[0017]7)使用alluxio加载不同的远端存储系统,以及hdfs的数据,并进行数据回传。进一步地,所述的jupyterhub创建一个多用户jupyterlab,用于生成、管理和代理单用户jupyterlab服务器的多个实例。
[0018]进一步地,所述的jupyterlab用于进行数据分析和建模相关的工作,进行交互式编程。
[0019]进一步地,所述的jupyterlab通过jupyterhub统一管理和认证。
[0020]进一步地,所述的jupyterlab为模块化界面,可在同一个窗口同时打开多个notebook或文件,以标签的形式展示。
[0021]进一步地,所述的交互式编程具体为:python交互式模式直接输入代码,然后执行,并立刻得到结果。
[0022]进一步地,所述的jupyterlab内核中运行的任何文本文件均可启用代码。
[0023]进一步地,所述的alluxio为面向基于云的数据分析和人工智能的开源的数据编排技术,用于为数据驱动型应用和存储系统构建桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问,使应用程序通过一个公共接口连接到多个存储系统。
[0024]一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如上任一项所述的方法。
[0025]一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上任一项所述的方法。
[0026]与现有技术相比,本专利技术具有以下有益效果:
[0027]一、本专利技术使用alluxio对多数据源进行无缝连接,能够对数据进行读写缓存,从而提升重复数据获取性能,解决在分布式环境下基于多数据源进行建模读取数据耗时高的问题。
[0028]二、本专利技术对不同远端的存储系统数据都挂载到alluxio统一的命名空间之内,进行统一管理,实现多场景下模型训练多数据源统一命名管理。
[0029]三、本专利技术通过对接hdfs的基于容器的jupyterhub分布式部署,将平台整体部署在k8s架构内,实现了对建模过程的资源控制,及用户间的建模资源隔离。
附图说明
[0030]图1为本专利技术的方法流程图。
具体实施方式
[0031]下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。
[0032]实施例
[0033]如图1所示,一种基于jupyterhub分布式部署的数据读取方法,所述的方法包括以下步骤:
[0034]1)将jupyterlab安装包制作成镜像,部署在k8s集群上,实现容器化部署;使用jupyterLab,可以进行数据分析和建模相关的工作,可以进行交互式编程,jupyterlab通过jupyterhub统一管理和认证,具有如下特点:
[0035]交互式编程可利用python交互式模式直接输入代码,然后执行,并立刻得到结果,
因此python交互模式主要是为了调试python代码用的;
[0036]可以在jupyterlab内核中运行的任何文本文件中启用代码;
[0037]模块化界面,可以在同一个窗口同时打开好几个notebook或文件,都以标签的形式展示,更像是一个IDE;
[0038]同一文档多视图,使你能够实时同步编辑文档并查看结果;
[0039]支持多种数据格式,可以查看并处理多种数据格式,也能进行丰富的可视化输出。
[0040]2)将jupyterhub安装包制作成镜像,部署在K8s集群上,实现容器化的分布式部署;使用jupyterhub可以创建一个多用户jupyterlab,它可以生成、管理和代理单用户jupyterlab服务器的多个实例。
[0041]3)采用jupyterlab作为开发和执行工具,使用jupyterhub进行统一用户管理,使用Ks8进行资源管理;采用行业内主流的jupyterlab作为python开发工具,本专利技术整体部署在k8s架构内,实现了对建模过程的资源控制,及用户间的建模资源隔离。
[0042]4)启动pod服务,进行数据建模,并判断是否需要查询远程数据,若否,则进入步骤5),若是,则进入步骤6);
[0043]5)读取本地建模数据,本地建模数据是通过alluxio把热数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于jupyterhub分布式部署的数据读取方法,其特征在于,所述的方法包括以下步骤:1)将jupyterlab安装包制作成镜像,部署在k8s集群上,实现容器化部署;2)将jupyterhub安装包制作成镜像,部署在K8s集群上,实现容器化的分布式部署;3)采用jupyterlab作为开发和执行工具,使用jupyterhub进行统一用户管理,使用Ks8进行资源管理;4)启动pod服务,进行数据建模,并判断是否需要查询远程数据,若否,则进入步骤5),若是,则进入步骤6);5)读取本地建模数据,本地建模数据是通过alluxio把热数据在靠近数据应用的集群进行缓存的数据;6)使用alluxio

fuse挂载分布式文件,使用alluxio把来自不同的远端存储系统,以及hdfs的数据都挂载到alluxio统一的命名空间之内,实现数据统一命名管理;7)使用alluxio加载不同的远端存储系统,以及hdfs的数据,并进行数据回传。2.根据权利要求1所述的一种基于jupyterhub分布式部署的数据读取方法,其特征在于,所述的jupyterhub创建一个多用户jupyterlab,用于生成、管理和代理单用户jupyterlab服务器的多个实例。3.根据权利要求1所述的一种基于jupyterhub分布式部署的数据读取方法,其特征在于,所述的jupyterlab用于进行数据分析和建模相关的工作,进行交互式编程。4.根据权利要求3所...

【专利技术属性】
技术研发人员:铁锦程张雄王波
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1