【技术实现步骤摘要】
分布式文件系统访问方法、装置、主机和介质
[0001]本专利技术涉及大数据领域,更具体而言,涉及一种分布式文件系统访问方法、装置、主机和介质。
技术介绍
[0002]分布式大数据平台基于安全等各方面默认禁止读写本地文件系统,但是,在很多业务场景中,需要在读写文件的过程中调用操作文件系统。例如,用户个性化需求场景中需要针对非结构化数据进行分布式并行读写,对特殊格式资源文件进行加载编辑读写等,这些都需要调用分布式操作文件系统。
[0003]现有技术中,为了能够访问分布式文件系统,一种方案是通过调用第三方文件系统来实现,如MaxCompute针对非结构化数据的分布式并行读写,支持通过外表方式读写Oss等文件系统上的文件。这种方案有较高的门槛而且需要申请第三方存储带来较大的成本,且需要很多支持措施,增加用户依赖。另一种临时方案是通过封装沙箱方式来让用户运行读写文件系统的的代码。但是,这个方式仍然不能绝对安全,而且使用上带来很多不方便,这种方式一般只支持单独的以MapReduce为接口的用户代码,用户最熟悉的SQL等语言和语法 ...
【技术保护点】
【技术特征摘要】
1.一种分布式文件系统访问方法,包括:接收用户操作代码;启用父进程和子进程,其中,所述子进程执行所述用户操作代码,当执行到对分布式文件系统的访问指令时跳转到所述父进程,由父进程执行所述访问指令,并在执行完所述访问指令后返回所述子进程,所述父进程是所述分布式文件系统所属的平台内安全框架进程。2.根据权利要求1所述的方法,其中,所述方法由所述平台中的主机执行,所述启用父进程和子进程包括:将所述父进程分配到所述平台中除所述主机之外的第一机执行,将所述子进程分配到所述平台中除所述主机之外的第二机执行,所述第二机不同于所述第一机。3.根据权利要求2所述的方法,其中,所述平台除了所述主机之外,还包括工作机和从机,所述第一机和第二机各自选自工作机和从机中的任一个。4.根据权利要求1所述的方法,其中,所述父进程和所述子进程之间的代理被隔离。5.根据权利要求1所述的方法,其中,所述分布式文件系统分为持久化文件系统类型和单点文件系统类型,所述用户操作代码指示分布式文件系统的类型,所述父进程根据指示的所述类型执行对持久化文件系统的第一访问操作,或对单点文件系统的第二访问操作。6.根据权利要求1所述的方法,其中,在启用父进程和子进程之前,所述方法还包括:由父进程创建子进程;在启用父进程和子进程之后,所述方法还包括:由父进程销毁子进程。7.根据权利要求1所述的方法,其中,所述接收用户操作代码包括:提供执行层上下文,所述执行层上下文包括分布式文件系统的句柄,所述句柄指向预定义函数或接口;响应于用户对所述句柄的获取请求,返回句柄指向的预定义函数或接口;接收用户利用所述预定义函数或接口编写的用户操作代码。8.根据权利要求1所述的方法,其中,在接收用户操作代码之后,所述方法还包括:进行所述用户操作代码针对的文件系统的适配,所述适配至少包括:所述针对的文件系统到文件系统前缀的映射,提供权限认证,对文件接口的支持。9.根据权利要求8所述的方法,其中,所述提供权限认证,包括:根据所述对分布式文件系统的访问指令要访问的文件单元的权限信息、所述用户的身份、所述访问指令的访问内容、和访问时间,进行权限认证。10.根据权利要求1所述的方法,其中,所述用户操作代码包括参数设置语句代码,所述参数设置语句代码指定在所述分布式文件系统中要访问的文件。11.根据权利要求1所述的方法,其中,所述用户操作代码包括工具类,所述工具类为程序片段,基于所述工具类的执行结果指定在所述分布式文件系统中要访问的文件。12.根据权利要求1所述的方法,其中,所述父进程具有多个子进程。13.一种分布式文件系统访问装置,包括:用户接口单元,用于接收用户操作代码;父子进程启用单元,用于启用父进程和子进程,其中,所述子进程执行所述用户操作代码,当执行到对分布式文件系统的访问指令时跳...
【专利技术属性】
技术研发人员:李瑞盛,胡进军,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。