基于对象存储Hadoop提交器的实现方法及装置制造方法及图纸

技术编号:24853135 阅读:26 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开了一种基于对象存储Hadoop提交器的实现方法及装置。该发明专利技术包括:读取一个或多个文件,其中,文件的自定义元数据用于表征文件的描述信息;使用文件秒合功能将一个或多个文件进行合并,生成新文件;将新文件存储到目标目录下,其中,新文件作为软连接用于指向对应的源数据文件。通过本发明专利技术,解决了相关技术中在文件存储时采用的提交协议导致文件存储效率低下的技术问题。

【技术实现步骤摘要】
基于对象存储Hadoop提交器的实现方法及装置
本专利技术涉及文件存储领域,具体而言,涉及一种基于对象存储Hadoop提交器的实现方法及装置。
技术介绍
相关技术中,Hadoop中MapReduce将用户提交的job拆分成多个单个操作task(分别是maptask和reducetask)并在多个节点上执行这些task,task在执行完成后,将执行结果的输出通过outputcommit协议存储于最终的结果目录。任何job端提交工作都将跨集群中的节点执行,并且可能发生在job执行的关键部分之外。然而,除非outputcommit协议要求所有task等待jobdriver的信号,否则task的提交不能在最终目录中实例化它们的输出,可用于将成功task的输出提升到可以提交job的状态,解决投机性执行和失败问题。因此outputcommit需要能够处理当jobdriver出现故障并且重新启动时,重新启动的jobdriver仅重新运行未完成的task;当重新启动的job完成时,将恢复已完成task的输出以供提交。其中,常用的outp本文档来自技高网...

【技术保护点】
1.一种基于对象存储Hadoop提交器的实现方法,其特征在于,包括:/n读取一个或多个文件,其中,所述文件的自定义元数据用于表征所述文件的描述信息;/n使用文件秒合功能将一个或多个所述文件进行合并,生成新文件;/n将所述新文件存储到目标目录下,其中,所述新文件作为软连接用于指向对应的源数据文件。/n

【技术特征摘要】
1.一种基于对象存储Hadoop提交器的实现方法,其特征在于,包括:
读取一个或多个文件,其中,所述文件的自定义元数据用于表征所述文件的描述信息;
使用文件秒合功能将一个或多个所述文件进行合并,生成新文件;
将所述新文件存储到目标目录下,其中,所述新文件作为软连接用于指向对应的源数据文件。


2.根据权利要求1所述的方法,其特征在于,在读取一个或多个文件之前,所述方法还包括:
创建所述目标目录,并创建作业目录到指定的文件目录下;
在执行作业中的任务时,在所述作业目录中创建临时提交文件目录,其中,所述临时提交文件目录用于存储执行所述作业中任务而生成的文件;
在所述作业中的一个或多个任务执行成功之后,生成一个或多个所述文件;
将输出的一个或多个所述文件存储至所述临时提交文件目录下。


3.根据权利要求2所述的方法,其特征在于,使用文件秒合功能将一个或多个所述文件进行合并,生成新文件,包括:
当所述作业中的所有任务都执行完成之后,将所述临时提交文件目录下的所有文件进行合并,生成所述新文件,并将所述新文件提交到所述目标目录下。


4.根据权利要求2所述的方法,其特征在于,在将输出的一个或多个所述文件存储至所述临时提交文件目录下之后,所述方法还包括:删除所述临时提交文件目录下的所有文件。


5.根据权利要求2所述的方法,其特征在于,在一个或多个所述文件合并时,所述文件的API接口合并生成所述软连接,其中,将所述文件对应的作业信息保存在所述软连接的元数据中。

【专利技术属性】
技术研发人员:战策张旭明王豪迈胥昕
申请(专利权)人:星辰天合北京数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1