数据的流式处理方法、装置及分布式文件系统HDFS制造方法及图纸

技术编号:21686032 阅读:50 留言:0更新日期:2019-07-24 14:39
本说明书一个或多个实施例公开了一种数据的流式处理方法、装置及分布式文件系统HDFS,用以实现基于HDFS体系的高时效流式数据处理服务。所述方法应用于分布式文件系统HDFS,包括:接收客户端发送的针对指定文件的数据流式处理任务;其中,所述数据流式处理任务包括所述指定文件对应的流式处理逻辑;基于所述数据流式处理任务,接收所述客户端发送的单位数据;及,将所述单位数据存储至所述指定文件中;监测所述单位数据是否成功存储至所述指定文件中;若是,则按照所述流式处理逻辑对所述单位数据执行相应的流式处理,得到处理结果。

Data Streaming Processing, Device and Distributed File System HDFS

【技术实现步骤摘要】
数据的流式处理方法、装置及分布式文件系统HDFS
本说明书涉及通讯领域,尤其涉及一种数据的流式处理方法、装置及分布式文件系统HDFS。
技术介绍
ApacheHadoop在进行数据处理(如通过MapReduce做计算)时,结果产出的时效由两方面决定:一方面是数据要完整地准备好,由于一般大数据量搬迁比较耗时,无法确定分钟级或小时级、甚至天级,因此完整地准备好所有数据导致处理时效非常低。另一方面是MapReduce的任务执行时间一般是分钟级,如果数据量较大则达到小时级,也会导致数据处理时效低下。因此,Hadoop只适用于对计算时效要求较低的离线计算场景。针对上述问题,现有技术中,采用流式数据计算引擎(如Storm,Flink,Spark等)处理数据,但这些流式数据计算引擎都是独立于Hadoop体系的新系统,在部署与运维上很麻烦。
技术实现思路
本说明书一个或多个实施例的目的是提供一种数据的流式处理方法、装置及分布式文件系统HDFS,用以实现基于HDFS体系的高时效流式数据处理服务。为解决上述技术问题,本说明书一个或多个实施例是这样实现的:一方面,本说明书一个或多个实施例提供一种数据的流式处理方法,应用于分布式文件系统HDFS,包括:接收客户端发送的针对指定文件的数据流式处理任务;其中,所述数据流式处理任务包括所述指定文件对应的流式处理逻辑;基于所述数据流式处理任务,接收所述客户端发送的单位数据;及,将所述单位数据存储至所述指定文件中;监测所述单位数据是否成功存储至所述指定文件中;若是,则按照所述流式处理逻辑对所述单位数据执行相应的流式处理,得到处理结果。在一个实施例中,在接收客户端发送的针对指定文件的数据流式处理任务之前,还包括:接收所述客户端发送的用于新建所述指定文件的第一指令;其中,所述第一指令中包括所述指定文件的文件元信息;所述文件元信息包括文件名、文件权限、文件路径、文件创建者中的至少一项信息;根据所述第一指令新建所述指定文件;将所述指定文件划分为多个预定大小的数据块;及,将各所述数据块分布在所述分布式文件系统HDFS的数据节点上;其中,所述数据块用于存储所述单位数据。在一个实施例中,所述将所述单位数据存储至所述指定文件中,包括:根据各所述数据块的相关存储信息,确定用于存储所述单位数据的第一数据块;其中,所述相关存储信息包括存储状态、分布位置中的至少一项;将所述客户端发送的所述单位数据存储至所述第一数据块中。在一个实施例中,所述方法还包括:按照预设频率更新所述处理结果;将更新后的所述处理结果存储至所述分布式文件系统HDFS的任务追踪器中。在一个实施例中,所述方法还包括:当接收到来自所述客户端的用于查询所述处理结果的查询请求时,获取最近一次更新后的目标处理结果;将所述目标处理结果发送至所述客户端。另一方面,本说明书一个或多个实施例提供一种数据的流式处理装置,应用于分布式文件系统HDFS,包括:第一接收模块,用于接收客户端发送的针对指定文件的数据流式处理任务;其中,所述数据流式处理任务包括所述指定文件对应的流式处理逻辑;接收及存储模块,用于基于所述数据流式处理任务,接收所述客户端发送的单位数据;及,将所述单位数据存储至所述指定文件中;监测模块,用于监测所述单位数据是否成功存储至所述指定文件中;处理模块,用于若所述单位数据成功存储至所述指定文件中,则按照所述流式处理逻辑对所述单位数据执行相应的流式处理,得到处理结果。在一个实施例中,所述装置还包括:第二接收模块,用于在接收客户端发送的针对指定文件的数据流式处理任务之前,接收所述客户端发送的用于新建所述指定文件的第一指令;其中,所述第一指令中包括所述指定文件的文件元信息;所述文件元信息包括文件名、文件权限、文件路径、文件创建者中的至少一项信息;新建模块,用于根据所述第一指令新建所述指定文件;划分及分布模块,用于将所述指定文件划分为多个预定大小的数据块;及,将各所述数据块分布在所述分布式文件系统HDFS的数据节点上;其中,所述数据块用于存储所述单位数据。在一个实施例中,所述接收及存储模块包括:确定单元,用于根据各所述数据块的相关存储信息,确定用于存储所述单位数据的第一数据块;其中,所述相关存储信息包括存储状态、分布位置中的至少一项;存储单元,用于将所述客户端发送的所述单位数据存储至所述第一数据块中。在一个实施例中,所述装置还包括:更新单元,用于按照预设频率更新所述处理结果;第二存储单元,用于将更新后的所述处理结果存储至所述分布式文件系统HDFS的任务追踪器中。在一个实施例中,所述装置还包括:获取模块,用于当接收到来自所述客户端的用于查询所述处理结果的查询请求时,获取最近一次更新后的目标处理结果;发送模块,用于将所述目标处理结果发送至所述客户端。再一方面,本说明书一个或多个实施例提供一种分布式文件系统HDFS,包括:任务追踪器,用于接收客户端发送的针对指定文件的数据流式处理任务;其中,所述数据流式处理任务包括所述指定文件对应的流式处理逻辑;所述指定文件存储于所述分布式文件系统HDFS的数据节点中;所述数据节点,用于基于所述数据流式处理任务,接收所述客户端发送的单位数据;及,将所述单位数据存储至所述指定文件中;所述任务追踪器,还用于监测所述单位数据是否成功存储至所述指定文件中;所述数据节点,还用于若所述任务追踪器监测到所述单位数据成功存储至所述指定文件,则按照所述流式处理逻辑对所述单位数据执行相应的流式处理,得到处理结果。在一个实施例中,所述任务追踪器,还用于若监测到所述单位数据成功存储至所述指定文件,则生成对所述单位数据执行流式处理的流式处理指令,并将所述流式处理指令下发至所述数据节点;所述数据节点,还用于接收所述流式处理指令;基于所述流式处理指令,按照所述流式处理逻辑对所述单位数据执行相应的流式处理。在一个实施例中,所述系统还包括:元数据节点,用于接收所述客户端发送的用于新建所述指定文件的第一指令;根据所述第一指令新建所述指定文件;将所述指定文件划分为多个指定大小的数据块;及,将各所述数据块分布在所述数据节点上;其中,所述第一指令中包括所述指定文件的文件元信息;所述文件元信息包括文件名、文件权限、文件路径、文件创建者中的至少一项信息;所述数据块用于存储所述单位数据。在一个实施例中,所述数据节点还用于:根据各所述数据块的相关存储信息,确定用于存储所述单位数据的第一数据块;其中,所述相关存储信息包括存储状态、分布位置中的至少一项;将所述客户端发送的所述单位数据存储至所述第一数据块中。在一个实施例中,所述数据节点上设有数据读取接口;所述数据节点还用于:在接收到所述流式处理指令之后,调用所述数据读取接口;利用所述数据读取接口读取所述第一数据块中的所述单位数据;及,对读取到的所述单位数据执行所述流式处理。在一个实施例中,所述数据节点还用于:按照预设频率将所述处理结果上传至所述任务追踪器。在一个实施例中,所述任务追踪器还用于:按照所述预设频率获取并更新所述处理结果;当接收到来自所述客户端的用于查询所述处理结果的查询请求时,获取最近一次更新后的目标处理结果;将所述目标处理结果发送至所述客户端。再一方面,本说明书一个或多个实施例提供一种数据的流式处理设备,应用于分本文档来自技高网...

【技术保护点】
1.一种数据的流式处理方法,应用于分布式文件系统HDFS,所述方法包括:接收客户端发送的针对指定文件的数据流式处理任务;其中,所述数据流式处理任务包括所述指定文件对应的流式处理逻辑;基于所述数据流式处理任务,接收所述客户端发送的单位数据;及,将所述单位数据存储至所述指定文件中;监测所述单位数据是否成功存储至所述指定文件中;若是,则按照所述流式处理逻辑对所述单位数据执行相应的流式处理,得到处理结果。

【技术特征摘要】
1.一种数据的流式处理方法,应用于分布式文件系统HDFS,所述方法包括:接收客户端发送的针对指定文件的数据流式处理任务;其中,所述数据流式处理任务包括所述指定文件对应的流式处理逻辑;基于所述数据流式处理任务,接收所述客户端发送的单位数据;及,将所述单位数据存储至所述指定文件中;监测所述单位数据是否成功存储至所述指定文件中;若是,则按照所述流式处理逻辑对所述单位数据执行相应的流式处理,得到处理结果。2.根据权利要求1所述的方法,在接收客户端发送的针对指定文件的数据流式处理任务之前,还包括:接收所述客户端发送的用于新建所述指定文件的第一指令;其中,所述第一指令中包括所述指定文件的文件元信息;所述文件元信息包括文件名、文件权限、文件路径、文件创建者中的至少一项信息;根据所述第一指令新建所述指定文件;将所述指定文件划分为多个预定大小的数据块;及,将各所述数据块分布在所述分布式文件系统HDFS的数据节点上;其中,所述数据块用于存储所述单位数据。3.根据权利要求2所述的方法,所述将所述单位数据存储至所述指定文件中,包括:根据各所述数据块的相关存储信息,确定用于存储所述单位数据的第一数据块;其中,所述相关存储信息包括存储状态、分布位置中的至少一项;将所述客户端发送的所述单位数据存储至所述第一数据块中。4.根据权利要求1所述的方法,还包括:按照预设频率更新所述处理结果;将更新后的所述处理结果存储至所述分布式文件系统HDFS的任务追踪器中。5.根据权利要求4所述的方法,还包括:当接收到来自所述客户端的用于查询所述处理结果的查询请求时,获取最近一次更新后的目标处理结果;将所述目标处理结果发送至所述客户端。6.一种数据的流式处理装置,应用于分布式文件系统HDFS,所述装置包括:第一接收模块,用于接收客户端发送的针对指定文件的数据流式处理任务;其中,所述数据流式处理任务包括所述指定文件对应的流式处理逻辑;接收及存储模块,用于基于所述数据流式处理任务,接收所述客户端发送的单位数据;及,将所述单位数据存储至所述指定文件中;监测模块,用于监测所述单位数据是否成功存储至所述指定文件中;处理模块,用于若所述单位数据成功存储至所述指定文件中,则按照所述流式处理逻辑对所述单位数据执行相应的流式处理,得到处理结果。7.根据权利要求6所述的装置,还包括:第二接收模块,用于在接收客户端发送的针对指定文件的数据流式处理任务之前,接收所述客户端发送的用于新建所述指定文件的第一指令;其中,所述第一指令中包括所述指定文件的文件元信息;所述文件元信息包括文件名、文件权限、文件路径、文件创建者中的至少一项信息;新建模块,用于根据所述第一指令新建所述指定文件;划分及分布模块,用于将所述指定文件划分为多个预定大小的数据块;及,将各所述数据块分布在所述分布式文件系统HDFS的数据节点上;其中,所述数据块用于存储所述单位数据。8.根据权利要求7所述的装置,所述接收及存储模块包括:确定单元,用于根据各所述数据块的相关存储信息,确定用于存储所述单位数据的第一数据块;其中,所述相关存储信息包括存储状态、分布位置中的至少一项;存储单元,用于将所述客户端发送的所述单位数据存储至所述第一数据块中。9.根据权利要求6所述的装置,还包括:更新单元,用于按照预设频率更新所述处理结果;第二存储单元,用于将更新后的所述处理结果存储至所述分布式文件系统HDFS的任务追踪器中。10.根据权利要求9所述的装置,还包括:获取模块,用于当接收到来自所述客户端的用于查询所述处理结果的查询请求时,获取最近一次更新后的目标处理结果;...

【专利技术属性】
技术研发人员:冶秀刚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1