System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于HDFS系统的数据处理方法及装置制造方法及图纸_技高网

一种基于HDFS系统的数据处理方法及装置制造方法及图纸

技术编号:41288193 阅读:3 留言:0更新日期:2024-05-11 09:37
本申请提供一种基于HDFS系统的数据处理方法及装置。该方法提出在与主机连接的数据处理装置中配置用于存储HDFS系统元数据的第一存储单元,以及用于存储主机所需的热点数据的第二存储单元。在主机需要第一数据时,数据处理装置在确定第二存储单元中未存储第一数据时,通过第一存储单元中的元数据快速地从HDFS系统获取第一数据并提供给主机,从而提升主机数据处理的效率。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种基于hdfs系统的数据处理方法及装置。


技术介绍

1、hadoop的分布式文件系统(hadoop distributed file system,hdfs)由元数据节点(namenode)和数据节点(datanode)组成,其中元数据节点用于为hdfs系统提供元数据管理服务。数据节点以数据块的形式存储数据,用于为客户端提供数据块的读写服务。

2、在具体实现数据处理时,以读取数据为例,客户端首先向元数据节点发送数据读取请求,并接收元数据节点返回用于表征待读取数据存储位置的元数据。进一步地,客户端根据接收到的元数据的指示,与对应的数据节点进行交互获取数据。客户端在执行一个处理进程时,可能需要多次读取数据,由于hdfs系统这种存算分离的存储架构,客户端在每次读取数据时均需要与元数据节点交互获取元数据,这使得基于hdfs系统实现的数据处理过程的效率较低。


技术实现思路

1、本申请实施例提供一种基于hdfs系统的数据处理方法及装置,用于提升主机进行数据处理的效率。

2、第一方面,本申请提出了一种基于hdfs系统的数据处理方法,所述hdfs系统包括元数据节点和数据节点,所述方法应用于数据处理装置,所述数据处理装置与主机连接,所述数据处理装置包括第一存储单元和第二存储单元,所述第一存储单元中存储有所述hdfs系统的元数据节点中的元数据,所述第二存储单元中存储所述主机所需的热点数据,所述方法包括:

3、接收来自所述主机的第一请求;所述第一请求用于请求第一数据;

4、在确定所述第二存储单元中未存储所述第一数据时,根据所述第一存储单元存储的所述第一数据的元数据,向所述数据节点发送所述第一请求;所述第一数据的元数据指示所述第一数据在所述数据节点的存储位置;

5、接收所述数据节点发送的所述第一数据,向所述主机发送所述第一数据。

6、基于上述方案,本申请提出了一种卸载了主机和hdfs系统的部分处理功能,以及配置有hdfs系统元数据和热点数据的数据处理装置,主机在进行数据处理时,可以通过i/o接口与数据处理装置进行交互,根据数据处理装置中存储的元数据快速地获取所需的数据。相较于现有技术中主机需要分别与hdfs系统的元数据节点和数据节点建立tcp链接获取数据,本申请的方案能够有效提升主机数据处理的效率。

7、在一些实施例中,所述方法还包括:

8、接收来自所述主机的第二请求;所述第二请求用于请求第二数据的元数据;

9、在确定所述第一存储单元中存储所述第二数据的元数据时,从所述第一存储单元中读取所述第二数据的元数据;

10、向所述主机发送所述第二数据的元数据。

11、现有技术中,主机需要在每次进行数据处理时均需要与元数据节点建立网络链接来获取元数据。本申请的方案中,主机可以通过连接的数据处理装置直接获取所需的元数据。

12、在一些实施例中,所述方法还包括:

13、在确定所述第一存储单元中未存储所述第二数据的元数据时,向所述元数据节点发送所述第二请求;

14、接收所述元数据节点发送的所述第二数据的元数据,向所述主机发送所述第二数据的元数据;

15、将所述第二数据的元数据存储至第一存储单元。

16、在一些实施例中,所述方法还包括:

17、在确定所述热点数据中包括所述第一数据时,从所述第二存储单元读取所述第一数据;

18、向所述主机发送所述第一数据。

19、基于上述方案,本申请提出在数据处理装置中配置用于存储主机常用的热点数据的第二存储单元,数据处理装置在接收到来自主机的读取数据的请求时,可以首先判断第二存储单元中是否有数据。若有,则可以直接从第二存储单元中读取数据发送给主机,相较于现有技术不仅节省了主机与元数据节点建立链接的步骤,还节省了与数据节点建立链接的步骤,进一步提升了数据处理的效率。

20、在一些实施例中,所述第一请求是在所述主机执行第一处理进程的过程中产生的,所述第二存储单元包括至少一个存储空间;所述确定所述第二存储单元存储的热点数据中不包括所述第一数据,包括:

21、确定所述第一处理进程对应的第一存储空间中不包括所述第一数据;所述第一存储空间为所述至少一个存储空间中的一个存储空间。

22、在一些实施例中,所述方法还包括:

23、在接收所述数据节点发送的所述第一数据后,将所述第一数据存储至所述第一存储空间。

24、基于上述方案,本申请提出了在第一存储空间中没有主机所需的数据的情况下,数据处理装置会在获取到主机所需的数据之后将其存储在第一存储空间中,作为新的热点数据。

25、在一些实施例中,所述至少一个存储空间还包括第二存储空间,所述第二存储空间存储有执行第二处理进程的过程中所需的第一数据,所述方法还包括:

26、在所述第一存储空间中的所述第一数据被修改时,将所述第二存储空间中的所述第一数据删除。

27、在一些实施例中,所述方法还包括:

28、在所述第二存储单元中的所述第一数据被修改时,向所述数据节点发送更新指令;所述更新指令携带修改后的所述第一数据。

29、基于上述方案,本申请提出一种针对主机不同处理进程的热点数据的失效机制。在任一处理进程对应的存储空间中的任一数据发生更新时,数据处理装置会将其他存在该数据的存储空间中的该数据删除,保障各存储空间中数据的准确性。

30、在一些实施例中,所述方法还包括:

31、在所述第二存储单元的剩余容量小于容量阈值时,将所述热点数据中的过期数据删除;所述过期数据为最新被访问的时间与当前时刻的时间差大于时间阈值的热点数据,或访问次数小于次数阈值的热点数据。

32、在一些实施例中,所述第一请求携带第一数据在所述数据节点的存储位置,所述方法还包括:

33、在向所述数据节点发送所述第一请求后,接收所述数据节点返回的第一响应;所述第一响应用于表征所述第一请求携带的存储位置中不存在所述第一数据;

34、向所述元数据节点发送第三请求;所述第三请求用于请求所述元数据节点中的所述第一数据的元数据;

35、采用所述元数据节点返回的所述第一数据的元数据替换所述第一存储单元中存储的所述第一数据的元数据。

36、基于上述方案,本申请提出了第一存储单元存储的元数据的更新机制,提升数据处理装置的元数据与hdfs系统元数据节点的元数据的一致性,避免元数据更新不及时导致无法读取数据的问题。

37、第二方面,本申请实施例提出了一种基于hdfs系统的数据处理装置,所述hdfs系统包括元数据节点和数据节点,所述装置与主机连接,所述装置包括第一存储单元和第二存储单元,所述第一存储单元中存储有所述hdfs系统的元数据节点中的元数据,所述第二存储单元中存储所述主机所需的热点数据,所本文档来自技高网...

【技术保护点】

1.一种基于HDFS系统的数据处理方法,其特征在于,所述HDFS系统包括元数据节点和数据节点,所述方法应用于数据处理装置,所述数据处理装置与主机连接,所述数据处理装置包括第一存储单元和第二存储单元,所述第一存储单元中存储有所述HDFS系统的元数据节点中的元数据,所述第二存储单元中存储所述主机所需的热点数据,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-3任一项所述的方法,其特征在于,所述第一请求是在所述主机执行第一处理进程的过程中产生的,所述第二存储单元包括至少一个存储空间;所述确定所述第二存储单元存储的热点数据中不包括所述第一数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求5或6所述的方法,其特征在于,所述至少一个存储空间还包括第二存储空间,所述第二存储空间存储有执行第二处理进程的过程中所需的第一数据,所述方法还包括:

8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

10.根据权利要求1-8任一项所述的方法,其特征在于,所述第一请求携带第一数据在所述数据节点的存储位置,所述方法还包括:

11.一种基于HDFS系统的数据处理装置,其特征在于,所述HDFS系统包括元数据节点和数据节点,所述装置与主机连接,所述装置包括第一存储单元和第二存储单元,所述第一存储单元中存储有所述HDFS系统的元数据节点中的元数据,所述第二存储单元中存储所述主机所需的热点数据,所述装置还包括:

12.根据权利要求11所述的装置,其特征在于,所述通信单元,还用于接收来自所述主机的第二请求;所述第二请求用于请求第二数据的元数据;

13.根据权利要求12所述的装置,其特征在于,所述通信单元,还用于:

14.根据权利要求11-13任一项所述的装置,其特征在于,所述处理单元,还用于:

15.根据权利要求11-13任一项所述的装置,其特征在于,所述第一请求是在所述主机执行第一处理进程的过程中产生的,所述第二存储单元包括至少一个存储空间;所述处理单元,具体用于:

16.根据权利要求15所述的装置,其特征在于,所述处理单元,还用于:

17.根据权利要求15或16所述的装置,其特征在于,所述至少一个存储空间还包括第二存储空间,所述第二存储空间存储有执行第二处理进程的过程中所需的第一数据,所述处理单元,还用于:

18.根据权利要求11-17任一项所述的装置,其特征在于,所述通信单元,还用于:

19.根据权利要求11-17任一项所述的装置,其特征在于,所述处理单元,还用于:

20.根据权利要求11-18任一项所述的装置,其特征在于,所述第一请求携带第一数据在所述数据节点的存储位置,所述通信单元,还用于在向所述数据节点发送所述第一请求后,接收所述数据节点返回的第一响应;所述第一响应用于表征所述第一请求携带的存储位置中不存在所述第一数据;

21.一种基于HDFS系统的数据处理装置,其特征在于,包括:处理器和存储器;

22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被电子装置调用时,使所述电子装置执行如权利要求1-10中任一项所述的方法。

23.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种基于hdfs系统的数据处理方法,其特征在于,所述hdfs系统包括元数据节点和数据节点,所述方法应用于数据处理装置,所述数据处理装置与主机连接,所述数据处理装置包括第一存储单元和第二存储单元,所述第一存储单元中存储有所述hdfs系统的元数据节点中的元数据,所述第二存储单元中存储所述主机所需的热点数据,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-3任一项所述的方法,其特征在于,所述第一请求是在所述主机执行第一处理进程的过程中产生的,所述第二存储单元包括至少一个存储空间;所述确定所述第二存储单元存储的热点数据中不包括所述第一数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求5或6所述的方法,其特征在于,所述至少一个存储空间还包括第二存储空间,所述第二存储空间存储有执行第二处理进程的过程中所需的第一数据,所述方法还包括:

8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

10.根据权利要求1-8任一项所述的方法,其特征在于,所述第一请求携带第一数据在所述数据节点的存储位置,所述方法还包括:

11.一种基于hdfs系统的数据处理装置,其特征在于,所述hdfs系统包括元数据节点和数据节点,所述装置与主机连接,所述装置包括第一存储单元和第二存储单元,所述第一存储单元中存储有所述hdfs系统的元数据节点中的元数据,所述第二存储单元中存储所述主机所需的热点数据,所述装置还包括:

12.根据权利要求1...

【专利技术属性】
技术研发人员:何洋罗先强王锋
申请(专利权)人:成都华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1