一种基于读写分离的HDFS随机读加速方法技术

技术编号:36960072 阅读:90 留言:0更新日期:2023-03-22 19:20
本发明专利技术公开了一种基于读写分离的HDFS随机读加速方法,涉及大数据存储领域,将HDFS的读和写完全分离。数据的读写依然采取HDFS的API,写入以顺序写为主,保持原HdfsDirectory机制不变;将查询逻辑下沉至DataNode,直接读取本地磁盘文件,从而简化读的流程,使性能接近本地文件系统的性能;同时利用HDFS的分布式及副本机制,即能保证数据本地读,同时简化了设计,基于DataNode进程建立DNGrpcServer服务,简化数据读取流程,处理数据读取请求,拿到NameNode查询的文件位置直接向对应的块位置的DataNode发送gRPC请求,通过传输粒度的较少加速数据传输,直接读取文件所在的磁盘位置,提高随机读能力。提高随机读能力。提高随机读能力。

【技术实现步骤摘要】
一种基于读写分离的HDFS随机读加速方法


[0001]本专利技术涉及大数据存储领域,尤其涉及一种基于读写分离的HDFS随机读加速方法。

技术介绍

[0002]HDFS即Hadoop分布式文件系统(HadoopDistributedFileSystem),以面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错性和大规模水平扩展的特性。作为海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询、交互式分析等丰富的应用场景。HDFS的性能问题将影响所有大数据系统和应用,因此对HDFS存储性能的优化至关重要。
[0003]HDFS读写数据通过DataXceiverServer提供的服务建立Socket服务,接受客户端的各种请求,每种请求有不同的操作码,服务端通过操作码类型判断请求类型。
[0004]HDFS原生读流程如图1所示:
[0005]1)HDFS客户端向NameNode发起RPC(远程过程调用),获得文件的开始部分或全部block列表(包含所在DataNode列表,这些DataNode会按本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种读写分离的HDFS随机读加速方法,其特征在于:具体包含如下步骤;步骤1,将HDFS的读和写完全分离;HDFS为Hadoop分布式文件系统;步骤2,将查询逻辑下沉至数据节点DataNode,直接读取本地磁盘文件,从而简化读的流程,使性能接近本地文件系统的性能;步骤3,利用HDFS的分布式及副本机制进行操作,文件的每个块都有多个副本存储在不同的数据节点DataNode上,数据节点DataNode会定时将磁盘块数据向名称节点NameNode进行汇报,客户端查询时优先读取数据节点DataNode的本地磁盘文件,保证数据的本地读取。2.根据权利要求1所述的一种读写分离的HDFS随机读加速方法,其特征在于:在步骤1中,数据的读和写采取HDFS的应用程序编程接口API,写入以顺序写为主,保持原分布文件系统文件夹HdfsDirectory机制不变。3.根据权利要求2所述的一种读写分离的HDFS随机读加速方法,其特征在于:在步骤1中,HDFS读,具体包含如下步骤:步骤1.1,HDFS客户端Client向名称节点NameNode发起远程过程调用RPC,获得文件的块信息;步骤1.2,HDFS客户端Client根据块位置信息通过Google远程过程调用...

【专利技术属性】
技术研发人员:曹俊亮程丽红延瑜瑜刘伟袁鸽鸽高超
申请(专利权)人:西安烽火软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1