【技术实现步骤摘要】
本专利技术涉及一种文件处理的
,具体涉及一种基于分布式文件系统的文件读取方法、一种基于分布式文件系统的文件写入方法、以及一种节点服务器。
技术介绍
随着信息技术的快速发展,海量的信息需要被可靠存储的同时,还要满足被大量的使用者快速访问的需求。传统的存储方案已经从构架上越来越难以适应近几年来的业务的飞速发展,成为了业务发展的瓶颈和障碍,此时HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)应运而生。HDFS是通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。HDFS对数据存储的最小单位为块(block),HDFS会将其存储的大文件打散成很多block。HDFS在进行block读写的时候是以packet为单位进行的,每一个packet由若干个chunk(chunk是进行数据校验的基本单位)组成,对每一个chunk生成一个校验和(checksum)并将校验和进行存储(在默认情况下一个chunk的大小是512byte,生成的校验和是4byte)。参考图1所示的block存储方式,每个block分为数据块文件(block文件)以及其对应的数据块验证文件(meta文件),读取block文件中的数据时,首先从meta文件的checksumheader ...
【技术保护点】
一种基于分布式文件系统的文件读取方法,所述方法包括:数据节点服务器接收客户端发送的数据访问请求,所述数据访问请求包括需要读取的目标数据块的信息;获得与所述目标数据块的信息匹配的目标数据块,所述目标数据块包括标识信息以及第一数据信息,所述标识信息包括校验属性信息;将所述校验属性信息以及所述第一数据信息发送至所述客户端。
【技术特征摘要】
1.一种基于分布式文件系统的文件读取方法,所述方法包括:
数据节点服务器接收客户端发送的数据访问请求,所述数据访问请
求包括需要读取的目标数据块的信息;
获得与所述目标数据块的信息匹配的目标数据块,所述目标数据块
包括标识信息以及第一数据信息,所述标识信息包括校验属性信息;
将所述校验属性信息以及所述第一数据信息发送至所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述第一数据信息包
括分片数据chunk以及对应的校验和数据checksum,其中,所述分片数
据chunk以及所述校验和数据checksum存储在磁盘的同一个存储介质中。
3.根据权利要求2所述的方法,其特征在于,将所述校验属性信息
以及所述第一数据信息发送至所述客户端的步骤包括:
从所述目标数据块的标识信息中读取所述校验属性信息发送至所述
客户端;
从所述存储介质中读取预设大小的分片数据chunk以及对应的校验
和数据checksum发送至所述客户端。
4.根据权利要求1或2或3所述的方法,其特征在于,所述校验属
性信息包括校验和版本Inlinechecksumversion,校验和类型checksumtype,
以及每个校验和字节数bytesPerChecksum。
5.根据权利要求3所述的方法,其特征在于,所述目标数据块的信
息包括目标数据块的块内偏移量startOffset以及目标数据块的长度,所述
预设大小为第一数据包packet的大小,所述从所述存储介质中读取预设
大小的分片数据chunk以及对应的校验和数据checksum发送至所述客户
端的步骤包括:
子步骤S11,创建第一数据包packet;
子步骤S12,依据所述目标数据块的块内偏移量startOffset计算起始
位置;
子步骤S13,从所述起始位置开始,在所述存储介质中依次读取每个
分片数据chunk以及与所述分片数据chunk对应的校验和数据checksum
\t到所述第一数据包packet中,直到填满所述第一数据包packet;
子步骤S14,将所述第一数据包packet发送至客户端中;
子步骤S15,重复上述子步骤S11至子步骤S14,直到发送至客户端
的数据的大小等于所...
【专利技术属性】
技术研发人员:郭东东,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。