【技术实现步骤摘要】
数据获取方法及装置、计算机可读存储介质、处理器
[0001]本专利技术涉及数据处理
,具体而言,涉及一种数据获取方法及装置
、
计算机可读存储介质
、
处理器
。
技术介绍
[0002]当下人们每天产生海量的数据,海量数据的存储成为了问题,而
HDFS
可以很好的存储这些海量数据
。HDFS
是一种旨在商品硬件上运行的分布式文件系统
。HDFS
具有高度的容错能力,旨在部署在低成本硬件上,提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序
。
而
HDFS
下载文件是把整个文件都下载到本地才算结束,下载时间过长,一旦网络抖动,就可能下载失败,只能重新下载,浪费资源
。
用户需要用到这些数据,进行下载时,由于
HDFS
的上述特点,其提供的
API
会把整个文件下载到本地,一旦因为网络抖动造成下载失败,用户只能重新下载整个文件,用户体验差
。
[0003]针对上述相关技术中用于存储数据的
HDFS
由于在下载文件时需要把整个文件都下载到本地,在下载过程中若出现网络抖动,会下载失败,只能重新下载,浪费资源的问题,目前尚未提出有效的解决方案
。
技术实现思路
[0004]本专利技术实施例提供了一种数据获取方法及装置
、
计算机可读存储介质
、
处理器 ...
【技术保护点】
【技术特征摘要】
1.
一种数据获取方法,其特征在于,包括:接收客户端发送的数据请求信息,其中,所述数据请求信息用于请求下载目标数据;在所述数据请求信息为文件起止位置信息以及初始文件标识符时,基于所述文件起止文件信息在分布式文件系统
HDFS
中对所述
HDFS
存储的预定数据进行分块,得到所述预定数据对应的多个预定数据块,其中,所述预定数据是所述目标数据中除本地已经存在的部分数据的数据,所述文件起止位置信息包括:所述部分数据的结束位置,所述目标数据的结束位置,所述初始文件标识符是所述本地对其存储的所述部分数据进行分块得到的多个部分数据块中每一个的文件标识符;确定所述多个预定数据块中每一个的预定文件标识符;在确定所述预定文件标识符与所述初始文件标识符不一致时,确定所述文件起止位置信息对应的待发送数据块以及所述待发送数据的待发文件标识符;将所述待发送数据块和所述待发文件标识符发送至所述客户端,其中,所述客户端在接收到所述待发送数据块和所述待发文件标识符后,计算所述待发送数据块的当前文件标识符,并在确定所述当前文件标识符与所述待发文件标识符一致时,将所述部分数据与所述待发送数据块一起作为所述目标数据发送至预定终端
。2.
根据权利要求1所述的数据获取方法,其特征在于,在所述数据请求信息为文件起止位置信息以及初始文件标识符时,基于所述文件起止文件信息在分布式文件系统
HDFS
中对所述
HDFS
存储的预定数据进行分块,得到所述预定数据对应的多个预定数据块,包括:对所述数据请求信息进行解析,得到所述文件起止位置信息
、
所述初始文件标识符;在所述
HDFS
中搜索得到所述预定数据;在所述
HDFS
上基于所述文件起止位置信息对所述预定数据进行分块,得到所述多个预定数据块
。3.
根据权利要求1所述的数据获取方法,其特征在于,在确定所述预定文件标识符与所述初始文件标识符不一致时,确定所述文件起止位置信息对应的待发送数据块以及所述待发送数据的待发文件标识符,包括:将所述预定文件标识符与所述初始文件标识符进行比对,得到比对结果;在所述比对结果表示所述预定文件标识符与所述初始文件标识符中存在不一致的文件标示符时,确定所述预定文件标识符与所述初始文件标识符中存在不一致的文件标示符为目标文件标识符;基于所述目标文件标识符以及所述起止位置信息确定所述待发送数据块
。4.
根据权利要求1至3中任一项所述的数据获取方法,其特征在于,将所述待发送数据块和所述待发文件标识符发送至所述客户端,包括:在所述
HDFS
上对所述待发送数据块进行分片,得到所述待发送数据块对应的多个数据片;将所述多个数据片与所述待发文件标识符发送至所述客户端,以利用所述客户端在确定所述多个数据片的文件标识符与所述待发文件标识符一致时,将所述部分数据与所述待发送数据块一起作为所述目标数据发送至所述预定终端
。5.
根据权利要求1所述的数据获取方法,其特征在于,还包括:在所述数据请求信息为所述目标数据的文件路径时,根据文件路径从预定存储介质获
取所述目标数据;在所述
HDFS
上对所述目标数据进行分块,得到所述目标数据对应的多个目标数据块;将所述多个目标数据...
【专利技术属性】
技术研发人员:郑元龙,杨亚光,高俊峰,
申请(专利权)人:中国邮政储蓄银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。