【技术实现步骤摘要】
数据读取方法、装置及系统
本公开涉及数据处理
中的大数据和信息流
,尤其涉及一种数据读取方法、装置及系统。
技术介绍
随着数据量地增长,分布式表格存储系统作为一个高性能、可伸缩的结构化数据存储系统,被应用于对数据的管理,如数据的存储和读取等。在现有技术中,分布式表格存储系统的存储设备通常采用缓存(cache)和机械硬盘相结合的方式对数据进行管理,在读取某数据时,若该数据存储于缓存中,则从缓存中读取该数据,若缓存中没有存储该数据,则从机械硬盘中读取该数据。然而,缓存的存储空间有限,可能造成读取到数据的可靠性偏低的弊端,而从机械硬盘中读取数据会造成数据读取速度慢的弊端。
技术实现思路
本公开提供了一种用于提高数据读取速度的数据读取方法、装置及系统。根据本公开的第一方面,提供了一种数据读取方法,所述方法应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述方法包括:接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。根据本公开的第二方面,提供了一种数据读取装置,所述装置应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储 ...
【技术保护点】
1.一种数据读取方法,所述方法应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述方法包括:/n接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;/n若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。/n
【技术特征摘要】
1.一种数据读取方法,所述方法应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述方法包括:
接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;
若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。
2.根据权利要求1所述的方法,其中,所述数据读取请求中携带所述待读取数据的标识;若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据,包括:
若所述待读取数据未被存储于所述缓存,则从预设的标识与位置组级别之间的映射关系中,确定与所述待读取数据的标识对应的位置组级别;
若所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。
3.根据权利要求2所述的方法,其中,所述映射关系是基于所述分布式表格存储系统中预设的数据库对象的集合确定的。
4.根据权利要求1至3中任一项所述的方法,所述存储设备还包括用于分布式存储表格的数据的机械硬盘,所述机械硬盘用于存储位置级别小于所述级别阈值的数据;所述方法还包括:
若所述待读取数据存储于所述缓存中,则从所述缓存中获取并输出所述待读取数据;或者,
若所述待读取数据的位置组级别小于所述级别阈值,则从所述机械硬盘中获取并输出所述待读取数据。
5.根据权利要求1至4中任一项所述的方法,还包括:
获取文件调度任务,其中,所述文件调度任务用于指示将所述存储设备中用于分布式存储表格的数据的机械硬盘中的待调度文件,调度至固态硬盘,所述待调度文件为包括所述待读取数据的文件;
确定每一所述固态硬盘的剩余存储空间,并将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘。
6.根据权利要求5所述的方法,还包括:
若每一剩余存储空间均小于所述待调度文件的存储空间,则根据最近最少使用策略对任一固态硬盘中的至少部分原始数据进行清除处理,其中,所述至少部分原始数据的存储空间大于或等于所述待调度文件的存储空间;
将所述待调度文件存储至所述任一固态硬盘。
7.根据权利要求5所述的方法,其中,将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘,包括:
若所述至少一个固态硬盘中仅一个固态硬盘的剩余存储空间大于所述待调度文件的存储空间,则将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘中。
8.根据权利要求7所述的方法,其中,将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘,包括:
若所述至少一个固态硬盘中的多个固态硬盘的剩余存储空间大于所述待调度文件的存储空间,则确定剩余存储空间大于所述待调度文件的存储空间的固态硬盘中,剩余存储空间最大的固态硬盘,并将所述待调度文件存储至剩余存储空间最大的固态硬盘。
9.根据权利要求6至8中任一项所述的方法,还包括:
生成并保存所述待调度文件的存储路径,其中,所述存储路径用于确定所述待读取数据的存储位置。
10.根据权利要求9所述的方法,其中,若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据,包括:
根据所述存储路径确定用于存储待读取数据的固态硬盘,并从用于存储所述待读取文件的固态硬盘中获取并输出所述待读取数据。
11.一种数据读取装置,所述装置应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述装置包括:
接收单元,用于接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;
第一获取单元,用于若所述待读取数据未被存储于所述缓存、且所述待读取数据的...
【专利技术属性】
技术研发人员:邢布飞,邹永,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。