数据读取方法、装置及系统制造方法及图纸

技术编号:29583056 阅读:20 留言:0更新日期:2021-08-06 19:40
本公开公开了一种数据读取方法、装置及系统,涉及数据处理技术领域中的大数据和信息流技术领域。方法应用于分布式表格存储系统的存储设备,存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,表格中的每一数据具有一个位置组级别,每一固态硬盘用于存储位置组级别大于预设的级别阈值的数据,方法包括:接收数据读取请求,数据读取请求用于请求读取目标表格的待读取数据,若待读取数据未被存储于缓存、且待读取数据的位置组级别大于级别阈值,从待读取数据所在的固态硬盘中获取并输出待读取数据,避免了增加缓存扩展存储空间造成的成本偏高的问题,实现节约成本,且可以实现固态硬盘的资源合理利用,还可以提高数据读取效率。

【技术实现步骤摘要】
数据读取方法、装置及系统
本公开涉及数据处理
中的大数据和信息流
,尤其涉及一种数据读取方法、装置及系统。
技术介绍
随着数据量地增长,分布式表格存储系统作为一个高性能、可伸缩的结构化数据存储系统,被应用于对数据的管理,如数据的存储和读取等。在现有技术中,分布式表格存储系统的存储设备通常采用缓存(cache)和机械硬盘相结合的方式对数据进行管理,在读取某数据时,若该数据存储于缓存中,则从缓存中读取该数据,若缓存中没有存储该数据,则从机械硬盘中读取该数据。然而,缓存的存储空间有限,可能造成读取到数据的可靠性偏低的弊端,而从机械硬盘中读取数据会造成数据读取速度慢的弊端。
技术实现思路
本公开提供了一种用于提高数据读取速度的数据读取方法、装置及系统。根据本公开的第一方面,提供了一种数据读取方法,所述方法应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述方法包括:接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。根据本公开的第二方面,提供了一种数据读取装置,所述装置应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述装置包括:接收单元,用于接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;第一获取单元,用于若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取所述待读取数据;输出单元,用于输出所述待读取数据。根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。根据本公开的第六方面,提供了一种数据读取系统,包括:用于分布式表格存储系统的存储设备、以及如第一方面所述的装置,其中,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是相关技术中存储设备的示意图;图2是根据本公开第一实施例的示意图;图3是根据本公开第二实施例的示意图;图4是根据本公开第三实施例的示意图;图5是根据本公开第四实施例的示意图;图6是根据本公开第五实施例的示意图;图7是根据本公开第六实施例的示意图;图8是根据本公开第七实施例的示意图;图9是用来实现本公开实施例的数据读取方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是相关技术中存储设备的示意图,存储设备用于存储数据。如图1所示,存储设备包括:缓存和机械硬盘(Mechanicalharddisk,HDD)。一般而言,缓存中存储有少量的数据,且该少量的数据通常为使用率偏高的数据;机械硬盘中存储有全部数据。其中,应用于如图1所示的存储设备的数据读取的方法为:当接收到数据读取请求时,先确定数据读取请求对应的待读取数据是否被存储于缓存中,如果待读取数据被存储于缓存中,则从缓存中获取并输出待读取数据,如果缓存中没有待存储数据,则从机械硬盘中获取并输出待读取数据。相对而言,缓存的存储空间相对较小,可以存储的数据的量相对较少,因此,大部分数据无法从缓存中直接获取,而需要从机械硬盘中获取,因此,可能造成数据读取的效率偏低的技术问题。在一些实施例中,可以通过扩展缓存的方式,以便增加各缓存用于存储数据的存储空间。但是,缓存的成本相对偏高,通过增加缓存的方式容易造成数据存储的成本偏高的技术问题,且当存储设备故障或断电等异常情况发生时,可能造成缓存中的数据丢失的问题,则可能造成数据读取的可靠性偏低的技术问题。为了解决上述技术问题中的至少一种,本公开的专利技术人经过创造性地劳动,得到了本公开的专利技术构思:存储装置包括用于存储数据的固态硬盘(SolidStateDisk或SolidStateDrive,SSD)若缓存中没有读取到待读取数据,则从固态硬盘中读取位置组级别大于级别阈值的待读取数据。基于上述专利技术构思,本公开提供一种数据读取方法、装置及存储设备,应用于数据处理
中的大数据和信息流
,以达到节约数据的存储成本,提高数据读取效率。图2是根据本公开第一实施例的示意图,如图2所示,本实施例的数据读取方法包括:S201:接收数据读取请求。其中,本实施例提供的数据读取方法可以应用于分布式表格存储系统的存储设备,存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,表格中的每一数据具有一个位置组级别,每一固态硬盘用于存储位置组级别大于预设的级别阈值的数据,数据读取请求用于请求读取目标表格的待读取数据。示例性地,本实施例的数据读取方法的执行主体可以为数据读取装置,且数据读取装置可以为存储设备,存储设备具体可以为服务器(如云端服务器,或者,本地服务器),也可以为终端设备,数据读取装置也可以为处理器,数据读取装置也可以为芯片等,本实施例不做限定。值得说明地是,在本实施例中,存储设备包括缓存和固态硬盘,其中,缓存和固态硬盘分别对表格的数据进行分布式存储,且在一些实施例中,固态硬盘的数量为一个,在另一些本文档来自技高网
...

【技术保护点】
1.一种数据读取方法,所述方法应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述方法包括:/n接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;/n若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。/n

【技术特征摘要】
1.一种数据读取方法,所述方法应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述方法包括:
接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;
若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。


2.根据权利要求1所述的方法,其中,所述数据读取请求中携带所述待读取数据的标识;若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据,包括:
若所述待读取数据未被存储于所述缓存,则从预设的标识与位置组级别之间的映射关系中,确定与所述待读取数据的标识对应的位置组级别;
若所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据。


3.根据权利要求2所述的方法,其中,所述映射关系是基于所述分布式表格存储系统中预设的数据库对象的集合确定的。


4.根据权利要求1至3中任一项所述的方法,所述存储设备还包括用于分布式存储表格的数据的机械硬盘,所述机械硬盘用于存储位置级别小于所述级别阈值的数据;所述方法还包括:
若所述待读取数据存储于所述缓存中,则从所述缓存中获取并输出所述待读取数据;或者,
若所述待读取数据的位置组级别小于所述级别阈值,则从所述机械硬盘中获取并输出所述待读取数据。


5.根据权利要求1至4中任一项所述的方法,还包括:
获取文件调度任务,其中,所述文件调度任务用于指示将所述存储设备中用于分布式存储表格的数据的机械硬盘中的待调度文件,调度至固态硬盘,所述待调度文件为包括所述待读取数据的文件;
确定每一所述固态硬盘的剩余存储空间,并将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘。


6.根据权利要求5所述的方法,还包括:
若每一剩余存储空间均小于所述待调度文件的存储空间,则根据最近最少使用策略对任一固态硬盘中的至少部分原始数据进行清除处理,其中,所述至少部分原始数据的存储空间大于或等于所述待调度文件的存储空间;
将所述待调度文件存储至所述任一固态硬盘。


7.根据权利要求5所述的方法,其中,将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘,包括:
若所述至少一个固态硬盘中仅一个固态硬盘的剩余存储空间大于所述待调度文件的存储空间,则将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘中。


8.根据权利要求7所述的方法,其中,将所述待调度文件存储至剩余存储空间大于所述待调度文件的存储空间的固态硬盘,包括:
若所述至少一个固态硬盘中的多个固态硬盘的剩余存储空间大于所述待调度文件的存储空间,则确定剩余存储空间大于所述待调度文件的存储空间的固态硬盘中,剩余存储空间最大的固态硬盘,并将所述待调度文件存储至剩余存储空间最大的固态硬盘。


9.根据权利要求6至8中任一项所述的方法,还包括:
生成并保存所述待调度文件的存储路径,其中,所述存储路径用于确定所述待读取数据的存储位置。


10.根据权利要求9所述的方法,其中,若所述待读取数据未被存储于所述缓存、且所述待读取数据的位置组级别大于所述级别阈值,则从所述待读取数据所在的固态硬盘中获取并输出所述待读取数据,包括:
根据所述存储路径确定用于存储待读取数据的固态硬盘,并从用于存储所述待读取文件的固态硬盘中获取并输出所述待读取数据。


11.一种数据读取装置,所述装置应用于分布式表格存储系统的存储设备,所述存储设备包括用于分布式存储表格的数据的缓存和至少一个固态硬盘,所述表格中的每一数据具有一个位置组级别,每一所述固态硬盘用于存储位置组级别大于预设的级别阈值的数据;所述装置包括:
接收单元,用于接收数据读取请求,其中,所述数据读取请求用于请求读取目标表格的待读取数据;
第一获取单元,用于若所述待读取数据未被存储于所述缓存、且所述待读取数据的...

【专利技术属性】
技术研发人员:邢布飞邹永
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1