数据存储方法和装置制造方法及图纸

技术编号:28320127 阅读:41 留言:0更新日期:2021-05-04 13:00
本文是关于一种数据存储方法和装置。涉及计算机互联网领域,解决了以文件组为文件整体将文件由多副本类型转换为EC类型存储时影响访问的问题。该方法包括:根据数据被访问情况,重新确定所述数据的存储类型;将所述数据按照重新确定的所述存储类型进行存储。本文提供的技术方案适用于分布式存储系统,实现了适应访问需求的数据存储管理。

【技术实现步骤摘要】
数据存储方法和装置
本文涉及计算机互联网领域,尤其涉及一种数据存储方法和装置。
技术介绍
分布式存储中数据热度不同,导致数据的访问频次存在差别。通常将访问频次较高的数据称为热数据,访问频次较低甚至几乎没有访问的数据称为冷数据。基于冷热数据的访问需求不同,对于热数据一般采用多副本方式存储以满足文件的高并发访问,对于冷数据则可采用EC(ErasureCode,即纠删码)冷存储方式存储以降低存储成本,考虑到存储资源有限,需要将数据从多副本的存储方式导入为EC存储方式以节约资源。分布式存储中,多副本数据的存储方式是将文件数据存储K份冗余副本,K份副本分布在指定故障隔离级别的存储设备中(如隔离级别为磁盘,则K份数据分布在不同的磁盘中);EC存储方式是将文件数据通过EC编码计算得到M+N份数据(M为数据块数量,N为编码块数量),这样存储成本为(M+N)/N,比热数据多副本K倍数据冗余降低存储成本。大部分分布式存储中,多副本数据一般将多个文件数据放置在一个文件组中,文件组的存储容量固定(如10GB),当文件组中的数据超过文件组的容量后将该文件组设置为只读状态,并在文件组设置为只读状态后,以文件组为单位将数据导入到EC存储方式的存储中。以文件组为单位导入EC存储的方法,存在以下问题:1、文件数据是以文件组为单位导入的,文件组中可能即存在热数据也存在冷数据,这样会将热数据导入为EC存储模式进行存储,影响文件的高并发访问效率,EC存储模式的数据被频繁访问会造成系统资源的很大负担。2、无法直接删除EC存储方式下的文件数据,如果文件数据所在文件组已经整个导入为EC存储方式,则无法直接删除该文件数据,影响文件管理。
技术实现思路
为克服相关技术中存在的问题,本文提供一种数据存储方法和装置。根据本文的一方面,提供一种数据存储方法,包括:根据数据被访问情况,重新确定所述数据的存储类型;将所述数据按照重新确定的所述存储类型进行存储。优选的,根据数据被访问情况,重新确定所述数据的存储类型的步骤包括:获取所述数据被访问的访问概率;将所述访问概率与预置的至少一个存储条件进行比较,所述存储条件包含访问概率区间和对应的存储类型;在所述访问概率符合预置的存储条件的访问概率区间的情况下,确定对应的存储类型为所述数据的存储类型。优选的,所述存储类型至少包含以下类型中的任一或任意多项:多副本存储、纠删码EC存储,该方法还包括:配置至少一个存储条件,所述存储条件至少包含以下条件中的任一或任意多项:在访问概率在第一访问概率区间内的情况下,确定数据的存储类型为多副本存储,在访问概率在第二访问概率区间内的情况下,确定数据的存储类型为EC存储,其中,所述第一访问概率区间的下限大于等于所述第二访问概率区间的上限。优选的,所述第一访问概率区间和所述第二访问概率区间均为时间区间,所述获取所述数据被访问的访问概率的步骤包括:获取所述数据最近一次被访问的访问时间,以所述访问时间作为计算访问概率的输入参数。优选的,在所述数据的存储类型由多副本类型变为EC类型的情况下,所述将所述数据按照重新确定的所述存储类型进行存储的步骤包括:确定导入范围;将所述导入范围内存在的多副本存储类型的数据的文件记录导入为所述EC类型进行存储,将所述导入范围内已删除的多副本存储类型的数据的删除记录导入为所述EC类型进行存储。优选的,所述确定导入范围的步骤包括:选择被访问的访问概率符合所述存储条件,且在SHA1范围内的多副本存储类型的数据为所述导入范围。优选的,该方法还包括:更新所述多副本存储类型的数据的存储范围。优选的,该方法还包括:在EC类型的存储中,同时存在多副本存储类型的数据转存为EC类型及所述多副本存储类型删除记录的情况下,从所述EC类型的存储中,删除所述数据。优选的,所述根据数据被访问情况,重新确定所述数据的存储类型的步骤之前,还包括:将数据存储为多副本类型,所述多副本类型的数据结构至少包含以下信息中的任一或任意多项:SHA1的键值,文件名称,访问时间戳,删除信息。根据本文的另一方面,提供了一种数据存储装置,包括:存储类型确定模块,用于根据数据被访问情况,重新确定所述数据的存储类型;数据导入模块,用于将所述数据按照重新确定的所述存储类型进行存储。优选的,所述存储类型确定模块包括:访问概率获取单元,用于获取所述数据被访问的访问概率;存储条件匹配单元,用于将所述访问概率与预置的至少一个存储条件进行比较,所述存储条件包含访问概率区间和对应的存储类型;类型确定单元,用于在所述访问概率符合预置的存储条件的访问概率区间的情况下,确定对应的存储类型为所述数据的存储类型。优选的,所述存储类型至少包含以下类型中的任一或任意多项:多副本存储、纠删码EC存储,该装置还包括:存储条件设置模块,用于配置至少一个存储条件,所述存储条件至少包含以下条件中的任一或任意多项:在访问概率在第一访问概率区间内的情况下,确定数据的存储类型为多副本存储,在访问概率在第二访问概率区间内的情况下,确定数据的存储类型为EC存储,其中,所述第一访问概率区间的下限大于等于所述第二访问概率区间的上限。优选的,在所述数据的存储类型由多副本类型变为EC类型的情况下,所述数据导入模块包括:导入范围确定单元,用于确定导入范围;导入执行单元,用于将所述导入范围内存在的多副本存储类型的数据的文件记录导入为所述EC类型进行存储,将所述导入范围内已删除的多副本存储类型的数据的删除记录导入为所述EC类型进行存储。优选的,所述导入范围确定单元,具体用于选择被访问的访问概率符合所述存储条件,且在SHA1范围内的多副本存储类型的数据为所述导入范围。优选的,该装置还包括:存储范围更新模块,用于更新所述多副本存储类型的数据的存储范围。优选的,该装置还包括:数据删除模块,用于在EC类型的存储中,同时存在多副本存储类型的数据转存为EC类型的类型及所述多副本存储类型的数据的删除记录的情况下,从所述EC类型的存储中,删除所述数据。优选的,该装置还包括:多副本存储模块,用于将数据存储为多副本类型,所述多副本类型的数据结构至少包含以下信息中的任一或任意多项:SHA1的键值,文件名称,访问时间戳,删除信息。根据本文的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述数据存储方法的步骤。根据本文的另一方面,还提供了一种计算机设备,包括处理器、存储器和存储于所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现上述数据存储方法的步骤。本文通过根据数据被访问情况,重新确定所述数据本文档来自技高网
...

【技术保护点】
1.一种数据存储方法,其特征在于,包括:/n根据数据被访问情况,重新确定所述数据的存储类型;/n将所述数据按照重新确定的所述存储类型进行存储。/n

【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:
根据数据被访问情况,重新确定所述数据的存储类型;
将所述数据按照重新确定的所述存储类型进行存储。


2.根据权利要求1所述的数据存储方法,其特征在于,根据数据被访问情况,重新确定所述数据的存储类型的步骤包括:
获取所述数据被访问的访问概率;
将所述访问概率与预置的至少一个存储条件进行比较,所述存储条件包含访问概率区间和对应的存储类型;
在所述访问概率符合预置的存储条件的访问概率区间的情况下,确定对应的存储类型为所述数据的存储类型。


3.根据权利要求2所述的数据存储方法,其特征在于,所述存储类型至少包含以下类型中的任一或任意多项:
多副本存储、纠删码EC存储,
该方法还包括:
配置至少一个存储条件,所述存储条件至少包含以下条件中的任一或任意多项:
在访问概率在第一访问概率区间内的情况下,确定数据的存储类型为多副本存储,
在访问概率在第二访问概率区间内的情况下,确定数据的存储类型为EC存储,
其中,所述第一访问概率区间的下限大于等于所述第二访问概率区间的上限。


4.根据权利要求3所述的数据存储方法,其特征在于,所述第一访问概率区间和所述第二访问概率区间均为时间区间,所述获取所述数据被访问的访问概率的步骤包括:
获取所述数据最近一次被访问的访问时间,以所述访问时间作为计算访问概率的输入参数。


5.根据权利要求3所述的数据存储方法,其特征在于,在所述数据的存储类型由多副本类型变为EC类型的情况下,所述将所述数据按照重新确定的所述存储类型进行存储的步骤包括:
确定导入范围;
将所述导入范围内存在的多副本存储类型的数据的文件记录导入为所述EC类型进行存储,将所述导入范围内已删除的多副本存储类型的数据的删除记录导入为所述EC类型进行存储。


6.根据权利要求5所述的数据存储方法,其特征在于,所述确定导入范围的步骤包括:
选择被访问的访问概率符合所述存储条件,且在SHA1范围内的多副本存储类型的数据为所述导入范围。


7.根据权利要求6所述的数据存储方法,其特征在于,该方法还包括:
更新所述多副本存储类型的数据的存储范围。


8.根据权利要求5所述的数据存储方法,其特征在于,该方法还包括:
在EC类型的存储中,同时存在多副本存储类型的数据转存为EC类型及所述多副本存储类型删除记录的情况下,从所述EC类型的存储中,删除所述数据。


9.根据权利要求3所述的数据存储方法,其特征在于,所述根据数据被访问情况,重新确定所述数据的存储类型的步骤之前,还包括:
将数据存储为多副本类型,所述多副本类型的数据结构至少包含以下信息中的任一或任意多项:
SHA1的键值,文件名称,访问时间戳,删除信息。


10.一种数据存储装置,其特征在于,包括:
存储类型确定模块,用于根据数据被访问情况,重新确定...

【专利技术属性】
技术研发人员:吴义谱
申请(专利权)人:北京白山耘科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1