【技术实现步骤摘要】
数据存储方法和装置
本文涉及计算机互联网领域,尤其涉及一种数据存储方法和装置。
技术介绍
分布式存储中数据热度不同,导致数据的访问频次存在差别。通常将访问频次较高的数据称为热数据,访问频次较低甚至几乎没有访问的数据称为冷数据。基于冷热数据的访问需求不同,对于热数据一般采用多副本方式存储以满足文件的高并发访问,对于冷数据则可采用EC(ErasureCode,即纠删码)冷存储方式存储以降低存储成本,考虑到存储资源有限,需要将数据从多副本的存储方式导入为EC存储方式以节约资源。分布式存储中,多副本数据的存储方式是将文件数据存储K份冗余副本,K份副本分布在指定故障隔离级别的存储设备中(如隔离级别为磁盘,则K份数据分布在不同的磁盘中);EC存储方式是将文件数据通过EC编码计算得到M+N份数据(M为数据块数量,N为编码块数量),这样存储成本为(M+N)/N,比热数据多副本K倍数据冗余降低存储成本。大部分分布式存储中,多副本数据一般将多个文件数据放置在一个文件组中,文件组的存储容量固定(如10GB),当文件组中的数据超过文件组的容量后将该文件组设置为只读状态,并在文件组设置为只读状态后,以文件组为单位将数据导入到EC存储方式的存储中。以文件组为单位导入EC存储的方法,存在以下问题:1、文件数据是以文件组为单位导入的,文件组中可能即存在热数据也存在冷数据,这样会将热数据导入为EC存储模式进行存储,影响文件的高并发访问效率,EC存储模式的数据被频繁访问会造成系统资源的很大负担。2、无法直 ...
【技术保护点】
1.一种数据存储方法,其特征在于,包括:/n根据数据被访问情况,重新确定所述数据的存储类型;/n将所述数据按照重新确定的所述存储类型进行存储。/n
【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:
根据数据被访问情况,重新确定所述数据的存储类型;
将所述数据按照重新确定的所述存储类型进行存储。
2.根据权利要求1所述的数据存储方法,其特征在于,根据数据被访问情况,重新确定所述数据的存储类型的步骤包括:
获取所述数据被访问的访问概率;
将所述访问概率与预置的至少一个存储条件进行比较,所述存储条件包含访问概率区间和对应的存储类型;
在所述访问概率符合预置的存储条件的访问概率区间的情况下,确定对应的存储类型为所述数据的存储类型。
3.根据权利要求2所述的数据存储方法,其特征在于,所述存储类型至少包含以下类型中的任一或任意多项:
多副本存储、纠删码EC存储,
该方法还包括:
配置至少一个存储条件,所述存储条件至少包含以下条件中的任一或任意多项:
在访问概率在第一访问概率区间内的情况下,确定数据的存储类型为多副本存储,
在访问概率在第二访问概率区间内的情况下,确定数据的存储类型为EC存储,
其中,所述第一访问概率区间的下限大于等于所述第二访问概率区间的上限。
4.根据权利要求3所述的数据存储方法,其特征在于,所述第一访问概率区间和所述第二访问概率区间均为时间区间,所述获取所述数据被访问的访问概率的步骤包括:
获取所述数据最近一次被访问的访问时间,以所述访问时间作为计算访问概率的输入参数。
5.根据权利要求3所述的数据存储方法,其特征在于,在所述数据的存储类型由多副本类型变为EC类型的情况下,所述将所述数据按照重新确定的所述存储类型进行存储的步骤包括:
确定导入范围;
将所述导入范围内存在的多副本存储类型的数据的文件记录导入为所述EC类型进行存储,将所述导入范围内已删除的多副本存储类型的数据的删除记录导入为所述EC类型进行存储。
6.根据权利要求5所述的数据存储方法,其特征在于,所述确定导入范围的步骤包括:
选择被访问的访问概率符合所述存储条件,且在SHA1范围内的多副本存储类型的数据为所述导入范围。
7.根据权利要求6所述的数据存储方法,其特征在于,该方法还包括:
更新所述多副本存储类型的数据的存储范围。
8.根据权利要求5所述的数据存储方法,其特征在于,该方法还包括:
在EC类型的存储中,同时存在多副本存储类型的数据转存为EC类型及所述多副本存储类型删除记录的情况下,从所述EC类型的存储中,删除所述数据。
9.根据权利要求3所述的数据存储方法,其特征在于,所述根据数据被访问情况,重新确定所述数据的存储类型的步骤之前,还包括:
将数据存储为多副本类型,所述多副本类型的数据结构至少包含以下信息中的任一或任意多项:
SHA1的键值,文件名称,访问时间戳,删除信息。
10.一种数据存储装置,其特征在于,包括:
存储类型确定模块,用于根据数据被访问情况,重新确定...
【专利技术属性】
技术研发人员:吴义谱,
申请(专利权)人:北京白山耘科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。