一种自适应存储文件的方法和装置制造方法及图纸

技术编号:15329599 阅读:107 留言:0更新日期:2017-05-16 13:14
本发明专利技术公开了一种自适应存储文件的方法和装置,该方法包括:确定文件的冷热度属性,该文件的冷热度属性表征该文件被访问的频率;根据该文件的冷热度属性,对该文件执行编码存储或转码存储处理。因此,根据本发明专利技术实施例的自适应存储文件的方法和装置,能够根据文件的冷热度属性对文件采用相应的编解码技术进行存储处理,因此能充分考虑文件的冷热度属性对存储开销、恢复成本的需求,而且采用的编解码技术的可靠性高,编解码速度快,因此,能提高存储开销、恢复成本、可靠性和编解码速度多个维度的综合性能。

Method and device for self-adapting storage of files

The invention discloses a method and apparatus for adaptive storage file, the method includes: cold heat property to determine the file, cold heat attribute characterization of the document in the file access frequency; cold heat according to the attributes of the file, the file encoding or transcoding execution storage storage processing. Therefore, according to the method and apparatus for adaptive storage file of an embodiment of the invention, according to the cold properties file to file with the corresponding codec technology for storage processing, so it can fully consider the file attributes for cold storage cost and recovery cost, and reliability of coding and decoding technology of the high. Coding and decoding speed, therefore, can improve the comprehensive performance of storage cost and recovery cost, reliability and speed of coding multiple dimensions.

【技术实现步骤摘要】
一种自适应存储文件的方法和装置
本专利技术涉及存储领域,并且更具体地,涉及一种自适应存储文件的方法和装置。
技术介绍
在分布式文件系统中,为了减小存储开销,可以采用纠删码(ErasureCode,EC)技术对数据进行编解码代替多副本复制的方案,每种EC技术都有各自的优点,有的可靠性高,有的恢复成本低,有的存储开销低。例如,点积编解码(ProductCode,PC)算法采用了水平和垂直两个方向的编码方式,只进行XOR运算,得到高的编解码速度和低恢复成本,但存储开销高,本地重建编解码(LocallyReconstructionCode,LRC)算法的存储开销低,但是多节点失效时的恢复成本高。因此现有EC技术的综合性能还有待提升。
技术实现思路
本专利技术实施例提供一种自适应存储文件的方法和装置,能够提高存储开销、恢复成本、可靠性和编解码速度多个维度的综合性能。第一方面,提供了一种自适应存储文件的方法,该方法包括:确定该文件的冷热度属性,该文件的冷热度属性表征该文件被访问的频率;根据该文件的冷热度属性,对该文件执行编码存储或转码存储处理。该方法自适应使用多种EC技术,同时降低了存储开销和恢复成本,整体上兼顾了各方面的性能。结合第一方面,在第一方面的第一种实现方式中,该确定文件的冷热度属性,包括:根据该文件的访问频率和/或该文件的平均访问时间间隔,确定该文件的冷热度属性;在该文件的访问频率大于第一频率阈值,或该文件的平均访问时间间隔小于第一时间间隔时,确定该文件的冷热度属性为热;或在该文件的访问频率不大于第一频率阈值,或该文件的平均访问时间间隔不小于第一时间间隔时,确定该文件的冷热度属性为冷。结合第一方面及其上述实现方式,在第一方面的第二种实现方式中,该根据该文件的冷热度属性,对该文件执行编码存储或转码存储处理,包括:当确定该文件的冷热度属性为热时,采用第一编解码算法对该文件进行编码存储处理;或当确定该文件的冷热度属性为冷时,采用第二编解码算法对该文件进行编码存储处理;其中,该第一编解码算法的恢复成本低于恢复成本阈值,该第二编解码算法的存储开销低于存储开销阈值。结合第一方面及其上述实现方式,在第一方面的第三种实现方式中,该根据该文件的冷热度属性,对该文件执行编解码或转码存储处理,包括:根据该文件的冷热度属性的变化,对该文件执行转码存储处理。结合第一方面及其上述实现方式,在第一方面的第四种实现方式中,根据该文件的冷热度属性的变化,对该文件执行转码存储处理,包括:当确定该文件的冷热度属性由冷转变为热时,对该文件执行从第一源编解码算法到第一目标编解码算法的转码存储处理;或当确定该文件的冷热度属性由热转变为冷时,对该文件执行从第二源编解码算法到第二目标编解码算法的转码存储处理;其中,该第一目标编解码算法的恢复成本低于恢复成本阈值,该第一源编解码算法的恢复成本不低于该恢复成本阈值,该第二目标编解码算法的存储开销低于存储开销阈值,该第二源编解码算法的存储开销不低于存储开销阈值。在该实现方式中,当数据的冷热属性发生变化时,采用了高效的增量转码方式,不对原始数据重新编码,提升了性能。结合第一方面及其上述实现方式,在第一方面的第五种实现方式中,该对该文件执行从第一源编解码算法到第一目标编解码算法的转码存储处理,包括:将第一源校验码减去第一差值校验码后得到的结果确定为第一目的校验码;其中,该文件包括N个数据块,该第一源校验码是基于第一编码函数对该N个数据块编码产生的,该第一目的校验码是基于该第一编码函数对该N个数据块中的M个数据块编码产生的,该第一差值校验码是基于该第一编码函数对该N个数据块中的除该M个数据块以外的数据块编码产生的,该第一编码函数为基于该第一源编解码算法的编码函数,该N,M为正整数,N>M。在该实现方式中,数据变热时,把之前冷数据EC技术编码产生的校验码转换为热数据EC技术的校验码,无需对原始数据重新编码,而是采用增量编码的方式,能高效地完成转码,避免产生过多的性能损耗。结合第一方面及其上述实现方式,在第一方面的第六种实现方式中,该对该文件执行从第二源编解码算法到第二目标编解码算法的转码存储处理,包括:将第二源校验码加上第二差值校验码后得到的结果确定为第二目的校验码;其中,该文件包括N个数据块,该第二源校验码是基于第二编码函数对该N个数据块中的M个数据块编码产生的,该第二目的校验码是基于该第二编码函数对该N个数据块编码产生的,该第二差值校验码是基于该第二编码函数对该N个数据块中的除该M个数据块以外的数据块编码产生的,该第二编码函数为基于该第二源编解码算法的编码函数,该N,M为正整数,N>M。在该实现方式中,数据变冷时,把之前热数据EC技术编码产生的校验码转换为冷数据EC技术的校验码,无需对原始数据重新编码,而是采用增量编码的方式,能高效地完成转码,避免产生过多的性能损耗。结合第一方面及其上述实现方式,在第一方面的第七种实现方式中,在该确定文件的冷热度属性之前,该方法还包括:判断该文件的存储时间达到第一时间阈值且该文件的访问次数小于第一次数阈值。第二方面,提供了一种自适应存储文件的装置,该装置包括执行第一方面中的方法的各模块。第三方面,提供了一种自适应存储文件的装置,该装置包括存储器和与该存储器连接的处理器,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,当该处理器执行该存储器中存储的指令时,该处理器具体用于执行第一方面中的方法,第一方面中的方法的步骤可以直接由该处理器执行完成,也可以由处理器中的硬件及软件模块组合执行完成,该软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中,该存储介质位于存储器中。基于上述技术方案,因此,根据本专利技术实施例的自适应存储文件的方法和装置,能够根据文件的冷热度属性对文件采用相应的编解码技术进行存储处理,因此能充分考虑文件的冷热度属性对存储开销、恢复成本的需求,因此,能提高存储开销、恢复成本、可靠性和编解码速度多个维度的综合性能。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例的分布式文件存储系统的示意性框图。图2是根据本专利技术实施例的自适应编码装置原理图。图3是根据本专利技术实施例的自适应存储文件的方法的示意性流程图。图4是根据本专利技术实施例的转码存储文件的方法的示意图。图5是根据本专利技术实施例的自适应存储文件的装置的示意性框图。图6是根据本专利技术另一实施例的自适应存储文件的装置的示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的技术方案,可以应用于分布式文件存储系统中,例如Handoop分布式文件系统(HandoopDistributedFi本文档来自技高网...
一种自适应存储文件的方法和装置

【技术保护点】
一种自适应存储文件的方法,其特征在于,所述方法包括:确定所述文件的冷热度属性,所述文件的冷热度属性表征所述文件被访问的频率;根据所述文件的冷热度属性,对所述文件执行编码存储或转码存储处理。

【技术特征摘要】
1.一种自适应存储文件的方法,其特征在于,所述方法包括:确定所述文件的冷热度属性,所述文件的冷热度属性表征所述文件被访问的频率;根据所述文件的冷热度属性,对所述文件执行编码存储或转码存储处理。2.根据权利要求1所述的方法,其特征在于,所述确定文件的冷热度属性,包括:根据所述文件的访问频率和/或所述文件的平均访问时间间隔,确定所述文件的冷热度属性;在所述文件的访问频率大于第一频率阈值,或所述文件的平均访问时间间隔小于第一时间间隔时,确定所述文件的冷热度属性为热;或在所述文件的访问频率不大于所述第一频率阈值,或所述文件的平均访问时间间隔不小于所述第一时间间隔时,确定所述文件的冷热度属性为冷。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述文件的冷热度属性,对所述文件执行编码存储或转码存储处理,包括:当确定所述文件的冷热度属性为热时,采用第一编解码算法对所述文件进行编码存储处理;或当确定所述文件的冷热度属性为冷时,采用第二编解码算法对所述文件进行编码存储处理;其中,所述第一编解码算法的恢复成本低于恢复成本阈值,所述第二编解码算法的存储开销低于存储开销阈值。4.根据权利要求1或2所述的方法,其特征在于,所述根据所述文件的冷热度属性,对所述文件执行编解码或转码存储处理,包括:根据所述文件的冷热度属性的变化,对所述文件执行转码存储处理。5.根据权利要求4所述的方法,其特征在于,所述根据所述文件的冷热度属性的变化,对所述文件执行转码存储处理,包括:当确定所述文件的冷热度属性由冷转变为热时,对所述文件执行从第一源编解码算法到第一目标编解码算法的转码存储处理;或当确定所述文件的冷热度属性由热转变为冷时,对所述文件执行从第二源编解码算法到第二目标编解码算法的转码存储处理;其中,所述第一目标编解码算法的恢复成本低于恢复成本阈值,所述第一源编解码算法的恢复成本不低于所述恢复成本阈值,所述第二目标编解码算法的存储开销低于存储开销阈值,所述第二源编解码算法的存储开销不低于存储开销阈值。6.根据权利要求5所述的方法,其特征在于,所述对所述文件执行从第一源编解码算法到第一目标编解码算法的转码存储处理,包括:将第一源校验码减去第一差值校验码后得到的结果确定为第一目的校验码;其中,所述文件包括N个数据块,所述第一源校验码是基于第一编码函数对所述N个数据块编码产生的,所述第一目的校验码是基于所述第一编码函数对所述N个数据块中的M个数据块编码产生的,所述第一差值校验码是基于所述第一编码函数对所述N个数据块中的除所述M个数据块以外的数据块编码产生的,所述第一编码函数为基于所述第一源编解码算法的编码函数,所述N,M为正整数,N>M。7.根据权利要求5所述的方法,其特征在于,所述对所述文件执行从第二源编解码算法到第二目标编解码算法的转码存储处理,包括:将第二源校验码加上第二差值校验码后得到的结果确定为第二目的校验码;其中,所述文件包括N个数据块,所述第二源校验码是基于第二编码函数对所述N个数据块中的M个数据块编码产生的,所述第二目的校验码是基于所述第二编码函数对所述N个数据块编码产生的,所述第二差值校验码是基于所述第二编码函数对所述N个数据块中的除所述M个数据块以外的数据块编码产生的,所述第二编码函数为基于所述第二源编解码算法的编码函数,所述N,M为正整数,N>M。8.根据权利要求3所述的方法,其特征在于,在所述确定文件的...

【专利技术属性】
技术研发人员:庄仕岳肖宇雷涂丹丹
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1