一种分布式全局数据去重方法和装置制造方法及图纸

技术编号:22135203 阅读:25 留言:0更新日期:2019-09-18 08:56
本发明专利技术实施例提供了一种分布式全局数据去重方法和装置。本发明专利技术涉及大数据技术领域,该方法包括:接收目标数据写入请求,并确定目标数据对应的目标对象编号;根据目标对象编号确定对应的目标存储节点,向目标存储节点的缓存层写入目标数据;判断目标数据是否需要计算数据指纹;如果目标数据需要计算数据指纹,则计算目标数据的数据指纹,得到目标数据指纹;返回用于提示写入成功的提示信息,提示信息携带目标数据指纹;存储目标数据指纹。因此,本发明专利技术实施例提供的技术方案能够解决现有技术中分布式存储系统中存在大量冗余重复信息导致存储空间消耗大、存储效率低的问题。

A Distributed Global Data Reduplication Method and Device

【技术实现步骤摘要】
一种分布式全局数据去重方法和装置
本专利技术涉及大数据
,尤其涉及一种分布式全局数据去重方法和装置。
技术介绍
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。目前数据量爆炸性增长,对现有的分布式存储系统的容量、能耗管理等方面都带来了新的挑战。分布式存储系统中存在大量的冗余重复信息,而冗余重复信息增加了存储空间的消耗,降低了存储效率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种分布式全局数据去重方法和装置,用以解决现有技术中分布式存储系统中存在大量冗余重复信息导致存储空间消耗大、存储效率低的问题。一方面,本专利技术实施例提供了一种分布式全局数据去重方法,所述方法应用于存储系统,所述方法包括:存储网关接收客户端的目标数据写入请求,按照第一预设规则确定所述目标数据对应的目标对象编号,并将所述目标数据与所述目标对象编号的对应关系存储在元数据列表;根据第二预设规则确定所述目标对象编号对应的目标存储节点,所述存储网关将所述目标数据写入所述目标存储节点的缓存层,所述第二预设规则为对象编号与存储节点之间的对应规则;判断所述目标数据是否需要计算数据指纹;如果所述目标数据需要计算数据指纹,则根据预设算法计算所述目标数据的数据指纹,得到目标数据指纹,所述目标数据指纹与所述目标数据之间存在一一对应关系;判断所述目标存储节点的存储层是否已存储所述目标数据指纹;如果所述目标存储节点的存储层没有存储所述目标数据指纹,则将所述目标数据指纹存储在所述目标存储节点的存储层,向所述存储网关返回用于提示写入成功的提示信息,所述提示信息携带所述目标数据指纹;如果所述目标存储节点的存储层已存储所述目标数据指纹,则向所述存储网关返回用于提示写入成功的提示信息,所述提示信息携带所述目标数据指纹,然后删除所述目标存储节点的缓存层中存储的所述目标数据,更新所述目标存储节点的存储层存储的所述目标数据指纹的引用计数;所述存储网关接收所述提示信息,并判断所述提示信息是否携带所述目标数据指纹;如果所述提示信息携带所述目标数据指纹,则将所述元数据列表中所述目标数据与所述目标对象编号的对应关系更新为所述目标数据、所述目标对象编号与所述目标数据指纹三者之间的对应关系,将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则。进一步地,在所述将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则之后,所述方法还包括:接收所述客户端读取所述目标数据的请求;判断所述元数据列表中是否存在所述目标数据指纹;如果所述元数据列表中不存在所述目标数据指纹,则根据所述元数据列表中所述目标对象编号与所述第二预设规则确定所述目标存储节点;根据所述目标对象编号获取所述目标存储节点的缓存层中存储的所述目标数据;向所述客户端返回所述目标数据。进一步地,在所述判断所述元数据列表中是否存在所述目标数据指纹之后,所述方法还包括:如果所述元数据列表中存在所述目标数据指纹,则根据所述第二预设规则,确定所述目标存储节点;查找所述目标存储节点的存储层中存储的所述目标数据指纹;根据所述目标数据指纹确定所述目标存储节点的缓存层存储的所述目标数据;向所述客户端返回所述目标数据。进一步地,在所述将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则之后,所述方法还包括:接收第一目标数据的写入请求;按照所述第一预设规则确定对象编号1;判断所述元数据列表中所述对象编号1是否存在对应的数据指纹;如果所述对象编号1存在对应的数据指纹a,确定所述第一目标数据为更新写;根据所述第二预设规则确定存储节点A,并判断所述存储系统是写优先还是读优先;如果是读优先,则向所述存储节点A的缓存层写入所述第一目标数据;根据所述数据指纹a获取所述存储节点A的缓存层存储的所述目标数据,并将所述第一目标数据与所述目标数据进行合并,得到第二目标数据;根据所述预设算法计算所述第二目标数据的数据指纹,得到数据指纹a1;将所述数据指纹a1存储到所述存储节点A的存储层,将所述第二目标数据存储到所述存储节点A的缓存层,所述第二目标数据对应所述对象编号1和所述数据指纹a1;更新所述数据指纹a的引用计数;将所述元数据列表和所述第二预设规则中所述数据指纹a更新为所述数据指纹a1。进一步地,在所述判断所述存储系统是写优先还是读优先之后,所述方法还包括:如果是写优先,向所述存储节点A的缓存层写入所述第一目标数据,并标记所述第一目标数据为脏数据;根据所述预设算法计算所述第一目标数据的数据指纹,得到数据指纹a2;将所述数据指纹a2存储到所述存储节点A的存储层,将所述第一目标数据存储到所述存储节点A的缓存层;从所述缓存层中获取所述数据指纹a对应的目标数据,将所述目标数据与所述第一目标数据进行合并,得到所述第二目标数据,所述第二目标数据对应所述对象编号1和所述数据指纹a2;更新所述存储节点A的存储层存储的所述数据指纹a的引用计数;将所述元数据列表和所述第二预设规则中所述数据指纹a更新为所述数据指纹a2。一方面,本专利技术实施例提供了一种分布式全局数据去重方法,所述方法由客户端执行,所述方法包括:接收目标数据的写入请求,按照第一预设规则确定所述目标数据对应的目标对象编号,并将所述目标数据与所述目标对象编号的对应关系存储在元数据列表;根据第二预设规则确定所述目标对象编号对应的目标存储节点,所述第二预设规则为对象编号与存储节点之间的对应规则,所述目标存储节点部署在存储系统;向所述目标存储节点发送所述目标数据;接收所述目标存储节点返回的提示信息,并判断所述提示信息是否携带目标数据指纹,所述目标数据指纹是在所述目标存储节点根据所述目标数据生成的数据;如果所述提示信息携带所述目标数据指纹,则将所述元数据列表中所述目标数据与所述目标对象编号的对应关系更新为所述目标数据、所述目标对象编号与所述目标数据指纹三者之间的对应关系,将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则。进一步地,在所述接收目标数据的写入请求之前,所述方法包括:按照预设值将所述客户端的每个磁盘镜像进行切片,得到多个分片;为所述多个分片的每个分片分配一个对象编号;按照所述第二预设规则,为所述每个对象编号分配存储节点。一方面,本专利技术实施例提供了一种分布式全局数据去重方法,所述方法由存储系统执行,所述方法包括:接收客户端发送的目标数据,并将所述目标数据写入目标存储节点的缓存层;判断所述目标数据是否需要计算数据指纹;如果所述目标数据需要计算数据指纹,则根据预设算法计算所述目标数本文档来自技高网...

【技术保护点】
1.一种分布式全局数据去重方法,其特征在于,所述方法应用于存储系统,所述方法包括:存储网关接收客户端的目标数据写入请求,按照第一预设规则确定所述目标数据对应的目标对象编号,并将所述目标数据与所述目标对象编号的对应关系存储在元数据列表;根据第二预设规则确定所述目标对象编号对应的目标存储节点,所述存储网关将所述目标数据写入所述目标存储节点的缓存层,所述第二预设规则为对象编号与存储节点之间的对应规则;判断所述目标数据是否需要计算数据指纹;如果所述目标数据需要计算数据指纹,则根据预设算法计算所述目标数据的数据指纹,得到目标数据指纹,所述目标数据指纹与所述目标数据之间存在一一对应关系;判断所述目标存储节点的存储层是否已存储所述目标数据指纹;如果所述目标存储节点的存储层没有存储所述目标数据指纹,则将所述目标数据指纹存储在所述目标存储节点的存储层,向所述存储网关返回用于提示写入成功的提示信息,所述提示信息携带所述目标数据指纹;如果所述目标存储节点的存储层已存储所述目标数据指纹,则向所述存储网关返回用于提示写入成功的提示信息,所述提示信息携带所述目标数据指纹,然后删除所述目标存储节点的缓存层中存储的所述目标数据,更新所述目标存储节点的存储层存储的所述目标数据指纹的引用计数;所述存储网关接收所述提示信息,并判断所述提示信息是否携带所述目标数据指纹;如果所述提示信息携带所述目标数据指纹,则将所述元数据列表中所述目标数据与所述目标对象编号的对应关系更新为所述目标数据、所述目标对象编号与所述目标数据指纹三者之间的对应关系,将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则。...

【技术特征摘要】
1.一种分布式全局数据去重方法,其特征在于,所述方法应用于存储系统,所述方法包括:存储网关接收客户端的目标数据写入请求,按照第一预设规则确定所述目标数据对应的目标对象编号,并将所述目标数据与所述目标对象编号的对应关系存储在元数据列表;根据第二预设规则确定所述目标对象编号对应的目标存储节点,所述存储网关将所述目标数据写入所述目标存储节点的缓存层,所述第二预设规则为对象编号与存储节点之间的对应规则;判断所述目标数据是否需要计算数据指纹;如果所述目标数据需要计算数据指纹,则根据预设算法计算所述目标数据的数据指纹,得到目标数据指纹,所述目标数据指纹与所述目标数据之间存在一一对应关系;判断所述目标存储节点的存储层是否已存储所述目标数据指纹;如果所述目标存储节点的存储层没有存储所述目标数据指纹,则将所述目标数据指纹存储在所述目标存储节点的存储层,向所述存储网关返回用于提示写入成功的提示信息,所述提示信息携带所述目标数据指纹;如果所述目标存储节点的存储层已存储所述目标数据指纹,则向所述存储网关返回用于提示写入成功的提示信息,所述提示信息携带所述目标数据指纹,然后删除所述目标存储节点的缓存层中存储的所述目标数据,更新所述目标存储节点的存储层存储的所述目标数据指纹的引用计数;所述存储网关接收所述提示信息,并判断所述提示信息是否携带所述目标数据指纹;如果所述提示信息携带所述目标数据指纹,则将所述元数据列表中所述目标数据与所述目标对象编号的对应关系更新为所述目标数据、所述目标对象编号与所述目标数据指纹三者之间的对应关系,将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则。2.根据权利要求1所述的方法,其特征在于,在所述将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则之后,所述方法还包括:接收所述客户端读取所述目标数据的请求;判断所述元数据列表中是否存在所述目标数据指纹;如果所述元数据列表中不存在所述目标数据指纹,则根据所述元数据列表中所述目标对象编号与所述第二预设规则确定所述目标存储节点;根据所述目标对象编号获取所述目标存储节点的缓存层中存储的所述目标数据;向所述客户端返回所述目标数据。3.根据权利要求2所述的方法,其特征在于,在所述判断所述元数据列表中是否存在所述目标数据指纹之后,所述方法还包括:如果所述元数据列表中存在所述目标数据指纹,则根据所述第二预设规则,确定所述目标存储节点;查找所述目标存储节点的存储层中存储的所述目标数据指纹;根据所述目标数据指纹确定所述目标存储节点的缓存层存储的所述目标数据;向所述客户端返回所述目标数据。4.根据权利要求1至3任一项所述的方法,其特征在于,在所述将所述第二预设规则中所述目标对象编号与所述目标存储节点的对应规则更新为所述目标对象编号、所述目标数据指纹与所述目标存储节点三者之间的对应规则之后,所述方法还包括:接收第一目标数据的写入请求;按照所述第一预设规则确定对象编号1;判断所述元数据列表中所述对象编号1是否存在对应的数据指纹;如果所述对象编号1存在对应的数据指纹a,确定所述第一目标数据为更新写;根据所述第二预设规则确定存储节点A,并判断所述存储系统是写优先还是读优先;如果是读优先,则向所述存储节点A的缓存层写入所述第一目标数据;根据所述数据指纹a获取所述存储节点A的缓存层存储的所述目标数据,并将所述第一目标数据与所述目标数据进行合并,得到第二目标数据;根据所述预设算法计算所述第二目标数据的数据指纹,得到数据指纹a1;将所述数据指纹a1存储到所述存储节点A的存储层,将所述第二目标数据存储到所述存储节点A的缓存层,所述第二目标数据对应所述对象编号1和所述数据指纹a1;更新所述数据指纹a的引用计数;将所述元数据列表和所述第二预设规则中所述数据指纹a更新为所述数据指纹a1。5.根据权利要求4所述的方法,其特征在于,在所述判断所述存储系统是写优先还是读优先之后,所述方法还包括:如果是写优先,向所述存储节点A的缓存层写入所述第一目标数据,并标记所述第一目标数据为脏数据;根据所述预设算法计算所述第一目标数据的数据指纹,得到数据指纹a2;将所述数据指纹a2存储到所述存储节点A的存储层,将所述第一目标数据存储到所述存储节点A的缓存层;从所述缓存层中获取所述数据指纹a对应的目标数据,将所述目标数据与所述第一目标数据进行合并,得到所述第二目标数据,所述第二目标数据对应所述对象...

【专利技术属性】
技术研发人员:齐泽青
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1