【技术实现步骤摘要】
一种基于dbDedup的分布式数据库存储通信压缩方法
本专利技术涉及分布式数据库存储通信压缩
,具体提供一种基于dbDedup的分布式数据库存储通信压缩方法,用于在线数据库管理系统的基于相似性的重复数据删除(dedup)方案,基于dbDedup来实现减少存储使用量和为远程复制而传输的数据量的装置。
技术介绍
随着基于Web的应用程序的普及,当今更多的数据存储在各种形式的数据库中。由于数据增长的速度超过了硬件成本的下降速度,数据库压缩被应用到这一问题中。对于数据库存储,除了节省空间外,压缩还有助于减少磁盘I/O(输入/输出)的数量并提高性能,因为查询的数据适合较少的页面。对于跨地理区域复制的分布式数据库,也非常需要减少用于保持副本同步的数据传输量。运营的数据库管理系统(DBMS)中用于数据缩减的最广泛使用的方法是块级别压缩(block-levelcompression)。此类DBMS用于支持面向用户的应用程序,这些应用程序执行简单查询以每次检索少量记录(与执行复杂的查询以扫描数据库的很大部分相反)。尽管块级别压缩 ...
【技术保护点】
1.一种基于dbDedup的分布式数据库存储通信压缩方法,其特征在于,所述方法基于dbDedup,使用基于相似性的dedup来同时实现良好的压缩率和较低的内存使用率,在为本地存储和远程复制准备更新的记录数据时使用的dedup编码工作流程,在插入或更新查询期间,将新记录写入本地操作日志,并通过dbDedup在后台将新纪录编码为关键路径之外的内容,所述方法实现步骤包括:/n(1)从新记录中提取相似性特征;/n(2)在dedup索引中查找数据库语料库中候选相似记录的列表;/n(3)从候选中选择一个最佳记录;/n(4)在新记录和类似记录之间执行增量压缩,以计算编码形式来进行本地存储和副本同步。/n
【技术特征摘要】
1.一种基于dbDedup的分布式数据库存储通信压缩方法,其特征在于,所述方法基于dbDedup,使用基于相似性的dedup来同时实现良好的压缩率和较低的内存使用率,在为本地存储和远程复制准备更新的记录数据时使用的dedup编码工作流程,在插入或更新查询期间,将新记录写入本地操作日志,并通过dbDedup在后台将新纪录编码为关键路径之外的内容,所述方法实现步骤包括:
(1)从新记录中提取相似性特征;
(2)在dedup索引中查找数据库语料库中候选相似记录的列表;
(3)从候选中选择一个最佳记录;
(4)在新记录和类似记录之间执行增量压缩,以计算编码形式来进行本地存储和副本同步。
2.根据权利要求1所述的一种基于dbDedup的分布式数据库存储通信压缩方法,其特征在于,所述方法使用双向编码技术,将双向delta压缩应用于源记录和目标记录,以生成新记录的前向编码形式和相似记录的后向编码形式,实现步骤包括:
首先通过dbDedup重新编码器从本地数据库或命中的源记录缓存中读取基本相似记录并应用前向编码增量来对新记录进行解码;
然后,使用delta将新重建的新记录作为源来压缩相似记录并为相似记录生成相同的向后编码增量;
最后,通过dbDedup将新记录写入次数据库,并将类似的记录更新为delta编码形式。
3.根据权利要求1所述的一种基于dbDedup的分布式数据库存储通信压缩方法,其特征在于,所述方法使用跳编码技术来减少最坏情况的源检索,以读取编码的记录,实现步骤包括:
首先,通过一个dedup调控器监视运行时压缩率,并自动禁用对受益不足的数据库的dedup;
其次,基于记录大小,过滤器针对较小的记录自适应地跳过dedup。
4.根据权利要求3所述的一种基于dbDedup的分布式数据库存储通信压缩方法,其特征在于,所述方法通过dbDedup在给定的编码链中缓存关键节点,提高存效率,同时消除用于访问编码记录的大多数I/O开销,其中缓存关键节点包括:源记录高速缓存,它减少了编码期间的数据库读取次数;有损回写增量高速缓存,它减轻了由反向编码引起的写放大。
5.根据权利要求4所述的一种基于dbDedup的分布式数据库存储通信压缩方法,其特征在于,所述分布式数据库包括主节点和次节点,主节点以操作日志批处理的形式异步将更新推送到次节点,具体实现过程如下:
主节点将新记录写入其本地数据库,并将该记录追加到操作日志;每个操作日志条目都包括一个时间戳和一个包含插入记录的有效负载,当未同步的操作日志条目的大小达到阈值时,主节点将它们批量发送到次节点,次节点接收更新,将更新附加到其本地操作日志,然后重置新的操作日志条目以更新其本地数据库;
所述主节点将更新推送此节点的过程中,通过使用dbDedup,主节点首先将新记录存储在其本地操作日志中;
稍后,当准备存储记录或将其发送到副本时,dbDedup编码器按dedup步骤对其进行处理:
如果dbDedup成功地从现有数据语料库中选择了相似记录,它将通过首先检查源记录高速缓存来检索相似记录的内容;
如果发生高速缓存未命中,它将从基础存储中读取记录;
然后,它将双向delta压缩应用于源记录和目标记录,以生成新记录的前向编码形式和相似记录的后向编码形式:
dbDed...
【专利技术属性】
技术研发人员:夏博涵,王瀚墨,陈磊,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。