一种重复数据删除方法、装置及系统制造方法及图纸

技术编号:10492037 阅读:214 留言:0更新日期:2014-10-03 19:19
本发明专利技术适用于数据库技术领域,提供了一种重复数据删除方法、装置及系统,包括:内存数据库在缓存区中,缓存待写入外部存储器的数据页;在将缓存中的数据页写入所述外部存储器时,调取所述数据页;根据SHA安全散列算法,对调取到的所述数据页中的数据进行压缩映射,生成所述数据页对应的指纹值;在预置的指纹索引表中,查找是否存在所述指纹值;若在预置的指纹索引表中存在所述指纹值时,判断所述数据页为冗余页,不将所述数据页写入所述外部存储器中的数据文件,将所述数据页对应的指纹值写入所述外部存储器中的备份信息文件。本发有益效果在于两方面,一方面,节省了外部存储器的存储空间;另一方面,提高了内存数据库备份当前数据的效率。

【技术实现步骤摘要】
一种重复数据删除方法、装置及系统
本专利技术属于数据库
,尤其涉及一种重复数据删除方法、装置及系统。
技术介绍
内存数据库是一类将数据库中的数据完全放在内存中的新型数据库,由于所有的操作均在内存中完成,因此,相比传统基于内存的数据库,内存数据库在性能方面具有不可比拟的巨大优势,十分适合对于性能要求极高的应用场合。与此同时,内存数据库通过持续数据保护,定期自动将当前数据备份至外部存储器,以避免出现断电等故障会造成内存中的数据丢失的情况。由于内存数据库需要向外界提供极高的访问性能,因此内存数据库备份当前数据必须在极短的时间内完成。 然而,现有内存数据库通过持续数据保护,会将当前数据中的重复数据备份至外部存储器,而当前数据中的重复数据是内存数据库不需要备份的,备份重复数据既浪费了外部存储器的存储空间,又降低了内存数据库备份当前数据的效率,使得内存数据库备份当前数据无法在极短的时间内完成。若内存数据库对当前数据中重复数据进行删除,则需要通过遍历当前数据的方式,以判断某个当前数据中是否存在重复数据,但在内存数据库中,只会显示当前数据各个数据块的名称、创建日期本文档来自技高网...
一种重复数据删除方法、装置及系统

【技术保护点】
一种重复数据删除方法,其特征在于,包括:内存数据库在缓存区中,缓存待写入外部存储器的数据页;在将缓存中的数据页写入所述外部存储器时,调取所述数据页;根据SHA安全散列算法,对调取到的所述数据页中的数据进行压缩映射,生成所述数据页对应的指纹值;在预置的指纹索引表中,查找是否存在所述指纹值;若在预置的指纹索引表中存在所述指纹值时,判断所述数据页为冗余页,不将所述数据页写入所述外部存储器中的数据文件,将所述数据页对应的指纹值写入所述外部存储器中的备份信息文件;其中,所述数据文件中保存了所述内存数据库的数据页;其中,所述备份信息文件中保存了本次备份所述数据页对应的指纹值;其中,所述指纹值在所述备份信息...

【技术特征摘要】
1.一种重复数据删除方法,其特征在于,包括: 内存数据库在缓存区中,缓存待写入外部存储器的数据页; 在将缓存中的数据页写入所述外部存储器时,调取所述数据页; 根据SHA安全散列算法,对调取到的所述数据页中的数据进行压缩映射,生成所述数据页对应的指纹值; 在预置的指纹索引表中,查找是否存在所述指纹值; 若在预置的指纹索引表中存在所述指纹值时,判断所述数据页为冗余页,不将所述数据页写入所述外部存储器中的数据文件,将所述数据页对应的指纹值写入所述外部存储器中的备份信息文件; 其中,所述数据文件中保存了所述内存数据库的数据页; 其中,所述备份信息文件中保存了本次备份所述数据页对应的指纹值; 其中,所述指纹值在所述备份信息文件中,按照所述数据页在写入外部存储器时的顺序排列; 其中,所述指纹索引表中包括已写入所述数据文件的数据页对应的指纹值,以及已写入所述数据文件的数据页对应的指纹值,在所述数据文件中的数据页偏移量。2.根据权利要求1所 述的重复数据删除方法,其特征在于,在预置的指纹索引表中,查找是否存在所述指纹值之后,还包括: 若在预置的指纹索引表中不存在所述指纹值时,判断所述数据页不为冗余页,将所述数据页写入所述数据文件; 获取所述数据页在所述数据文件中的数据页偏移量; 将所述数据页对应的指纹值以及所述数据页在所述数据文件中的数据页偏移量写入指纹索引表中,并将所述数据页对应的指纹值写入内存备份信息文件。3.根据权利要求1或2所述的重复数据删除方法,其特征在于,还包括: 接收选择的备份点; 根据接收到的备份点读取所述备份信息文件,在所述备份信息文件中,逐个读取所述指纹值; 每读取一条所述指纹值,通过所述指纹值,在所述指纹索引表中,查找与所述指纹值对应的数据页偏移量; 根据所述数据页偏移量和数据页大小,在所述数据文件中读取所述数据页中的数据,并将读取到的数据加载到内存中,以还原所述内存数据库中的数据页。4.根据权利要求1所述的重复数据删除方法,其特征在于,所述内存数据库在缓存区中,缓存待写入外部存储器的数据页,具体为: 所述内存数据库在缓存区中,缓存待写入外部存储器的数据页,同时将外界的数据请求事件存放在一个缓存队列中,以停止处理外界的数据请求事件。5.根据权利要求1所述的重复数据删除方法,其特征在于,还包括: 读取系统时间和配置的执行时限,判断执行时限是否到达; 在所述执行时限到达时,执行所述内存数据库在缓存区中,缓存待写入外部存储器的数据页的步骤。6.一种...

【专利技术属性】
技术研发人员:王寅峰
申请(专利权)人:深圳信息职业技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1