一种支持模糊匹配的云存储数据去重复方法技术

技术编号：13561432 阅读：50 留言：0更新日期：2016-08-19 07:54

本发明专利技术公开了一种支持模糊匹配的云存储数据去重复方法。其步骤为：1、读取文件内容，2、计算文件元数据，3、判断是否满足分块条件，4、计算模糊哈希值，5、压缩模糊哈希值，6、计算索引相似度，7、比对模糊哈希值，8、判断是否存在重复的数据块哈希值，9、进行块级的文件所有权证明，10、发送不重复的数据块序号，10、上传不重复的数据块。本发明专利技术克服了现有技术中上传和存储完整文件、按比特串长度对文件进行等长划分，内容相似但首尾未对齐的文件无法被识别出重复数据带来的缺陷，降低了网络上传带宽和服务器存储空间的开销，提高了重复数据删除率。

全部详细技术资料下载

【技术实现步骤摘要】
201610176892

【技术保护点】
一种支持模糊匹配的云存储数据去重复方法，包括以下具体步骤：(1)采用内存映射文件方法，逐字节地读取待模糊匹配文件的内容；(1a)计算机操作系统在待模糊匹配文件中创建映射内核对象，读取文件的字节数，设置操作系统的分页粒度；(1b)计算机操作系统将待模糊匹配文件的映射内核对象全部映射到计算机的进程地址空间；(1c)判断是否读取完待模糊匹配文件的所有字节数，若是，则执行步骤(1d)，否则，执行步骤(1a)；(1d)计算机操作系统释放待模糊匹配文件的映射内核对象；(2)计算文件元数据：(2a)采用滚动哈希算法，计算待模糊匹配文件的字节，得到待模糊匹配文件字节的校验和：s＝x+y+w其中，s表示待模糊匹配文件字节的校验和，x表示在一个长度为7的滚动窗口内的待模糊匹配文件的所有字节数之和，y表示待模糊匹配文件的字节数与滚动窗口长度的乘积，w表示待模糊匹配文件的字节数与常数32的乘积；(2b)按照下式，计算待模糊匹配文件的分块长度：b＝bmin*2k其中，b表示待模糊匹配文件的分块长度，bmin表示待模糊匹配文件的分块长度b的最小值，缺省情况下bmin＝3，*表示乘法操作，k表示待模糊匹配文件的分块...

【技术特征摘要】
1.一种支持模糊匹配的云存储数据去重复方法，包括以下具体步骤：(1)采用内存映射文件方法，逐字节地读取待模糊匹配文件的内容；(1a)计算机操作系统在待模糊匹配文件中创建映射内核对象，读取文件的字节数，设置操作系统的分页粒度；(1b)计算机操作系统将待模糊匹配文件的映射内核对象全部映射到计算机的进程地址空间；(1c)判断是否读取完待模糊匹配文件的所有字节数，若是，则执行步骤(1d)，否则，执行步骤(1a)；(1d)计算机操作系统释放待模糊匹配文件的映射内核对象；(2)计算文件元数据：(2a)采用滚动哈希算法，计算待模糊匹配文件的字节，得到待模糊匹配文件字节的校验和：s＝x+y+w其中，s表示待模糊匹配文件字节的校验和，x表示在一个长度为7的滚动窗口内的待模糊匹配文件的所有字节数之和，y表示待模糊匹配...

【专利技术属性】
技术研发人员：张跃宇，庞婷，李晖，陈杰，王勇，张云鹏，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人