【技术实现步骤摘要】
一种基于标签聚类的安全去重方法
[0001]本专利技术涉及深度学习与信息安全
,具体涉及一种基于标签聚类的安全去重方法,用于降低云存储中加密数据去重的计算开销。
技术介绍
[0002]由于云存储(CS)具有低成本、海量存储、可扩展、数据访问便捷等诸多优点,因此越来越多的个人、机构、组织等选择将数据存储在云服务器上。但是,不同的人或组织可能将相同的数据存储在云服务器上,造成重复存储,浪费存储资源,这就需要删除重复数据。但是用户为了保护自己的数据不泄露,通常会将数据加密后存储到云服务器中。不同的加密方法、不同的加密秘钥使相同的数据产生不同的密文,使云服务器无法对加密数据进行有效去重。
[0003]对此,针对加密数据进行重复数据删除的方法被提出,用户首先需要提取数据的哈希值,将该哈希值加密后作为数据的指纹标签用于去重。为了保证指纹标签的机密性,有学者提出了基于随机消息锁加密(R
‑
MLE)的安全数据去重方法,该方法基于椭圆曲线的加密方法将哈希值加密成一个难以被暴力破解的指纹标签。但是该标签的比对基于 ...
【技术保护点】
【技术特征摘要】
1.一种基于标签聚类的安全去重方法,其特征是:数据所有者将数据指纹标签和摘要标签上传到CSP,发出去重申请,并根据去重检测结果决定是否上传加密数据和标签;所述CSP周期性的对所述摘要标签进行聚类,并识别所述摘要标签所在的分类以进行重复数据检索和删除;设定用户训练好的自编码模型;该方法的具体过程如下:步骤一、用户为数据m1生成哈希值H(m1),再选取一个随机数a,构建数据的指纹标签步骤二、采用自编码模型生成数据的摘要标签AT(m1);步骤三、用户上传AT(m1)和到CSP;步骤四、CSP遍历c_centroid表中的每个聚类中心,计算聚类中心到AT(m1)的距离,并选取距离最近的分类i;步骤五、根据分类i的id在c_tag表中查询该分类下的所有标签组成标签集;步骤六、遍历步骤五所述的标签集,计算每个标签与AT(m1)的距离并将其存储在二叉排序树中;步骤七、在所述二叉排序树中按照距离从小到大选择最小的前n个标签组成新的标签集合;步骤八、遍历所述新的标签集合,取出每个指纹标签b为其他用户选择的随机数,再分别计算和e若二者相等,则表明m1=m2,即用户上传的是重复数据,CSP告知用户不用上传数据,过程结束;否则,执行步骤九;步骤九、CSP告知用户上传加密数据,再将AT(m1)和存入c_tag表,并标记它的分类为i;步骤十、CSP统计标签数的方差,若方差大于某个阈值,则CSP启动摘要标签聚类,否则,结束。2.根据权利要求1所述的一种基于...
【专利技术属性】
技术研发人员:祁晖,从立钢,刘旭,底晓强,李锦青,毕琳,解男男,任维武,
申请(专利权)人:长春理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。