一种基于标签聚类的安全去重方法技术

技术编号:37846460 阅读:7 留言:0更新日期:2023-06-14 22:31
一种基于标签聚类的安全去重方法,涉及深度学习与信息安全技术领域,本发明专利技术提供一种基于标签聚类的安全去重方法,在基于自编码模型的去重方法基础上引入标签聚类方法,实现指纹标签的快速筛选,以进一步提高去重效率。用户将数据指纹标签和摘要标签上传到CSP,发出去重申请,并根据去重检测结果决定是否上传加密数据和标签;所述CSP周期性的对所述摘要标签进行聚类,并识别所述摘要标签所在的分类以进行重复数据检索和删除;本发明专利技术方法在返回某类标签之后即可开始指纹标签的比对,可以省略距离计算和排序的步骤。离计算和排序的步骤。离计算和排序的步骤。

【技术实现步骤摘要】
一种基于标签聚类的安全去重方法


[0001]本专利技术涉及深度学习与信息安全
,具体涉及一种基于标签聚类的安全去重方法,用于降低云存储中加密数据去重的计算开销。

技术介绍

[0002]由于云存储(CS)具有低成本、海量存储、可扩展、数据访问便捷等诸多优点,因此越来越多的个人、机构、组织等选择将数据存储在云服务器上。但是,不同的人或组织可能将相同的数据存储在云服务器上,造成重复存储,浪费存储资源,这就需要删除重复数据。但是用户为了保护自己的数据不泄露,通常会将数据加密后存储到云服务器中。不同的加密方法、不同的加密秘钥使相同的数据产生不同的密文,使云服务器无法对加密数据进行有效去重。
[0003]对此,针对加密数据进行重复数据删除的方法被提出,用户首先需要提取数据的哈希值,将该哈希值加密后作为数据的指纹标签用于去重。为了保证指纹标签的机密性,有学者提出了基于随机消息锁加密(R

MLE)的安全数据去重方法,该方法基于椭圆曲线的加密方法将哈希值加密成一个难以被暴力破解的指纹标签。但是该标签的比对基于双线性映射理论,计算量远大于传统加密。
[0004]因此又有学者提出将自编码模型引入R

MLE方法,该方法需要用户自主训练一个自编码模型,通过该模型为数据生成一个摘要标签,该标签可用于计算数据之间的相似性。去重时,云服务提供商(CSP)计算用户的摘要标签与标签库中的标签之间的相似性,选出最相似的摘要标签对应的指纹标签再进行重复数据比对。通过摘要标签的过滤,需要比对的指纹标签数量显著降低。

技术实现思路

[0005]本专利技术提供一种基于标签聚类的安全去重方法,在基于自编码模型的去重方法基础上引入标签聚类方法,实现指纹标签的快速筛选,以进一步提高去重效率。
[0006]一种基于标签聚类的安全去重方法,用户将数据指纹标签和摘要标签上传到CSP,发出去重申请,并根据去重检测结果决定是否上传加密数据和标签;所述CSP周期性的对所述摘要标签进行聚类,并识别所述摘要标签所在的分类以进行重复数据检索和删除;设定用户训练好的自编码模型;该方法的具体过程如下:
[0007]步骤一、用户为数据m1生成哈希值H(m1),再选取一个随机数a,构建数据的指纹标签
[0008]步骤二、采用自编码模型生成数据的摘要标签AT(m1);
[0009]步骤三、用户上传AT(m1)和到CSP;
[0010]步骤四、CSP遍历c_centroid表中的每个聚类中心,计算聚类中心到AT(m1)的距离,并选取距离最近的分类i;
[0011]步骤五、根据分类i的id在c_tag表中查询该分类下的所有标签组成标签集;
[0012]步骤六、遍历步骤五所述的标签集,计算每个标签与AT(m1)的距离并将其存储在二叉排序树中;
[0013]步骤七、在所述二叉排序树中按照距离从小到大选择最小的前n个标签组成新的标签集合;
[0014]步骤八、遍历所述新的标签集合,取出每个指纹标签b为其他用户选择的随机数,再分别计算和若二者相等,则表明m1=m2,即用户上传的是重复数据,CSP告知用户不用上传数据,过程结束;否则,执行步骤九;
[0015]步骤九、CSP告知用户上传加密数据,再将AT(m1)和存入c_tag表,并标记它的分类为i;
[0016]步骤十、CSP统计标签数的方差,若方差大于某个阈值,则CSP启动摘要标签聚类,否则,结束。
[0017]本专利技术的有益效果:
[0018]本专利技术所述的方法中,在返回某类标签之后即可开始指纹标签的比对,因此就摘要标签的过滤而言,本专利技术可以省略距离计算和排序的步骤。在这种情况下,标签过滤的时间复杂度为O(m),其中m为聚类中心的数目。而基于自编码模型的安全去重方法中,摘要标签过滤的时间复杂度为O(nlogn),其中n为摘要标签总数。从时间复杂度的角度来看,本专利技术是线性时间复杂度,基于自编码模型的安全去重方法是线性对数时间复杂度,本专利技术更优。同时由于聚类数目可以按需设置,理论上与摘要标签数量无关,是一个远小于n的常量。
[0019]本专利技术方法在标签过滤上的效率是远高于基于自编码模型的安全去重方法的。假设每一类标签的数量一致,均为n/m,且基于自编码模型的安全去重方法设置的过滤比例为1/m,则两个方法在后续指纹标签比对上的时间复杂度均为由于指纹标签比对在整个去重过程中是最消耗计算资源的,因此实际上两个方法的执行效率差异不大。考虑到该时间复杂度是最坏情况下的,当用户上传的数据是重复数据时,有排序的标签集将比没有排序的标签集更容易检索。
[0020]本专利技术在过滤出一类摘要标签后,对它们进行距离计算并排序,然后再根据一定比例过滤出更小范围的摘要标签。假设这个比例仍然为1/m,则指纹标签对比的时间复杂度就可进一步降低为即使不进一步缩小范围,排序后的指纹标签对比效率也和基于自编码模型的安全去重方法相当。此时,摘要标签过滤及排序的总时间复杂度为仍然优于基于自编码模型的安全去重方法的O(nlogn)。
附图说明
[0021]图1为基于自编码模型的数据安全去重时序图;
[0022]图2为本专利技术所述的一种基于标签聚类的安全去重方法的时序图。
具体实施方式
[0023]结合图1和图2说明本实施方式,一种基于标签聚类的安全去重方法,该方法k

means聚类算法周期性地对CSP中的摘要标签进行聚类,并存储聚类中心。为此,设计了专门的数据结构来存储摘要标签及其聚类中心,即用于存储聚类中心的数据表c_centroid和用于存储标签(摘要标签和指纹标签)的数据表c_tag。
[0024]所述c_centroid表中包含2个字段,分别是标识id和聚类中心的坐标coordinate,其中coordinate字段将每个维度的坐标值以科学计数法的形式连接成字符串。c_tag表中包含4个字段,分别是标识id、指纹标签fp、摘要标签as_t和聚类标识centroid_id,其中centroid_id用于关联c_centroid表,表明该标签属于哪一类。
[0025]本实施方式中,包括两个实体:云服务提供商(CSP)和用户。
[0026]CSP:提供数据存储服务,拥有强大的计算能力和巨大的存储资源,周期性地对摘要标签进行聚类,快速识别用户上传的摘要标签所在的分类以进行重复数据检索和删除。
[0027]用户:将数据指纹标签和摘要标签上传到云服务器,发出去重申请,根据去重检测结果决定是否上传加密数据和标签。
[0028]所述上传数据过程如下,假设用户已经训练好一个自编码模型:
[0029]步骤1:用户为数据m1生成哈希值H(m1),再选取一个随机数a,构建数据的指纹标签
[0030]步骤2:使用自编码模型生成数据的摘要标签AT(m1)。
[0031]步骤3:用户上传AT(m1)和到CSP。
[0032]步骤4:CSP遍历c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签聚类的安全去重方法,其特征是:数据所有者将数据指纹标签和摘要标签上传到CSP,发出去重申请,并根据去重检测结果决定是否上传加密数据和标签;所述CSP周期性的对所述摘要标签进行聚类,并识别所述摘要标签所在的分类以进行重复数据检索和删除;设定用户训练好的自编码模型;该方法的具体过程如下:步骤一、用户为数据m1生成哈希值H(m1),再选取一个随机数a,构建数据的指纹标签步骤二、采用自编码模型生成数据的摘要标签AT(m1);步骤三、用户上传AT(m1)和到CSP;步骤四、CSP遍历c_centroid表中的每个聚类中心,计算聚类中心到AT(m1)的距离,并选取距离最近的分类i;步骤五、根据分类i的id在c_tag表中查询该分类下的所有标签组成标签集;步骤六、遍历步骤五所述的标签集,计算每个标签与AT(m1)的距离并将其存储在二叉排序树中;步骤七、在所述二叉排序树中按照距离从小到大选择最小的前n个标签组成新的标签集合;步骤八、遍历所述新的标签集合,取出每个指纹标签b为其他用户选择的随机数,再分别计算和e若二者相等,则表明m1=m2,即用户上传的是重复数据,CSP告知用户不用上传数据,过程结束;否则,执行步骤九;步骤九、CSP告知用户上传加密数据,再将AT(m1)和存入c_tag表,并标记它的分类为i;步骤十、CSP统计标签数的方差,若方差大于某个阈值,则CSP启动摘要标签聚类,否则,结束。2.根据权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:祁晖从立钢刘旭底晓强李锦青毕琳解男男任维武
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1