抗列删除攻击的表格数据水印方法技术

技术编号:36686258 阅读:15 留言:0更新日期:2023-02-27 19:49
本发明专利技术涉及抗列删除攻击的表格数据水印方法,属于计算机与信息科学技术领域。本发明专利技术首先结合属性重要程度及数据失真容忍度确定水印列标识;然后,结合聚类标签和受损行数据构建特征修复分类模型,利用模型对原始数据进行分类并根据类别概率确定水印行标识;而后,通过行和列标识确定水印嵌入位置并嵌入水印信息;最后,在水印检测阶段利用特征修复分类模型确定水印行标识,结合水印列标识提取水印信息。本发明专利技术针对现有表格数据水印方法抗列删除攻击能力不足的问题,构建特征修复分类模型准确获取受攻击数据的行标识,有效提升了水印检测准确率。检测准确率。检测准确率。

【技术实现步骤摘要】
抗列删除攻击的表格数据水印方法


[0001]本专利技术涉及抗列删除攻击的表格数据水印方法,属于计算机与信息科学


技术介绍

[0002]表格数据是医疗诊断、金融决策、工业智能等行业领域的重要数据资源,一旦被窃取滥用,将极大侵害所有者权益。表格数据水印技术是对表格数据进行版权保护和追踪溯源的有效方法,研究表格数据水印技术对于数字资产的安全保护具有重要意义。
[0003]当前表格数据水印方法主要可分为三类:
[0004]1.唯一主键方法
[0005]唯一主键方法是主流水印方法应用的基础。方法使用Hash计算秘钥和主键的散列值以确定水印位置,不同秘钥下水印位置不同,确保非法用户不能获得水印信息。但唯一主键方法应用的前提是表格数据存在唯一主键,若表格数据无主键或主键被删改,水印将无法被检测识别。
[0006]2.虚拟主键方法
[0007]虚拟主键方法将连续属性值转化为二进制后进行高低位分割,高位使用Hash计算生成虚拟主键,低位进行水印嵌入,从而避免唯一主键方法的缺陷。但虚拟主键方法对所选的连续属性值要求较高,当数据被篡改时将导致水印失效,且该方法无法使用离散属性值生成虚拟主键,难以充分利用数据资源。
[0008]3.聚类分组方法
[0009]聚类分组方法不再计算Hash散列值,而是基于距离度量直接实现聚类分组,并且可以同时使用连续或离散属性值,相较于虚拟主键方法具有更强的算法安全性。但聚类分组方法同样依赖参与聚类属性值的完整性。若聚类属性值被删除,标识与属性值间的单项映射关联被破坏,将导致水印检测时标识计算错误,水印无法被正确识别。
[0010]综上所述,现有表格数据水印方法过于依赖主键或所选取的属性值,抗列删除攻击能力不足,所以本专利技术提出抗列删除攻击的表格数据水印方法。

技术实现思路

[0011]本专利技术的目的是针对表格数据水印方法抗列删除攻击能力不足的问题,提出了抗列删除攻击的表格数据水印方法。
[0012]本专利技术的设计原理为:首先选取重要属性列作为水印列标识;其次使用聚类方法获得行数据聚类标签,构造受损行数据,结合聚类标签和受损行数据构建特征修复分类模型,利用模型对原始数据进行分类并根据类别概率确定水印行标识;然后使用纠错码编码水印信息,根据行标识和列标识确定嵌入位置并冗余嵌入水印信息,获得含水印数据;最后使用特征修复分类模型确定水印位置,提取水印信息并解码,获得嵌入的水印信息。
[0013]本专利技术的技术方案是通过如下步骤实现的:
[0014]步骤1,结合属性重要程度及数据失真容忍度选取重要连续变量属性列,确定水印列标识。
[0015]步骤2,构建特征修复分类网络模型确定水印行标识。
[0016]步骤2.1,使用过滤式特征选择法选取聚类特征。
[0017]步骤2.2,基于所选特征使用约束FCM算法进行无监督聚类,获得行数据聚类标签。
[0018]步骤2.3,使用掩码向量生成受损行数据,并利用聚类标签和受损行数据训练特征修复分类网络模型。
[0019]步骤2.4,使用模型计算各行数据分类类别概率,根据类别概率为原始行数据添加分组标识并选取行数据作为水印行标识。
[0020]步骤3,将水印信息冗余嵌入原始数据。
[0021]步骤3.1,将水印信息编码为二进制格式,并添加纠错码。
[0022]步骤3.2,根据水印行标识和水印列标识确定水印嵌入位置,使用LSB算法冗余嵌入水印编码。
[0023]步骤4,对含水印数据进行水印检测。
[0024]步骤4.1,使用特征修复分类网络获得水印行标识,结合水印列标识确定水印嵌入位置。
[0025]步骤4.2,提取水印编码并解码,恢复水印信息。
[0026]有益效果
[0027]相比于唯一主键方法,本专利技术可以在无主键的数据中嵌入水印。
[0028]相比于虚拟主键法,本专利技术通过无监督聚类方法选取水印行标识,可同时使用连续属性值和离散属性值,可充分利用数据资源。
[0029]相比于聚类分组法,本专利技术通过建立特征修复分类模型,利用特征修复编码实现受损数据的正确分类,同时根据分类网络输出的类别概率选取行数据嵌入冗余信息,减少数据统计特征的失真程度。
附图说明
[0030]图1为本专利技术抗列删除攻击的表格数据水印方法原理图。
[0031]图2为特征修复分类网络结构图。
具体实施方式
[0032]为了更好的说明本专利技术的目的和优点,下面结合实例对本专利技术方法的实施方式做进一步详细说明。
[0033]实验数据来自真实生物信息数据集Checkup。数据水印实验数据见表1。
[0034]表1.数据水印实验数据集
[0035][0036]实验采用行标识准确率Acc
loc
作为评价指标,以评估所用方法在参与标识计算的列属性被删除后,对数据行标识的恢复效果。行标识准确率的计算方法为:
[0037][0038]其中,r
j
为第j行的表格数据,y为列删除攻击前分组类别,为列删除攻击后分组类别,n为数据的行数量。
[0039]本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i9

9900,RAM 32G,操作系统是windows 11,64位;服务器的具体配置为:GeForce GTX 1080Ti,操作系统是Linux Ubuntu 20.04,64位。
[0040]本次实验的具体流程为:
[0041]步骤1,将连续属性值按照方差σ和均值μ进行降序排列,属性列的排序方式T为:
[0042]T=lnμ+log
10
σ,
[0043]以排列为参考,结合属性重要程度及数据失真容忍度两种主观因素选取属性列作为待嵌入水印的列标识。
[0044]步骤2,构建特征修复分类网络模型并利用模型确定水印行标识。
[0045]步骤2.1,使用过滤式特征选择法计算特征之间相关系数和方差,从高方差特征数据中选取高相关系数的特征作为聚类特征以增加聚类属性冗余度,选取特征数为max{0.8k,ca},其中k为聚类数,ca为连续属性列数量。
[0046]步骤2.2,基于聚类特征使用约束FCM算法进行无监督聚类,约束FCM模型训练的目标函数为:
[0047][0048]其中,c
i
表示聚类中心,r
j
表示行数据,表示第j行数据属于第i类的隶属度,并满足各类簇大小相同且各类隶属度之和为1的约束条件。根据聚类结果获得各行数据聚类标签。
[0049]步骤2.3,使用掩码向量m生成受损行数据生成方式为:
[0050][0051]其中,r表示原始行数据,掩码向量m=[m0,m1,

,m
β
‑1]T
,m
i
从伯努利分布中采样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.抗列删除攻击的表格数据水印方法,其特征在于所述方法包括如下步骤:步骤1,结合属性重要程度及数据失真容忍度选取重要连续变量属性列,确定水印列标识;步骤2,构建特征修复分类网络模型确定水印行标识,首先,使用过滤式特征选择法选取聚类特征,其次,基于所选特征使用约束FCM算法进行无监督聚类,获得行数据聚类标签,然后,使用掩码向量生成受损行数据,并利用受损行数据训练特征修复分类网络模型,最后,使用模型计算各行数据分类类别概率,根据类别概率为原始行数据添加分组标识并选取行数据作为水印行标识;步骤3,将水印信息冗余嵌入原始数据,首先,将水印信息编码为二进制格式,并添加纠错码,最后,根据水印行标识和水印列标识确定水印嵌入位置,使用LSB算法冗余嵌入水印编码;步骤4,对含水印数据进行水印检测,首先,使用特征修复分类网络获得水印行标识,结合水印列标识确定水印嵌入位置,最后,提取水印编码并解码,恢复水印信息。2.根据权利要求1所述的抗列删除攻击的表格数据水印方法,其特征在于:步骤2中训练特征修复分类模型,训练过程为将受损数据输入自编码网络进行编码,受损数据编码z由特征修复网络恢复为修复数据结合原始行数据r使用均方误差MSE计算损失,训练特征修复网络,同时受损数据编码z由分类网络分类为结合聚类标签t使用交叉熵CE计算损失,训练分类网络,结合两个损失训练自编码网络,令编码结果包含原始数据与所属聚类类别的信息,训练完毕的模型同时具备特征修复编码功能和数据分类功能,最终输出为数据分类结果。3.根据权利要求1所述的抗列删除攻击的表格数据水印方法,...

【专利技术属性】
技术研发人员:罗森林杨宗源潘丽敏魏继勋
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1