【技术实现步骤摘要】
基于属性重要性指数的数字水印数据溯源方法
[0001]本专利技术涉及数据溯源领域,具体涉及的是基于属性重要性指数的数字水印数据溯源方法。
技术介绍
[0002]随着数据传输与共享技术快速发展,数据跨系统外发日趋频繁,这些数据中包含数据所有者的敏感信息,如何防止授权对象获取数据后进行非授权转发,成为数据安全外发亟待解决的问题。例如,政府和企业机构等数据所有者拥有大量的数据,为从数据中提取出有价值的信息和知识,需要将数据发送给多个不同的第三方数据分析机构进行分析处理,可能出现不可信第三方将所接收的数据转发给其他人,从而造成数据的非法转发,泄露数据隐私,如何确定泄露数据的第三方,是进行数据泄露溯源问责的关键。
[0003]数字水印技术是目前解决数据版权问题的常用方法,近年来得到研究者的持续关注,提出了一系列水印算法。已有研究大多主要侧重于对数据可用性的维持,基本可分为两类:基于优化算法的方法和基于直方图技术的方法。在基于优化算法的研究中,采用将水印嵌入转化为约束条件下的求最优解问题的思路,使用遗传算法(Genetic Al ...
【技术保护点】
【技术特征摘要】
1.基于属性重要性指数的数字水印数据溯源方法,其特征在于,所述数据溯源方法包括以下步骤:步骤1,对要被分发的原始数据进行汇总,提取每条原始数据的条件属性A
i
(1≤i≤n)与类标号属性L形成数据表D,n表示每条原始数据条件属性的数目,类标号属性L对应s种分类,数据表D中包含M条原始数据;步骤2,根据步骤1中原始数据的数据接收者创建水印索引表,其中包含每条原始数据接收者的信息以及原始数据中应嵌有的初始水印W
ii
(1≤ii≤G),G表示数据接收者的个数,并生成密钥KEY;步骤3,形成非重要属性集attr;步骤4,根据非重要属性集attr以及步骤2水印索引表中每条原始数据中应嵌有的水印W
ii
(1≤ii≤M),将水印嵌入至其对应的原始数据中,得到含有水印的数据集D
W
;步骤5,将步骤4得到的D
W
按照步骤2建立的水印索引表中数据接收者的信息进行分发,并采集分发过程中或分发后已经完整泄露或部分泄露的疑似泄露数据,将其整合为疑似泄露数据集D
W
’
;步骤6,对于疑似泄露数据集D
W
’
中的数据,提取每条数据中的所有子水印并将其连接为完整的水印;步骤7,根据步骤6提取出的完整水印,通过步骤2建立的水印索引表查找出对应的数据接受者,即为泄露数据的个体,至此完成数据泄露溯源。2.根据权利要求1所述的基于属性重要性指数的数字水印数据溯源方法,其特征在于:在所述步骤1中,所述类标号属性表示数据的类别,共包含s种分类;所述条件属性指数据的特征,基于条件属性可以使用常规预测手段对数据的类标号属性进行预测。3.根据权利要求1所述的基于属性重要性指数的数字水印数据溯源方法,其特征在于:在所述步骤2中,对于同一数据接收者,其接受的原始数据中包含的初始水印相同。4.根据权利要求1或3所述的基于属性重要性指数的数字水印数据溯源方法,其特征在于:所述密钥KEY为指定的任意十进制数。5.根据权利要求1所述的基于属性重要性指数的数字水印数据溯源方法,其特征在于:所述步骤3包括以下内容:步骤301,根据步骤1建立的数据表计算每个条件属性的信息增益率GainRatio(A
i
,D);步骤302,根据步骤1的数据表计算每个条件属性的基尼系数Gini(A
i
,D);步骤303,对步骤301求得的信息增益率GainRatio(A
i
,D)和步骤302求得的基尼系数Gini(A
i
,D)进行加权平均计算得出每个属性A
i
的重要性指数impt_index(A
i
,D),并将属性按照重要性指数的大小进行排序,选取tt个重要性指数最小的属性作为待嵌入水印的属性,形成非重要属性集attr,其中1≤tt≤n。6.根据权利要求5所述的基于属性重要性指数的数字水印数据溯源方法,其特征在于:在所述步骤301中,设第j分类中的原始数据相对于整个数据表中数据的所占比例为p
j
(j=1,2
…
,s),s为数据类别的总分类数,条件属性A
i
(1≤i≤n)的信息增益率GainRatio(A
i
,D)满足以下关系式:
其中,Gain(A
i
,D)为条件属性A
i
的信息增益,Split_info(A
i
)为对A
i
的划分信息,分别满足以下关系:Gain(A
i
,D)=Entropy(D)
‑
Entropy(A
i
,D)其中,Entropy(D)为数据表D的信息熵,Entropy(A
i
,D)为数据表按条件属性A
i
划分后的条件熵,分别满足以下关系:分别满足以下关系:其中,r表示数据表D按条件属性A
i
划分为r个子集D
m
(m=1,2,
…
,r),|D
m
|表示子集D
m
中的原始数据数量,|D|表示数据表的原始数据数量。7.根据权利要求5所述的基于属性重要性指数的数字水印数据溯源方法,其特征在于:在所述步骤302中,使用二分法根据条件属性A
i
(1≤i≤n)将数据集划分为子集Z
i1
和Z
i2
;首先将所有原始数据条件属性A
i
的属性值按从大至小顺序进行排列,然后计算相邻属性值的平均值,作为划分点,将数据集划分为:大于划分点和小于划分点的两个子集;两个数据子集包含原始数据分别为...
【专利技术属性】
技术研发人员:徐超,邹云峰,单超,朱峰,范环宇,
申请(专利权)人:国网江苏省电力有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。