The invention discloses a method and a system for managing large data watermarks, relating to the field of data security. The watermark is generated when the source of statistics data include data records of the number of N, according to a predetermined ratio of P generated m watermark records, where p = m/n, m will record the watermark randomly inserted into the N data record, to generate the watermark data; in watermark detection, detecting the watermark data in one by one including the watermark records is legal, if the legitimate watermark record number exceeds a predetermined threshold can be determined, including the watermark data in the use of effective watermarking; watermark data, remove watermark watermark data in the record, the remaining records of the corresponding logic processing. The invention generates watermark information according to the characteristics of large data, does not destroy data content, is independent of the order of data recording, and is suitable for structured and unstructured data, and is suitable for the use of large data services.
【技术实现步骤摘要】
大数据水印管理方法和系统
本专利技术涉及数据安全领域,特别涉及一种大数据水印管理方法和系统。
技术介绍
大数据技术需要将大量的异构数据进行汇聚,经过清洗整合后,形成可供大数据分析的数据,在此基础上进行各种分析运算,然后形成结果展示。正是由于大数据需要汇聚大量的不同来源、不同内容的数据到一个平台上,其中某些数据不可避免含有敏感信息,例如用户隐私信息,或企业经营管理信息等。所以其数据本身的安全也受到了数据拥有者的重视。大数据平台已经在使用加密、去隐私化和访问控制等技术手段来保证数据的安全。但是数据拥有者仍然希望能够在任何时间确认数据的来源。例如,在数据泄露的情况下,能够判定泄露数据的来源,有助于调查数据泄露方,明确法律责任。数字水印技术已在图形、图像等多媒体领域有成熟的解决方案,主要原因是图形、图像等多媒体信息里面存在一定的冗余信息,并有一定的容错性。这样允许通过某种算法插入一些冗余的水印信息,并通过算法对其进行识别,整体上还不影响图形、图像的基本质量。大数据水印借用了水印的思想,但是根据大数据本身的数据特点,使用了与图形、图像水印不同的方法来产生水印信息,以满足大数据溯源的需求。大数据水印主要满足的是数据拥有者的溯源需求,即对某一段数据,数据拥有者可以通过检测其中的水印信息得知此段数据是否属于数据拥有者。水印技术已在图形、图像领域比较成熟,在关系型数据库领域也有一些方案。其中关系型数据库的水印与大数据水印最为类似,但是关系型数据库因为是结构化数据,该水印方案是通过修改某些数据的某些字段的某一数据位,达到即不影响使用,又能判断水印的目的。选择哪些数据字段是需要 ...
【技术保护点】
一种大数据水印管理方法,其特征在于,包括:统计源数据中包括的数据记录条数n;按照预定比例p生成m条水印记录,其中p=m/n;将m条水印记录随机插入到n条数据记录中,从而生成水印数据。
【技术特征摘要】
1.一种大数据水印管理方法,其特征在于,包括:统计源数据中包括的数据记录条数n;按照预定比例p生成m条水印记录,其中p=m/n;将m条水印记录随机插入到n条数据记录中,从而生成水印数据。2.根据权利要求1所述的方法,其特征在于,还包括:在生成每条水印记录时,判断生成规则是否能通过相关水印算法生成;若生成规则能通过相关水印算法生成,则利用相关水印算法生成水印记录,并在该水印记录中添加相关指示信息;若生成规则不能通过相关水印算法生成,则利用指定方式生成水印记录,并在该水印记录中添加相关指示信息,同时将该水印记录添加到水印数据库中。3.根据权利要求2所述的方法,其特征在于,在每条水印记录中,各字段的内容均符合相应字段属性要求。4.根据权利要求1所述的方法,其特征在于,p的取值范围为1%-1‰。5.根据权利要求1-4中任一项所述的方法,其特征在于,在对水印数据进行检测时,包括:提取水印数据中的一条记录作为检测记录;根据检测记录中的标识判断检测记录是否为水印记录;若判断检测记录为水印记录,则进一步判断检测记录是否为合法水印记录;若检测记录为合法的水印记录,则将统计值C加1;判断统计值C是否大于预定门限t;若统计值C大于预定门限t,则确定水印数据中包含的水印有效;若统计值C不大于预定门限t,则选择水印数据中的下一条记录作为检测记录,然后执行根据检测记录中的标识判断检测记录是否为水印记录的步骤,直至水印数据中的全部记录被检测完为止。6.根据权利要求5所述的方法,其特征在于,判断检测记录是否为合法水印记录的步骤包括:若检测记录是通过相关水印算法生成的,则判断检测记录中的相应字段是否符合相关水印算法要求;如果检测记录中的相应字段符合相关水印算法要求,则判断检测记录为合法水印记录;若检测记录不是通过相关水印算法生成的,则判断在水印数据库中是否能查询到该检测记录;如果在水印数据库中能查询到该检测记录,则判断检测记录为合法水印记录。7.根据权利要求6所述的方法,其特征在于,在对水印数据进行恢复操作时,包括:读取水印数据中的每一条记录;判断读取记录是否为水印记录;若读取记录为水印记录,则丢弃该读取记录,以便从水印数据中提取出源数据。8.一种大数据水印管理系统,其特征在于,包括统计模块、水印生成模块和记录插入模块...
【专利技术属性】
技术研发人员:李宾,王兴刚,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。