大数据水印管理方法和系统技术方案

技术编号:15763536 阅读:234 留言:0更新日期:2017-07-06 01:33
本发明专利技术公开一种大数据水印管理方法和系统,涉及数据安全领域。其中在生成水印时,统计源数据中包括的数据记录条数n,按照预定比例p生成m条水印记录,其中p=m/n,将m条水印记录随机插入到n条数据记录中,从而生成水印数据;在进行水印检测时,逐条检测水印数据中包括水印记录是否为合法,若合法水印记录数超过预定门限,可确定水印数据中包括的水印有效;在使用水印数据中,去除水印数据中的水印记录,对剩余记录进行相应逻辑处理。本发明专利技术通过针对大数据的特点生成水印信息,不破坏数据内容,与数据记录的顺序无关,并适用于结构化和非结构化的数据,适合大数据业务的使用。

Large data watermark management method and system

The invention discloses a method and a system for managing large data watermarks, relating to the field of data security. The watermark is generated when the source of statistics data include data records of the number of N, according to a predetermined ratio of P generated m watermark records, where p = m/n, m will record the watermark randomly inserted into the N data record, to generate the watermark data; in watermark detection, detecting the watermark data in one by one including the watermark records is legal, if the legitimate watermark record number exceeds a predetermined threshold can be determined, including the watermark data in the use of effective watermarking; watermark data, remove watermark watermark data in the record, the remaining records of the corresponding logic processing. The invention generates watermark information according to the characteristics of large data, does not destroy data content, is independent of the order of data recording, and is suitable for structured and unstructured data, and is suitable for the use of large data services.

【技术实现步骤摘要】
大数据水印管理方法和系统
本专利技术涉及数据安全领域,特别涉及一种大数据水印管理方法和系统。
技术介绍
大数据技术需要将大量的异构数据进行汇聚,经过清洗整合后,形成可供大数据分析的数据,在此基础上进行各种分析运算,然后形成结果展示。正是由于大数据需要汇聚大量的不同来源、不同内容的数据到一个平台上,其中某些数据不可避免含有敏感信息,例如用户隐私信息,或企业经营管理信息等。所以其数据本身的安全也受到了数据拥有者的重视。大数据平台已经在使用加密、去隐私化和访问控制等技术手段来保证数据的安全。但是数据拥有者仍然希望能够在任何时间确认数据的来源。例如,在数据泄露的情况下,能够判定泄露数据的来源,有助于调查数据泄露方,明确法律责任。数字水印技术已在图形、图像等多媒体领域有成熟的解决方案,主要原因是图形、图像等多媒体信息里面存在一定的冗余信息,并有一定的容错性。这样允许通过某种算法插入一些冗余的水印信息,并通过算法对其进行识别,整体上还不影响图形、图像的基本质量。大数据水印借用了水印的思想,但是根据大数据本身的数据特点,使用了与图形、图像水印不同的方法来产生水印信息,以满足大数据溯源的需求。大数据水印主要满足的是数据拥有者的溯源需求,即对某一段数据,数据拥有者可以通过检测其中的水印信息得知此段数据是否属于数据拥有者。水印技术已在图形、图像领域比较成熟,在关系型数据库领域也有一些方案。其中关系型数据库的水印与大数据水印最为类似,但是关系型数据库因为是结构化数据,该水印方案是通过修改某些数据的某些字段的某一数据位,达到即不影响使用,又能判断水印的目的。选择哪些数据字段是需要对数据库的表结构预先了解的,并对该字段的属性有限制条件,例如数字型的字段就不适宜用作水印等。
技术实现思路
本专利技术实施例提供一种大数据水印管理方法和系统,通过针对大数据的特点生成水印信息,不破坏数据内容,与数据记录的顺序无关,并适用于结构化和非结构化的数据,适合大数据业务的使用。根据本专利技术的一个方面,提供一种大数据水印管理方法,包括:统计源数据中包括的数据记录条数n;按照预定比例p生成m条水印记录,其中p=m/n;将m条水印记录随机插入到n条数据记录中,从而生成水印数据。在一个实施例中,在生成每条水印记录时,判断生成规则是否能通过相关水印算法生成;若生成规则能通过相关水印算法生成,则利用相关水印算法生成水印记录,并在该水印记录中添加相关指示信息;若生成规则不能通过相关水印算法生成,则利用指定方式生成水印记录,并在该水印记录中添加相关指示信息,同时将该水印记录添加到水印数据库中。在一个实施例中,在每条水印记录中,各字段的内容均符合相应字段属性要求。在一个实施例中,p的取值范围为1%-1‰。在一个实施例中,在对水印数据进行检测时,包括:提取水印数据中的一条记录作为检测记录;根据检测记录中的标识判断检测记录是否为水印记录;若判断检测记录为水印记录,则进一步判断检测记录是否为合法水印记录;若检测记录为合法的水印记录,则将统计值C加1;判断统计值C是否大于预定门限t;若统计值C大于预定门限t,则确定水印数据中包含的水印有效;若统计值C不大于预定门限t,则选择水印数据中的下一条记录作为检测记录,然后执行根据检测记录中的标识判断检测记录是否为水印记录的步骤,直至水印数据中的全部记录被检测完为止。在一个实施例中,判断检测记录是否为合法水印记录的步骤包括:若检测记录是通过相关水印算法生成的,则判断检测记录中的相应字段是否符合相关水印算法要求;如果检测记录中的相应字段符合相关水印算法要求,则判断检测记录为合法水印记录;若检测记录不是通过相关水印算法生成的,则判断在水印数据库中是否能查询到该检测记录;如果在水印数据库中能查询到该检测记录,则判断检测记录为合法水印记录。在一个实施例中,在对水印数据进行恢复操作时,包括:读取水印数据中的每一条记录;判断读取记录是否为水印记录;若读取记录为水印记录,则丢弃该读取记录,以便从水印数据中提取出源数据。根据本专利技术的另一方面,提供一种大数据水印管理系统,包括统计模块、水印生成模块和记录插入模块,其中:统计模块,用于统计源数据中包括的数据记录条数n;水印生成模块,用于按照预定比例p生成m条水印记录,其中p=m/n;记录插入模块,用于将m条水印记录随机插入到n条数据记录中,从而生成水印数据。在一个实施例中,水印生成模块具体在生成每条水印记录时,判断生成规则是否能通过相关水印算法生成;若生成规则能通过相关水印算法生成,则利用相关水印算法生成水印记录,并在该水印记录中添加相关指示信息;若生成规则不能通过相关水印算法生成,则利用指定方式生成水印记录,并在该水印记录中添加相关指示信息,同时将该水印记录添加到水印数据库中。在一个实施例中,在每条水印记录中,各字段的内容均符合相应字段属性要求。在一个实施例中,p的取值范围为1%-1‰。在一个实施例中,系统还包括水印检测模块,其中:水印检测模块,用于在对水印数据进行检测时,提取水印数据中的一条记录作为检测记录;根据检测记录中的标识判断检测记录是否为水印记录,若判断检测记录为水印记录,则进一步判断检测记录是否为合法水印记录,若检测记录为合法的水印记录,则将统计值C加1,判断统计值C是否大于预定门限t,若统计值C大于预定门限t,则确定水印数据中包含的水印有效;若统计值C不大于预定门限t,则选择水印数据中的下一条记录作为检测记录,然后执行根据检测记录中的标识判断检测记录是否为水印记录的步骤,直至水印数据中的全部记录被检测完为止。在一个实施例中,水印检测模块具体在检测记录是通过相关水印算法生成时,判断检测记录中的相应字段是否符合相关水印算法要求,如果检测记录中的相应字段符合相关水印算法要求,则判断检测记录为合法水印记录;若检测记录不是通过相关水印算法生成时,判断在水印数据库中是否能查询到该检测记录,如果在水印数据库中能查询到该检测记录,则判断检测记录为合法水印记录。在一个实施例中,系统还包括数据恢复模块,其中:数据恢复模块,用于在对水印数据进行恢复操作时,读取水印数据中的每一条记录,判断读取记录是否为水印记录,若读取记录为水印记录,则丢弃该读取记录,以便从水印数据中提取出源数据。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术大数据水印管理方法一个实施例的示意图。图2为本专利技术大数据水印管理方法另一实施例的示意图。图3为本专利技术大数据水印管理方法又一实施例的示意图。图4为本专利技术大数据水印管理系统一个实施例的示意图。图5为本专利技术大数据水印管理系统另一实施例的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本本文档来自技高网
...
大数据水印管理方法和系统

【技术保护点】
一种大数据水印管理方法,其特征在于,包括:统计源数据中包括的数据记录条数n;按照预定比例p生成m条水印记录,其中p=m/n;将m条水印记录随机插入到n条数据记录中,从而生成水印数据。

【技术特征摘要】
1.一种大数据水印管理方法,其特征在于,包括:统计源数据中包括的数据记录条数n;按照预定比例p生成m条水印记录,其中p=m/n;将m条水印记录随机插入到n条数据记录中,从而生成水印数据。2.根据权利要求1所述的方法,其特征在于,还包括:在生成每条水印记录时,判断生成规则是否能通过相关水印算法生成;若生成规则能通过相关水印算法生成,则利用相关水印算法生成水印记录,并在该水印记录中添加相关指示信息;若生成规则不能通过相关水印算法生成,则利用指定方式生成水印记录,并在该水印记录中添加相关指示信息,同时将该水印记录添加到水印数据库中。3.根据权利要求2所述的方法,其特征在于,在每条水印记录中,各字段的内容均符合相应字段属性要求。4.根据权利要求1所述的方法,其特征在于,p的取值范围为1%-1‰。5.根据权利要求1-4中任一项所述的方法,其特征在于,在对水印数据进行检测时,包括:提取水印数据中的一条记录作为检测记录;根据检测记录中的标识判断检测记录是否为水印记录;若判断检测记录为水印记录,则进一步判断检测记录是否为合法水印记录;若检测记录为合法的水印记录,则将统计值C加1;判断统计值C是否大于预定门限t;若统计值C大于预定门限t,则确定水印数据中包含的水印有效;若统计值C不大于预定门限t,则选择水印数据中的下一条记录作为检测记录,然后执行根据检测记录中的标识判断检测记录是否为水印记录的步骤,直至水印数据中的全部记录被检测完为止。6.根据权利要求5所述的方法,其特征在于,判断检测记录是否为合法水印记录的步骤包括:若检测记录是通过相关水印算法生成的,则判断检测记录中的相应字段是否符合相关水印算法要求;如果检测记录中的相应字段符合相关水印算法要求,则判断检测记录为合法水印记录;若检测记录不是通过相关水印算法生成的,则判断在水印数据库中是否能查询到该检测记录;如果在水印数据库中能查询到该检测记录,则判断检测记录为合法水印记录。7.根据权利要求6所述的方法,其特征在于,在对水印数据进行恢复操作时,包括:读取水印数据中的每一条记录;判断读取记录是否为水印记录;若读取记录为水印记录,则丢弃该读取记录,以便从水印数据中提取出源数据。8.一种大数据水印管理系统,其特征在于,包括统计模块、水印生成模块和记录插入模块...

【专利技术属性】
技术研发人员:李宾王兴刚
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1