用于表示为树的分级的并基于索引的水印的系统和方法技术方案

技术编号:9618338 阅读:61 留言:0更新日期:2014-01-30 06:10
描述了提供表示为树的、分级的并且基于索引的水印的方法。在一个实施例中,从特征水印形成水印树,特征水印是从具有自然语言处理(NLP)分析术的NLP堆栈产生的。水印树表示每个特征水印之间的分级关系。具体地,水印树根据分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印。此外,水印树包括指定访问存在于文集中的数据集内容的时间的时间戳。

System and method for representing hierarchical and indexed watermarks for trees

A method for providing hierarchical and indexing based watermarks is described. In one embodiment, a watermark tree is formed from the feature watermark, and the feature watermark is generated from a NLP stack with Natural Language Processing (NLP) analysis. The watermark tree represents the hierarchical relation between each feature watermark. Specifically, the watermark tree defines the hierarchical pointer according to the hierarchical relation, and the hierarchical pointer indicates the inherited watermark between the feature watermarks. In addition, the watermark tree includes a timestamp that specifies the time to access the content of the data set that exists in the collection.

【技术实现步骤摘要】
用于表示为树的分级的并基于索引的水印的系统和方法
本专利技术总体地涉及对内容加水印,更具体地涉及表示为树的分级的并且基于索引的水印,其提供可以保护内容不被修改同时关于具体文集状态证实内容源。
技术介绍
传统的水印技术通常提供防止伪造物品的安全机制。可以是可见和不可见的水印通常被放置在源文档上并且可以用于提供原作者和版权保护、真实和防篡改机制。其中已经使用水印的一个领域是可通过因特网访问的数字内容。具体地,水印已经用于控制如何分发或再使用数字内容(例如数字图书馆、在线新闻、杂志、科学期刊、百科全书、个人日志、材料(stores)、广告等等)。自然语言(NL)加水印是已经用于控制如何分发或再使用数字内容的一种类型的水印技术。NL加水印通常设法通过操纵句子的语义和/或语法结构来在文本文档中嵌入信息。NL加水印不同于文本加水印,文本加水印通常修改文本格式的外观或者字体,比如例如修改文本中的字间和字母间的间隔。
技术实现思路
在一个实施例中,存在在计算机系统上进行的用于对存储在多个全集(corpora)中的内容加水印的方法,每个全集具有多个文集(corpuse)。在此实施例中,该方法包括使用该计算机系统来进行以下操作:从所述多个全集的一个内的文集接收内容的数据集;将该数据集应用于包括多个自然语言处理(NLP)分析术的NLP堆栈,该多个NLP分析术每个分析该数据集;从多个NLP分析术(analytics)的每个产生特征水印;以及从每个特征水印形成水印树,水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。在第二实施例中,存在用于对存储在多个全集中的内容加水印的计算机系统,每个全集具有多个文集。在此实施例中,该计算机系统包括至少一个处理单元以及与该至少一个处理单元操作地相关联的存储器。特征水印工具可存储在存储器中并且可由该至少一个处理单元执行。该特征水印工具包括输入组件,配置为从所述多个全集的一个内的文集接收内容的数据集。该特征水印工具还包括自然语言处理(NLP)堆栈,包括多个NLP分析术,每个NLP分析术配置为从该数据集提取特征。另外,该特征水印工具包括特征水印产生器,配置为对于多个NLP分析术的每个针对从其提取的特征产生特征水印。该特征水印产生器还配置为从每个特征水印形成水印树。该水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系。该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印。该水印树包括指定访问该数据集的时间的时间戳。在第三实施例中,存在存储计算及指令的计算机可使用的存储器,该计算机指令在执行时使得计算机系统能够对存储在多个全集中的内容加水印,每个全集具有多个文集。该执行的计算及指令致使该计算机系统进行包括以下的方法:从所述多个全集的一个内的文集接收内容的数据集;将该数据集应用于包括每个分析该数据集的多个自然语言处理(NLP)分析术的NLP堆栈;从多个NLP分析术的每个产生特征水印;以及从每个特征水印形成水印树,水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。附图说明图1示出根据本专利技术的一个实施例的可以对存储在多个全集(每个具有多个文集)中的内容加水印的特征水印工具的示意图;图2示出根据本专利技术的一个实施例的从经过自然语言处理(NLP)堆栈的内容产生特征水印和水印树的图1所示的特征水印工具的更详细的示意图;图3示出描述由图1所示的特征水印工具进行的一般操作的流程图;以及图4示出其中图1所示的特征水印工具的要素可以操作的计算环境的示意。具体实施方式本专利技术的实施例针对用于将自然语言处理(NLP)加水印扩展为包括时域标记和基于继承(inheritance)的标记的技术,以保护作为来自全集的部分的文集中的内容不被修改(例如删除或更新),同时证实内容源为具体文集状态。在一个实施例中,可以在文集内产生可见水印并且将其用作时域(temporal)标记和水印树中的分级(hierarchical)指针。为了确保在具体时间时文集的真实,可以递归地遍历水印树中的水印指针以量度父亲真实性。如果沿着链有任何父亲验证失败,则从该无效水印到孩子的子链被标记为无效。另外,来自该无效标记的水印的整个子树被认为无效。因此,当在给定时间时文集的一部分被认为无效时,则在具体时间时来自该文集上的任何delta搜索的结果将是无效的,并且可以从结果中过滤掉。在一个实施例中,在活动的文集可视化期间,当文集的一部分被毁坏(corrupt)时可以通知用户,以便当选择另外的数据源时,用户不考虑脏数据(dirtydata)。希望以此方式跟踪文集改变,以便在向系统添加新的数据源时,可以确定源的相对相关性。另外,跟踪文集改变使得其适合于用在基于时间的问题回答系统中,该问题回答系统使用在变化的时间时的文集状态以提供诸如证实的出处和自动的源权重选择的探索性的益处。与在此所述的NLP加水印实施例相关联的益处包括在无效水印的检测期间使用基于树的水印来无效文集或特征的部分。另外,基于树的水印使能父亲归属,即树中的水印将知道父亲或者相关的实体。还将存在时域消解(temporalresolution),即水印将具有依赖于水印树的时域上下文。此时域消解可以超出水印树进一步扩展到文集和全集级别。另一益处是本专利技术的NLP加水印实施例可以提供可见的暗淡的水印,与暗淡的代码相反,可见的暗淡的水印提供了定义的清晰含义。其他益处是本专利技术的各个实施例支持delta负载和delta搜索。参考附图,图1示出根据本专利技术的一个实施例的可以对存储在多个全集4(每个具有多个文集6)中的内容加水印的特征水印工具2的示意图。全集4和文集6可以是以机器可读形式存储内容的大量的数据集的任意数据库。数字图书馆、在线新闻、杂志、科学期刊、百科全书、个人日志、材料、广告集合是可以存储在全集4和文集6中的内容的例子。如图1所示,特征水印工具2包括预处理输入组件8,其配置为从多个全集4中的一个内的文集6接收内容的数据集。另外,预处理输入组件8可以进行预处理功能,预处理功能,包括额外的信息注释内容。例如,可以对每个词的词性进行词性标注(例如动词、名词、形容词)。语言变换是可以由预处理输入组件8进行的另一预处理功能。语言变换可以包括同义词替换、句法变换和语义变换。NLP解析是可以由预处理输入组件8进行的另一项功能。NLP解析可以包括对于以原始形式接收的内容,处理输入语句以及产生某种结构。NLP解析的输出可以是语句的形态的、语法的或者语义的结构,或者可以是这些的组合。预处理输入组件8的输出是代表从具体全集4内的文集6获得的原始形式的内容的文本块。NLP堆栈10接收来自预处理输入组件8的文本块,并且配置为从数据集中提取特征。NLP堆栈10可以包括多个NLP分析术(analytics),每个分析术配置为分析体现在文本块中的数据集并且从其中提取特征。在一个实施例中,如以下关于图2所述,NL本文档来自技高网...
用于表示为树的分级的并基于索引的水印的系统和方法

【技术保护点】
一种在计算机系统上进行的用于对存储在多个全集中的内容加水印的方法,每个全集具有多个文集,该方法包括:使用该计算机系统来进行以下操作:从所述多个全集的一个内的文集接收内容的数据集;将该数据集应用于包括多个自然语言处理(NLP)分析术的NLP堆栈,该多个NLP分析术每个分析该数据集;从多个NLP分析术的每个产生特征水印;以及从每个特征水印形成水印树,水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。

【技术特征摘要】
2012.07.13 US 13/549,0561.一种在计算机系统上进行的用于对存储在多个全集中的内容加水印的方法,每个全集具有多个文集,该方法包括:使用该计算机系统来进行以下操作:从所述多个全集的一个内的文集接收内容的数据集;将该数据集应用于自然语言处理NLP堆栈,该NLP堆栈包括多个NLP分析术,该多个NLP分析术每个分析该数据集;从多个NLP分析术的每个产生特征水印;以及从每个特征水印形成水印树,水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。2.根据权利要求1所述的方法,还包括利用文集时间戳将水印树存储在文集中,以及响应于将水印存储在文集中,将全集时间戳应用于与该文集相关联的全集,该文集包括每个在不同的时间戳处形成的多个水印树,并且该全集包括多个全集时间戳,每个全集时间戳与将多个水印树之一存储在文集中的时间相关联。3.根据权利要求2所述的方法,还包括响应于用新的数据源更新,使用加时间戳的多个水印树来验证文集的内容。4.根据权利要求3所述的方法,还包括证实在具体时间时的文集和全集为多个水印树的函数。5.根据权利要求4所述的方法,其中证实包括从多个水印树中选择具有与在文集和全集的证实中指定的具体时间对应的时间戳的水印树,递归地遍历该水印树中的分级指针以量度在该分级关系中与每个父亲相关联的特征水印是否能够被验证为具有有效的特征水印。6.根据权利要求5所述的方法,还包括将在分级关系中的不具有有效的特征水印的父亲无效,并且将在分级关系中的从属于该被无效的父亲的所有孩子无效。7.根据权利要求6所述的方法,还包括将从被无效的父亲发散的分级关系的子链中的所有特征水印无效。8.根据权利要求7所述的方法,还包括从响应于对文集做出的搜索请求而从文集产生的搜索结果中过滤掉与所有被无效的特征水印相关联的所有内容。9.根据权利要求7所述的方法,还包括重新预处理与在分级关系中具有被无效的特征水印的父亲和孩子相关联的所有数据内容。10.根据权利要求9所述的方法,其中重新预处理包括仅对于在分级关系中具有被无效的特征水印的父亲和孩子产生新的特征水印,而在分级关系中具有被验证的特征水印的父亲和孩子保留当前水印特征。11.根据权利要求10所述的方法,...

【专利技术属性】
技术研发人员:AK鲍曼RL达登JJ范AA卡尔扬珀
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1