用于提供图像处理以追踪数字信息的方法和系统技术方案

技术编号:5465700 阅读:179 留言:0更新日期:2012-04-11 18:40
公开了一种使用图像处理追踪文档的方法。提取与压缩的数字信息相对应的辅助信息。所述辅助信息被用来输出经历哈希函数(例如,校验和运算)的文本行。以这种方式,生成单独的哈希值,以及文本行的整个文件的整体哈希值。保留哈希值的参考集合来识别其它压缩的数字信息。

【技术实现步骤摘要】
【国外来华专利技术】用于提供图像处理以追踪数字信息的方法和系统相关申请本申请要求于2006年10月25日提交的序列号为ll/552757的美国专利申请的优先权,其内容结合于此作为参考。
技术介绍
随着计算机和网络技术的发展,用户能够生成并共享非常大量的表示文档、音频、图像和视频以及任意这些组合的文件。此外,可存在许多版本的文档和文件。因此,这些文档和文件的管理面临巨大的挑战。例如,如果文档包括图像,则文档的传统的基于文本的追踪和搜索就会无效。而且,对于图像的搜索被限制为描述所述图像的文本信息,而不是图像本身。这是因为传统的图像处理方法的计算成本很因此,需要一种用于使用图像处理技术追踪文档和文件的改进方法。附图说明在附图中以示例而非限制的方式对本专利技术进行图示,其中相同的附图标记表示类似的部分,其中图l是依据本专利技术实施例的能够处理压缩数字信息的追踪系统的示图2是依据本专利技术实施例的用于生成哈希值参考集合的过程的流程图,所述哈希值参考集合被用来识别数字信息;图3是示出依据本专利技术实施例的用于生成哈希值参考集合的哈希函数的示图4是依据本专利技术实施例的用于生成哈希值子集的过程的流程图;图5是依据本专利技术实施例的用于追踪文档的过程的流程图;图6是依据本专利技术实施例的利用图1的追踪系统所生成的索引的搜索引擎过程的示图;并且 (图7是能够被用来实施本专利技术各个实施例的计算机系统的示图。具体实施例方式描述了用于提供图像处理以追踪数字信息的装置、方法和软件。出于解释的目的,在以下描述中给出了多个特定细节以便提供对于本专利技术的全面理解。然而,对于本领域技术人员显而易见的是,可以没有这些特定细节或利用等同配置来实践本专利技术。在其它实例中,以框图的形式示出了已知结构和设备以避免对本专利技术造成不必要的混淆。虽然关于表示文档的文件对本专利技术的各个实施例进行了描述,但是可以预期这些实施例通常可应用于压缩数字信息的追踪。图l是依据本专利技术实施例的能够处理压縮数字信息的追踪系统的示图。在该示例中,数字压縮器101输出压縮数字信息103以及相关的辅助信息105。信息103的源可以为任意类型,包括视频源107、图像源109和音频源111,或者文本源113。在视频馈给的情况下,数字压缩器IOI将形式为诸如MPEG (运动图像专家组)、MPEG-2等的数字视频格式的压縮数字信息103输出。或者,如果所述源是图像源109或文本源113,则所述压縮数字信息103可以为JPEG (联合图像专家组)格式。该文件格式是用于有效存储和传输数字静止图像所通常使用的格式。音频源111可产生MP3 (运动图像专家组第3层)格式。文本源113可以是文字处理器(或其它基于文本的应用)、语音-文本应用等。如所示出的,压縮数字信息103具有相关联的辅助信息105,所述辅助信息105传递与压缩数字信息103相关的信息。以示例的方式,辅助信息105包括数据元素105a、元数据105b和控制结构信息105c。在示例性实施例中,元数据105b提供与用来生成压縮数字信息103的压缩机制有关的信息。例如,关于JPEG,该技术使用嵌入在图像文件中的一组控制、标准和管理数据。这些信息在ITU建议T.81 "信息技术数字压缩和连续静态图像编码的要求和指南(Information Technology Digital Compressionand Coding of Continuous Still Images Requirements and Guidelines)"中有所描述,其全部内容结合于此作为参考。该建议提供了用于压縮、存储和表示数字形式的照片图像的一组标准。所认可的是,在创建数字图像时所产生的部分信息留下了特定的轨迹或"指纹"。这样的识别手段或签名可被追踪系统115所提取,如稍后在图2-3中的更全面解释。传统上,图像的自动识别和分类在计算上是困难的问题。在算法上对信息进行提取、识别和分类的能力对该过程中的自动化大有帮助。有效地,追踪系统115检査多个数据结构,执行一组计算并接着将所述信息与来自已知成像设备的一组参考数据进行比较。然后,该信息可被用来以高度的确定性识别例如所述设备的型号和样式。该技术还可以被用来确定用来产生两幅不同图像的照相机、扫描仪等的相似度。例如,所述签名可被用来确定这些图像是否源自同一照相机。因此,为了执行该识别技术,追踪系统115包括提取模块117以从压縮数字信息103提取辅助信息105。系统115还采用合成模块119和识别模块121,它们相结合操作来产生用于识别压縮数字信息103的独特(unique)数值。此外,归类模块123允许追踪系统115对所述独特数值进行归类(或分类),所述独特数值指示压缩数字信息103的各种特征。例如,可通过这些特征对压縮数字信息103进行适当聚组(to group)。所述独特数值可以被存储在数据库125中。如所解释的,除图像特定信息之外,产生数字图片的过程创建了数据元素、元数据和控制结构。虽然根据工业标准进行构建,但是该信息具有结构和内容信息,其能够被用来识别用于捕捉图像的设备的特定型号和样式。对元数据和控制结构进行提取和合成以识别图像设备并不被所述标准有意地支持,而是所述标准的灵活性以及不明确性的非自然形式(artifact),并且是适应多个和可交互操作的实施方式的机会。需要在JPEG文件中对元数据和控制信息进行复杂的组合和合成以执行所述识别。追踪系统115能够支持多种应用。如所看到的, 一个这样的应用是支持文档自动识别或文件夹关系的文档管理应用127。由于能够通过计算上高效的方式识别特定图像,所以使得文档内的图像检查和关联是可行的。从所述辅助信息自动得出图像源之间的关联的能力使得能够对多种形式的文档关系进行精确追踪(例如,定位文档的较早版本)。此外,搜索引擎应用129能够利用追踪系统的能力提供图像的自动追踪和索引,如图6中更为全面的解释。如之前所指出的,其它应用可出于司法目的而涉及照相机的识别。例如,追踪系统115可被实现为识别拍摄特定图片的照相机的型号和样式,所述特定图片可以用于我们的执法、版权争议以及知识产权权利要求的验证中。现在关于图2对追踪系统115的操作进行描述。图2是依据本专利技术实施例的用于生成用来识别数字信息的哈希值的参考集合的过程的流程图。如步骤201中,追踪系统115针对从已知源获取的压縮数字信息103构建例如哈希值的独特数值的集合。在示例性实施例中,所述哈希值是校验和,其可使用任意的标准程序(例如,UNIX校验和命令)来产生。"校验和"是按照错误校验机制执行的SUMmation CHECK的首字母缩写形式。例如,对数字文件内的位进行加和,以便提供该文件的"签名"。也就是说,基于文件中的所有字符所计算的数字。这样的数字或校验和的另一特征在于,如果文件中的任意字符发生变化,则 其以高概率进行变化。已经研发了很多标准算法来生成校验和,例如, 循环冗余校验(CRC)。在步骤203中,将所述哈希值(例如,校验和)与来自已知源的哈 希值进行比较;而且,来自已知源的这些哈希值并不是参考集合的一 部分。要注意的是,并非所有来自已知源的哈希值都被用来形成所述 参考集合。所述参考集合用作统计控制集合。该比较步骤确保了所述 参考集合是稀疏的,以便使得处理本文档来自技高网...

【技术保护点】
一种方法,包括: 获取与压缩的数字信息相对应的辅助信息; 基于所述辅助信息输出多个文本行; 使用哈希函数对所述文本行的子集生成单独的哈希值;以及 对所述多个文本行生成整体哈希值,其中所述单独的哈希值和所述整体哈希值被 有选择地包括在哈希值参考集合中以识别其它压缩的数字信息。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:约翰弗朗西斯莫根卡尔马歇尔艾略特鲍威尔丹尼尔M伍德
申请(专利权)人:威瑞森全球商务有限责任公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1