当前位置: 首页 > 专利查询>谷歌公司专利>正文

注释图像制造技术

技术编号:7141619 阅读:209 留言:0更新日期:2012-04-11 18:40
用于生成用于自动注释图像的数据的方法、系统和装置,包括计算机程序产品。在一个方面中,方法包括接收输入图像,从图像集合中识别输入图像的一个或多个最近邻图像,其中一个或多个最近邻图像中的每一个与相应的一个或多个图像标签相关联,将多个图像标签分配给输入图像,其中多个图像标签是从与一个或多个最近邻图像相关联的图像标签选择的,以及将具有分配的多个图像标签的输入图像存储在数据储存库中。在另一个方面中,方法包括将单个图像标签分配给输入图像,其中单个图像标签是从与多个排名的最近邻图像相关联的标签选择的。

【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及图像注释(annotation)。
技术介绍
基于文本的图像注释仍然是计算机视觉和信息检索界中的重要的实践以及根本 问题。从实践的角度来看,目前的图像搜索解决方案未能将图像内容有效地用于图像搜索。 这通常导致有限适用性的搜索结果。给定输入图像,自动图像注释的目标是将反映图像的视觉内容的几个相关文本关 键词(也被称为标签(label))分配给图像。可以通过以多种方式中的任何方式将关键词作 为元数据存储在例如包括图像的数字文件、带有从关键词到图像的链接或引用的数据库、 带有联结关键词和图像的数据的XML文件或其它中,来将关键词分配给图像(或将关键词 与图像相关联)。随着Web上和Web外迅速增长的图像数据集合,鲁棒的图像搜索和检索正快速成 为关键性需求。目前的因特网图像搜索引擎通常采用基于文本的搜索来检索相关图像,而 忽略图像内容。利用图像内容来分配更丰富、更相关的关键词集可以允许进一步将这些搜 索引擎的快速索引和检索体系结构用于改进的图像搜索。这产生了用有巨大实践利益的相 关文本关键词注释图像的问题。
技术实现思路
本说明书描述了与自动注释图像有关的技术。总的来说,可以将在本说明书中描 述的主题的一个方面具体化在一种由数据处理装置执行的图像注释的方法中,所述方法包 括在数据处理装置中接收输入图像,通过数据处理装置的操作从存储在计算机可读介质上 的数字图像集合中识别输入图像的一个或多个最近邻图像,其中一个或多个最近邻图像中 的每一个与相应的一个或多个图像标签相关联,将多个图像标签分配给输入图像,其中多 个图像标签由数据处理装置从与一个或多个最近邻图像相关联的图像标签选择,以及将输 入图像和输入图像与所分配的多个图像标签的关联存储在数据储存库中。在另一个方面中,一种计算机实现的方法包括接收输入图像,从图像集合中识别 输入图像的多个排名的最近邻图像,其中排名的最近邻图像中的每一个与相应的一个或多 个图像标签相关联,将单个图像标签分配给输入图像,其中单个图像标签从与多个排名的 最近邻图像相关联的图像标签选择,以及将具有分配的单个图像标签的输入图像存储在数 据储存库中。前述方面的其它实施例包括相对应的系统、装置和计算机程序产品。在另一个方面中,系统包括用于确定一个或多个参考图像是输入图像的最近邻图像的装置,一个或多个参考图像共同地与多个图像标签相关联,以及用于将两个或多个图 像标签分配给输入图像的装置,两个或多个图像标签从与一个或多个参考图像相关联的多 个图像标签中选择。可以将一个或多个图像中的每一个与多个图像标签相关联。这些和其 它实施例可以可选地包括下述特征中的一个或多个。多个图像可以从单个最近邻图像选 择。分配多个图像标签可以包括根据与每一个最近邻图像相关联的相应整体图像距 离(whole-image distance)来对多个最近邻图像进行排序。每一个整体图像距离可以表 示在输入图像和对应的最近邻图像之间的差异程度。分配多个图像标签可以进一步包括根据在数字图像集合中相应的出现频率对一 个或多个第一图像标签进行排名,其中一个或多个第一图像标签中的每一个与第一最近邻 相关联;以及基于对一个或多个第一图像标签的排名将第一图像标签中的至少一个分配给 输入图像。分配多个图像标签还可以包括对一个或多个第二图像标签进行排名,其中第二图 像标签中的每一个与一个或多个剩余的最近邻图像相关联,以及基于对一个或多个第二图 像标签的排名将第二图像标签中的至少一个分配给输入图像。对一个或多个第二图像标签的排名可以包括根据第二图像标签中的每一个与每 一个第一图像标签在数字图像集合中的共同出现对一个或多个第二图像标签进行排序。替 选地或另外地,对一个或多个第二图像标签的排名可以包括根据第二图像标签中的每一个 在一个或多个剩余的最近邻图像中的局部频率对一个或多个第二图像标签进行排序。整体图像距离可以包括特征距离的组合,每一个特征距离表示在与输入图像相关 联的图像特征和与参考图像相关联的相应图像特征之间的差异程度。与输入图像相关联的 图像特征和与参考图像相关联的相应图像特征每一个可以包括全局图像特征。替选地或另 外地,与输入图像相关联的图像特征和与参考图像相关联的相应图像特征每一个可以包括 局部图像特征。整体图像距离可以作为特征距离的平均值而取得。平均值可以基于来自特征距离 中的每一个的基本均等的贡献。平均值可以基于来自特征距离中的每一个的加权贡献。可 以基于数字图像集合来计算用于特征距离中的每一个的权重,其中数字图像集合是包括相 似和相异图像对的训练图像组。特征距离中的至少一个可以被计算为在输入图像的纹理特征和参考图像的对应 的纹理特征之间的差异。特征距离中的至少一个可以被计算为在输入图像的色彩特征和参 考图像的对应的色彩特征之间的差异。可以实现在本说明书中描述的主题的特定实施例来实现下述优势中的一个或多 个。在一些情况下,图像注释技术由最小训练需求表征。在某些实施方式中,将图像注释当 作检索问题对待简化了注释过程。在附图和下面的描述中阐述了本专利技术的一个或多个实施例的细节。本专利技术的其它 特征、方面和优势从描述、附图以及权利要求将变得显而易见。附图说明图1图示了用关键词注释测试图像的示例。图2A是提供确定输入图像的最近邻的一般概述的流程图。图2B是提供取得复合距离的概述的流程图。图3是提供将来自输入图像的最近邻的关键词转送到输入图像的一般概述的流 程图。图4示出了共同具有至少4个关键词的图像对的示例。图5示出了共同具有零个关键词的图像对的示例。图6和7示出了来自不同图像数据集的示例图像。图8示出了已注释的图像的示例。图9示出了已注释的图像的示例。图10、11和12示出了分别在三个不同的图像数据集中为多个不同的关键词检索 的最先的几个图像的示例。具体实施例方式自动将关键词分配给图像允许检索、索引、组织以及理解大型的图像数据集合。本 说明书描述了用于将注释作为检索问题对待的图像注释的技术。所述技术利用低层级图像 特征以及基本距离测量的简单组合来找到给定图像的最近邻。然后使用贪婪(greedy)标 签转送机制来分配关键词。图像注释是艰巨的任务有两个主要的原因第一,存在像素到谓项 (pixel-to-predicate)或语义鸿沟(gap)问题,其中仅使用例如色彩和纹理的低层级图像 特征来提取语义上有意义的实体是困难的。可靠地明确识别成千上万的对象或种类当前是 未解决的问题。第二个困难是由于在训练数据中的图像区域和关键词之间的对应性的缺乏 而产生。对于每一个图像,可以访问分配给整个图像的关键词,但是图像的哪些区域对应于 这些关键词是不知道的。这会妨碍分类器的直接学习,其中每一个关键词被认为是单独的 种类。本说明书描述了由最小训练需求表征的技术。针对若干标准数据集以及大型Web 数据集,所述技术超越了复杂的现有技术的图像注释方法。图1图示了用关键词注释测试图像的示例。给定测试图像2,可以从图像训练集4 找到它的最近邻(例如,在一些特征空间中用预先指定的距离测量定义的第一最近邻10、 第二最近邻20以及第三最近邻30),并且将与最近邻图像相关联的部分或全部关键词分配 给输入测试图像2。在一些情况下,使用针对全局图像特征定义的本文档来自技高网...

【技术保护点】
1.一种系统,包括:用于在一个或多个计算机中确定一个或多个参考图像是输入图像的最近邻图像的装置,所述一个或多个参考图像共同地与多个图像标签相关联;以及用于在所述一个或多个计算机中将两个或更多个图像标签分配给所述输入图像的装置,所述两个或更多个图像标签是从与一个或多个参考图像相关联的所述多个图像标签中选择的。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:阿米什·马卡迪亚
申请(专利权)人:谷歌公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1