当前位置: 首页 > 专利查询>微软公司专利>正文

大规模图像注释的统计方法技术

技术编号:7143139 阅读:164 留言:0更新日期:2012-04-11 18:40
描述了大规模图像注释的统计方法。一般而言,注释技术包括编译来自多个图像的视觉特征和文本信息、散列图像视觉特征、并基于其散列值对图像聚类。一个示例系统从所聚类的图像中构建统计语言模型,并且通过应用统计语言模型中的一个来注释图像。

【技术实现步骤摘要】
【国外来华专利技术】背景随着廉价的数码相机、照相机电话和其他成像设备的出现,拍摄并张贴到因特网 上的数字图像的数量显著地增长。然而,为了使用这些图像,必须标识和组织它们从而使得 可以浏览、搜索或检索这些图像。一个解决方案是手动图像注释,其中人在拍摄、上传或登记图像时手动地输入描 述性文本或关键词。虽然手动图像注释一般非常准确(例如,人们一般选择准确描述),但 手动图像注释是耗时的且因此许多数字图像未被注释。另外,手动图像注释可能是主观的, 因为注释图像的人可能不考虑图像的关键特征(例如,人们通常基于图像中的人、图像被 拍摄的时间、或图像的位置来注释图像)。另一个解决方案是用关键词自动地注释图像的自动图像注释。一般而言,自动图 像注释是基于分类的或基于概率模型的。基于分类的方法试图通过学习分类器(例如,贝 叶斯点机、支持矢量机等等)来将词或概念进行关联。而概率模型方法试图推断图像和注 释之间的相关或联合概率(例如,翻译模型、跨媒体相关性模型、连续相关性模型等等)。虽然基于分类的和基于概率的图像注释算法能够注释小规模的图像数据库,但它 们一般不能注释具有真实图像(例如,数字图片)的大规模数据库。此外,这些图像注释算法一般不能够注释所有不同类型的真实图像。例如,许多个 人图像不包含文本信息,而web图像可以包含不完整的或错误的文本信息。虽然当前的图 像注释算法能够注释个人图像或web图像,但这些算法通常不能够同时注释这两种类型的 图像。此外,在真实图像的大规模集合中,可以作为注释标记来跨多个图像应用的概念 的数量几乎是无限的,并且取决于注释策略。因此,为了注释大规模的真实图像集合,注释 方法应该能够处理多个图像中可能出现的无限的概念和主题。最后,鉴于每天正在生成的相当大的数量的图像,注释方法必须既快速又高效。例 如,每一天几乎有一百万幅数字图像被上传到FLICKR 图像共享网站上。为了每天注释 一百万幅图像,必须每秒注释十幅左右的图像。因为最佳图像注释算法大约在1.4秒内注 释一幅图像,所以无法注释每天生成的大量图像。因此,需要一种可以注释包含无限数量的视觉概念的所有类型的真实生活图像并 可以几乎实时地注释图像的大规模图像注释技术。概述提供本概述以便介绍将在以下详细描述中进一步描述的与自动化图像注释有关 的简化概念。本概述并不旨在标识所要求保护的主题的必要特征,也不旨在用于确定所要 求保护的主题的范围。在一方面,一种注释图像的方法可以包括编译来自多个图像的视觉特征和文本信 息、散列图像视觉特征、并基于其散列值对图像聚类。随后从所聚类的图像中构建统计语言 模型,并使用统计语言模型中的一个来注释图像。在另一方面,一种包括在由处理器执行时可以执行一种方法的计算机可执行指令的计算机可读存储介质,该方法包括爬行大规模图像数据库来收集图像及其相应的文本信 息。随后使用灰块方法从图像中提取视觉信息,并且通过采用投影矩阵来缩减所提取的图 像。散列经缩减的视觉信息,并根据其散列值对图像聚类。从所聚类的图像中构建一个或 多个统计语言模型,并且使用统计语言模型中的一个或多个来注释查询图像。在又一方面,一种项记录数据结构具体化在计算机可读介质上,该数据结构由数 字图像和对应于该数字图像的文本注释构成。通过编译来自多个图像的视觉特征和文本信 息、散列图像视觉特征、并基于散列值对图像聚类来将文本注释与数字图像相关联。随后基 于所聚类的图像构建统计语言模型,并使用统计语言模型中的一个来注释图像。虽然单独地描述上述各方面,但它们不是相互排斥的,并且给定实现中可以出现 任意数量的方面。附图简述参考附图阐述详细描述。在附图中,附图标记中最左边的数字标识该附图标记首 次出现的附图。在不同附图中使用相同的附图标记指示相似或相同的项。附图说明图1是示出大规模图像注释技术的一个实现的框图。图2是示出可以如何使用web爬行器来收集图像及其附随注释并将其存档到数据 库中的图示。图3是示出可以如何缩减数字图像的视觉特征、如何将经缩减的特征分组成各个 聚类、并且随后基于聚类开发统计语言模型的框图。图4是描绘了注释个人图像的说明性方法的框图。图5是描绘了注释web图像的说明性方法的流程图。详细描述在理论上的理想情形中,给定无限规模的注释良好的图像数据库,图像注释是相 对直接的。对于给定查询图像,在图像数据库中找到准确的复制品并将该图像的注释传播 到该查询图像。然而,在“真实世界”中,图像数据库一般在规模上是有限的并且包含许多不准确 的描述。因此,“真实世界图像数据库”中的图像通常根据图像的相似性被分组成各个聚类。 随后对于给定查询图像,选择最相似的图像聚类并选择与该图像聚类相关联的“最佳描述” 来注释该查询图像。虽然这些常规成像注释算法能够注释大部分图像,但仍然存在很大的 改进空间。本公开涉及大规模图像注释的各种统计方法。这些统计方法可以注释一般具有有 限注释或没有注释的个人图像以及一般具有噪声和不完整注释的基于web的图像。在一个 实现中,图像注释技术充分利用大规模基于web的图像数据库来对几乎无限数量的语义概 念进行建模。图1示出大规模图像注释技术的一个实现100。首先,爬行大规模数据库102,并 且提取视觉特征和文本信息两者并将其作为结构数据(即,训练集)来索引104。通过将高 维图像特征投影到具有低维度的子空间中来降低图像数据的复杂性,同时保持大部分的图 像信息106。随后将高效的基于散列的聚类算法应用于训练集并将带有相同散列代码的图 像分组成“聚类” 108。一旦图像被聚类成组110之后,开发统计语言模型(SLM)来对来自 每一聚类中的图像的文本信息建模112。为了注释图像,选择查询图像114并且提取其视觉特征(例如,色彩、纹理、几何特 征等等)和文本特征(例如,标题、关键词、URL、环绕文本等等)116。对查询图像的特征进 行散列118并基于具有与查询图像的最大联合概率的词来选择120语言模型。随后基于与 所选语言模型122相关联的文本、标题、注释、和/或关键词来注释122图像。从web收集图像参考图2,在一个实现中,使用web爬行器从因特网收集图像202连同其文本、标 题、注释、和/或关键词204并将其存档到数据库206中。一般而言,可以收集尽可能多的图 像,因为大的样本大小确保视觉模型和查询图像之间的良好相关性。例如,在一个实现中, 从在线照片论坛(例如,仅举几个例子,GOOGLE IMAGES 、YAHOO IMAGE SEARCH 、和华盛顿 大学图像数据集)收集240万幅左右带有有意义描述的高质量web图像。或者,可以随机地从因特网或其他源收集经注释的图像并将其汇集成图像集合。 一般而言,只要任何类型的图像用某种形式的文本、标题、注释、或关键词来注释,便可以收 集这些图像。随后可以在数据库中索引图像及相关联的文本或关键词。存在可以索引图像202 和文本204的许多方式(例如,仅举几个例子,按关键词、文本串、图像特征)。在一个实现 中,图像根据关键词或与图像202相关联的文本204来排序和分组。例如,如果存在包含日 落的多个图像,则这些图像可以被索引和分组在一起208。维数缩减传统的聚类算法是耗时的并且在计算上是低效的,因为数字图像一般是复杂的本文档来自技高网...

【技术保护点】
1.一种注释图像的方法,包括:编译来自多个图像的视觉特征和文本信息(104,504);散列所述多个视觉特征,并且基于所述散列值对所述多个图像聚类(108,306,308);基于所聚类的图像构建一个或多个统计语言模型(110,112);以及使用所述统计语言模型中的一个或多个来注释所述图像(122)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M·李
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1