利用图像获取参数和元数据自动和半自动的图像分类、注释和标签制造技术

技术编号:7284609 阅读:265 留言:0更新日期:2012-04-20 06:33
提供一种利用图像获取参数和元数据自动或半自动表征图像内容的方法。该方法在不同类型的元数据与图像的语义属性和内容之间建立概率性的和确定性的关系。它提供了一种基于图像的内容、语义属性和元数据特性,自动和半自动将图像分类、注释、加标签、标引、检索、标识或找回的机制。该方法利用,但不限于,图像捕获元数据,例如焦距、曝光时间、相对光圈、闪光灯信息、ISO设置、视角、物距、时间戳、GPS信息和其他形式的元数据,该其他形式的元数据包括但不限于可以自动、半自动或手工产生的标题、关键词、大标题、标签、评语、备注、题目。本发明专利技术可以应用于图像数据库,网络检索,个人检索,社区检索,以及互联网、局域网、外联网和其他用途的广泛的或垂直的检索引擎。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于检索引擎或检索引擎一部分的系统和过程,其中该检索引擎使用自动、半自动或手工获得的元数据和/或非元数据,以基于语义图像属性和内容表征、检索和找回图像知识库。
技术介绍
产生的电子图像的数量正在高速增长,利用语义检索它们是巨大的挑战。许多可用的未加工的图像几乎没有有意义的语义内容的直接注释,这限制了它们的检索和发现。 虽然一些图像知识库或网址鼓励手工纳入标签或关键词,而这远远还不普遍。语义图像内容的手工表征经常主观、劳动量大并且不一致。手工表征或注释的相对耗时的过程也不可能跟上通过数字和非数字方法产生图像的速率。在图像领域已有表征图像内容的尝试。例如,美国专利No. 7,555,165涉及一种利用照相机数据和基于内容的提示进行语义场景表征的方法。但是,该专利没有利用GPS数据,时间信息或诸如脸部检测、脸部识别的图像识别技术,这限制了可以确定的有关未知图像的信息量。该专利也限制于将图像放置于类中,并且不能提供更丰富和更通用的注释。公开的美国专利申请2009-022M32涉及对照片和视频元数据打上地理信息标签并自动产生。虽然使用GPS坐标有助于图像的分类,但是它不提供表征图像内容的方法。由本专利技术人撰写并于 2008 年 11 月在 IEEE Transaction on Pattern Analysis and Machine Intelligence,Vol. 30,No. 11,pp. 1933-1944 公开的内容在此援引并入,其讨论了利用元数据抽取的图像的语义注释。颜色特征抽取、形状特征抽取、以及纹理特征抽取进一步应用于图像,以产生图像的语义数据库。但是,现有技术中还有一种需要,即改进的语义图像内容的注释和分类。例如,利用本专利技术,图像可以自动注释为“Jack Kennedy在印度洋海啸的前夜,澳大利亚金海岸日落时的海边”,这对于上述技术来说是不可能的。
技术实现思路
本专利技术涉及用于检索引擎或一部分检索引擎的系统和过程,其中该检索引擎利用自动、半自动、或手工获取的元数据和/或非元数据,以基于图像内容和语义属性,表征、检索和找回图像知识库。它提供了一种基于图像的内容和语义属性,自动或半自动产生图像的注释、标签、和分类的机制,其中该内容和语义属性导致图像能够被识别、发现和找回。本专利技术可以应用于网络检索、个人检索、社区检索、以及互联网、局域网、外联网或特定知识域中的广泛或垂直检索引擎。本专利技术的一个方面涉及一种支持图像的检索和识别,以识别、分类和特别注释图像的语义属性和内容的方法,该方法利用了自动获得的图像获取和相关的参数之间的关系,其中该参数例如为曝光时间、焦距、焦距比数(f-number)、相对光圈、闪光触发信息、ISO 设置、视角、物距、时间戳、以及GPS(全球定位系统)信息。该方法包括规则的应用,该规则是确定性的或概率性的,将这些参数的值相关联以推断和分类图像的语义内容。从该过程看出,通过图像的语义属性和内容可以检索和找回图像,而无需手工注释或加标签。可以通过特定图像处理的集中应用和确认、SIFT和相关技术,并与其他形式的元数据,例如标题或关键词以及本质和公知推理一起,执行图像语义的进一步丰富。本专利技术实现了自动产生高精度语义图像注释和表征,据此高精度检索大量其他未标弓丨的图像收集变得可行。通过该自动技术,借助自动装置,通过图像的语义属性和内容检索图像成为可能。附图说明图1示意了根据本专利技术的方法的概念性结构图,该方法用于自动提供图像的语义属性和内容的语义表征。具体实施例方式本专利技术通常涉及图像内容和语义属性的表征,其可以采取人们使用的任何找回标准的形式,以检索和找到图像。相应地,附图和描述可以认为实质上是示意性的,而不是限制性的。本专利技术对于自动标引图像尤其有用。本专利技术消除了执行耗时的手工标引的必要, 手工标引已表现出成本很高,并且如果由不具代表性的小组来完成的话,也会产生有偏差和主观性的标引结构。本专利技术利用了元数据,其是嵌入在图像内的描述性信息。某些描述性信息典型地在图像产生时自动产生。例如,EXIF信息(可交换图像文件形式),其取决于图像记录器, 例如照相机的制造和模型,通常包括下述信息例如记录图像的日期和时间、分辨率、照相机设置(诸如快门速度、ISO、焦距、曝光时间、焦距比数、相对光圈、应用的压缩量、颜色信息、闪光触发信息、视度、物距等。较新的数码相机还经常包括GPS (全球定位系统)参数。经常与图像文件相关的其他类型的元数据是由新闻局初始建立的IPTC(国际新闻通信委员会),由Adobe建立的XMP (可扩展的元数据平台),以及MPEG-7 ( “多媒体内容描述接口”)。MPEG-7提供了一组视听描述工具(元数据元素及其结构和关系,其由描述符和描述方案形式的标准限定)以产生多媒体内容的描述。但是,本专利技术适用于嵌入在图像文件中或与图像文件关联的任何元数据,而不管其是何种格式类型。参照图1,描述了一般性的结构图,用于示意本专利技术的方法的一个方面。它包括图像的知识库(1001),其中该图像典型地,但非必要的是数字图像。该图像可以结合上述的诸如图像获取参数的元数据,以及诸如时间戳和GPS(全球定位系统)信息的其他元数据。也有一些与图像有关的数据,例如内容分类、注释、标签、注释、标题、关键词、大标题、评语、备注、题目、相关文本、周围文本、或者链接文本。该图像获取参数、元数据、和/或相关数据将被识别和抽取(100 。通过任何传统技术,例如使用搜索引擎,来执行该识别和抽取,该搜索引擎在检索中使用元数据参数,其中该元数据参数例如在因特网上可以购买到。接下来(100 是图像的语义表征,包括场景分类、注释、或者加标签。该步骤 (1003)将包括图像获取参数和元数据的处理,规则的形成和应用,该规则将图像获取参数值链接到图像的语义属性和内容。另外,也可以应用(1004)算术和/或计算程序。该程序能够进一步抽取有关图像的信息。这些包括,但不限于,尺度不变特征变换(SIFT)、边缘检测、感兴趣点的检测、角落检测、斑点检测、感兴趣的区域的检测、脊柱检测、特征抽取、特征检测、颜色抽取、颜色组成、颜色柱状图构成、颜色检测、形状检测、边界检测、脸部检测、以及脸部识别。利用这些技术,可以从初始的基于规则的注释,进一步确定和确认物体、场景、 建筑、人等的存在。最终的数据,要么是未处理的形式,要么是处理的形式,可以用做有意义的找回标准。例如,图像数据的表征可以是规则的形式,要么是确定的、要么是概率性的或其组合,和/或其他计算程序和算法。该表征可以直接或间接导致图像的分类、注释、加标签、丰富、标引、检索、标识或找回。例如,利用特殊的规则来表征图像会导致向图像自动增加注释信息,这更有助于该图像的语义检索。由本专利技术的方法表征的图像可以是网络图像,非网络图像或其他公共或私人图像知识库中的图像。它们可以是数字的或非数字的图像。该方法可以应用于图像数据库,网络检索,个人检索,社区检索,以及互联网、局域网、外联网或其他用途的广泛的或垂直的检索引擎。根据本专利技术的另一方面,通过查询外部或内部数据库可以丰富和扩展表征或元数据;例如,可以通过从单独的数据库找回给定地方、某一时间(例如从图像日期和时间戳确定)的温度或天气信息,来注释或标引给定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:梁灏锵黄振奋刘际明
申请(专利权)人:香港浸会大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术