当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于焦点对象识别和主题语义的图像搜索方法及系统技术方案

技术编号:10072755 阅读:253 留言:0更新日期:2014-05-23 19:14
一种基于焦点对象识别和主题语义的图像搜索方法及系统。所述方法包括以下步骤。S1、对待搜索图像进行底层特征语义提取,并形成高维特征向量空间后,进行图像分割,获得待搜索图像的元素。S2、将待搜索图像的元素进行元素识别后抽象至语义概念层,并根据不同元素的相对距离及共现概率,判断待搜索图像中的不同元素是否相关,若是,将相关元素组合成对象。S3、计算对象的相对空间位置及占比面积,并计算各对象的兴趣指数及重要指数,根据计算结果,从不同对象中识别出焦点对象。S4、根据焦点对象,构建待搜索图像的主题语义模型,并获取具有焦点对象的现有图像,通过KL距离度量待搜索图像与现有图像之间的相似度,并输出相似度较高的现有图像。

【技术实现步骤摘要】

本专利技术本属于图像处理
,具体涉及一种基于焦点对象识别和主题语义的图像搜索方法及系统
技术介绍
随着移动互联网的兴起与蓬勃发展,各类智能终端设备迅速普及。移动开发者推出大量移动场景下的应用程序(app),如微信、来往、SnapChat、Instagram等客户端社交应用软件,以及淘宝、天猫和京东等客户端电子商务软件。这类软件不但会产生大量内容丰富的图像数据,而且会产生各种图像搜索需求。尤其是随着电子商务的发展,O2O(Online To Offline)模式的快速布局,“手机拍照+以图搜图+比价购物”的新兴移动搜索形式对传统图像检索提出了巨大的挑战。当前,互联网图像数据规模已呈现指数级增长,面对海量的图像数据,如何有效管理庞大的图像资源库,利用相似图像检索技术,快速准确的检索出满足用户查询意图的图像信息,仍然是当前学术界、工业界亟需解决的难题。纵观图像检索技术的发展历程,可分为两个阶段:基于文本的图像检索技术和基于内容的图像检索技术。换一个角度,也就是关键词搜图和以图搜图。其中,基于文本的图像检索(Text-based Image Retrieval,TBIR)技术是通过人工对图像添加标注,或通过网络挖掘图片的环绕文本,构成图片的描述性信息。然后对这些文本信息构建索引,建立图像与文本之间的映射关系,便于搜索引擎或系统采用关键词匹配的方式进行图像检索。这种图像检索方法简单、易于理解、选择了简单的文本处理进行替代,回避了深入图像内部处理的复杂过程。但该方法存在以下问题:人工无法对海量的图像数据进行标注,且主观性强;当图像内容较丰富时,很难准确地用文字描述。基于内容的图像检索(Content-based Image Retrieval,CBIR)技术充分考虑了图像自身蕴含的丰富语义信息,其返回的检索结果分为两大类:一是基于精确匹配得到的包含匹配图面的页面及对应的链接;二是基于模糊匹配得到的相似图像。本专利技术仅适用于以图搜图方式下的相似图像搜索。CBIR技术可划分为三个层次:基于特征语义(视觉特征)的图像检索技术、基于对象和空间关系语义的图像检索技术和基于高层语义(场景语义、行为语义、情感语义)的图像检索技术。其中,基于低层语义的图像检索技术,提取了图像的颜色、纹理、形状等视觉特征,用以判断图像之间的相似性。但是这种方法仅仅考虑了简单的视觉特征,而忽略了图片蕴含的丰富语义,与人们对图像的认知存在差异,容易产生语义鸿沟(semantic gap)。基于对象和空间关系语义的图像检索技术,对图像进行分割并识别出图像中的对象,度量对象之间的位置关系、朝向关系(如上、下、左、右等)、拓扑关系(如相邻、覆盖等)和结构关系(如边缘密度、边缘方向等)。该方法也存在一定不足,其仅引入了图像的部分语义信息,虽然考察了对象之间的空间位置关系,但这仍不足以表征图像的语义信息。基于高层语义的图像检索技术,其进一步对图像中的语义要素进行了抽象,不但要考虑场景语义(如蓝天、白云、沙滩),还要进一步考虑对象的行为语义(如唱歌、击打、微笑)以及情感语义(如开心、难过、沮丧)等。图像语义的提取过程是由低层特征向高层语义转化的过程。高层语义虽然能够很好的刻画图像的语义信息,满足用户真实的搜索意图,但目前相关抽取语义描述的技术仍处在初始阶段,有待进一步的发展和突破。目前,传统的图像检索方法,如基于特征语义、基于对象和空间关系语义的图像检索方法,采用的均是精确匹配技术。而精确匹配由于其规则限制条件比较严格,导致图像检索系统的扩展性差。例如,分别在百度图片搜索引擎和谷歌图片搜索引擎中,上传一张“黑色皮鞋”图片进行搜索,此时百度返回的搜索结果是外观相似的黑色皮鞋,谷歌返回的结果则是包含匹配图片的页面。对两种图片搜索引擎返回的结果分析可以看出:百度的搜索结果体现出一定的模糊匹配,但不够模糊,导致扩展性差,没有上升到“皮鞋”这一概念层进行匹配,仅局限于满足特征语义(颜色、纹理、形状),并且没有返回包含精确匹配该图片的网页;而谷歌的搜索结果,虽然既包含精确匹配该图片的网页,也包含外观类似的图片,但这些外观类似的图片中出现了“黑色的U盘、黑色的笔记本、黑色的望远镜”等不相关的图片,反映了谷歌的模糊匹配策略因过于模糊而致匹配不准。因此,目前代表业界最高水平的图片检索系统(百度图片搜索引擎、谷歌图片搜索引擎),在相似图像搜索上的性能也并不能令用户满意。鉴于上述原因,本专利技术提供一种基于焦点对象识别和主题语义的图像搜索方法及系统,通过挖掘图片背后的语义关联,判断图片间的相似性,从而实现图像搜索领域的新突破。为了更好的阐述
技术实现思路
,以下对本专利技术涉及的下列名词作出说明:元素、对象、焦点对象和主题语义。其中,元素是指图像中独立的连续区域块,即有具体含义的物体,如太阳、人、沙滩、比基尼,元素是图像中的最小语义单元。对象是由单个或多个元素组合成的一个有物理含义的整体,组成某个对象的多个元素总是在空间位置上毗邻且经常在图像中共现,比如比基尼与美女可以构成一个穿着比基尼的美女对象。多个对象的组合便形成场景。由于一张图像中往往包含一个或多个对象,其中最重要且能吸引用户视觉焦点的对象称为焦点对象。比如一张图是“在大草原上走太空步的小马驹”,这时对象有“草原、小马驹、蓝天、大山”,但最能吸引用户的是“小马驹”,因为其“太空步”的行为动作附着在小马驹身上,突出诙谐、搞笑的语义。此时,对象“小马驹”就是焦点对象,是整张图像的焦点。而其他如“草原、蓝天、大山”构成一个场景。场景在这里并不是图像想要突出的重点,如果将其置换到“沙滩”“农场”这类场景,也不会影响图像的意境效果。此外,主题语义是指由焦点对象的集合、焦点对象间的关联、焦点对象分布的重要程度来描述的主题。
技术实现思路
本专利技术提供一种基于焦点对象识别和主题语义的图像搜索方法,包括以下步骤:S1、对待搜索图像进行底层特征语义提取,并形成高维特征向量空间后,进行图像分割,获得所述待搜索图像的元素;S2、将所述待搜索图像的元素进行元素识别后抽象至语义概念层,并根据不同元素的相对距离及共现概率,判断所述待搜索图像中的不同元素是否相关,若是,则将相关元素组合成对象;S3、计算所述对象的相对空间位置及占比面积,并计算各对象的兴趣指数及重要指数,根据计算结果,从不同对象中识别出焦点对象;S4、根据所述焦点对象,构建待搜索图本文档来自技高网
...
一种基于焦点对象识别和主题语义的图像搜索方法及系统

【技术保护点】
一种基于焦点对象识别和主题语义的图像搜索方法,其特征在于,包括以下步骤:S1、对待搜索图像进行底层特征语义提取,并形成高维特征向量空间后,进行图像分割,获得所述待搜索图像的元素;S2、将所述待搜索图像的元素进行元素识别后抽象至语义概念层,并根据不同元素的相对距离及共现概率,判断所述待搜索图像中的不同元素是否相关,若是,则将相关元素组合成对象;S3、计算所述对象的相对空间位置及占比面积,并计算各对象的兴趣指数及重要指数,根据计算结果,从不同对象中识别出焦点对象;S4、根据所述焦点对象,构建待搜索图像的主题语义模型,并获取具有所述焦点对象的现有图像,通过KL距离度量待搜索图像与现有图像之间的相似度,并输出相似度较高的现有图像。

【技术特征摘要】
1.一种基于焦点对象识别和主题语义的图像搜索方法,其特征在于,包
括以下步骤:
S1、对待搜索图像进行底层特征语义提取,并形成高维特征向量空间后,
进行图像分割,获得所述待搜索图像的元素;
S2、将所述待搜索图像的元素进行元素识别后抽象至语义概念层,并根
据不同元素的相对距离及共现概率,判断所述待搜索图像中的不同元素是否
相关,若是,则将相关元素组合成对象;
S3、计算所述对象的相对空间位置及占比面积,并计算各对象的兴趣指
数及重要指数,根据计算结果,从不同对象中识别出焦点对象;
S4、根据所述焦点对象,构建待搜索图像的主题语义模型,并获取具有
所述焦点对象的现有图像,通过KL距离度量待搜索图像与现有图像之间的相
似度,并输出相似度较高的现有图像。
2.根据权利要求1所述的方法,其特征在于,在步骤S2中,若待搜索
图像的元素的空间位置为坐标(xi,yi),则元素e和元素g的相对距离表示为
,其中Pwidth表示图像P的宽度,Plength表示图像
P的长度。
3.根据权利要求1所述的方法,其特征在于,在步骤S2中,元素e和
元素g的共现概率表示为,其中:,且P(e,g)
表示元素e和元素g在图像库中共同出现的概率,c(e,g)表示元素e和元素g
在图像库中共同出现的次数;,且P(e)表示元素e在图像库中出
现的概率,c(e)表示元素e在图像库中出现的次数。
4.根据权利要求1至3任一项所述的方法,其特征在于,在步骤S2中,
判断所述待搜索图像中的不同元素是否相关的依据为:
f(e,g)=1,if[αlow≤MI(e,g)≤αhighandβlow≤p(e,g)≤βhigh]0,else]]>;其中,α和β的边界通过在

\t图像库中训练得到。
5.根据权利要求1所述的方法,其特征在于,在步骤S2中,若待搜索
图像中的不同元素不相关,则将所述不同元素分别划分为独立的对象。
6.根据权利要求1所述...

【专利技术属性】
技术研发人员:朱巧明康杨杨洪宇
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1