基于网络热点话题的图像高级语义标注、检索方法及装置制造方法及图纸

技术编号:8271546 阅读:230 留言:0更新日期:2013-01-31 03:49
本发明专利技术公开了一种基于网络热点话题的图像高级语义标注方法、检索方法及装置。其中标注方法包括:利用待标注图像的实体语义词,基于文本关键词的搜索引擎,检索与待标注图像实体语义相似的图像以及伴随文本。接着从伴随文本中提取主题,并建立主题与主题、图像与图像、图像与主题之间的关联关系,并基于此,将具有相似主题且视觉特征相似的图像聚为一类,将具有相似视觉特征的图像对应的相似主题聚为一类。从中选择与待标注图像视觉特征最为相似的图像类,将其对应的主题作为热点话题。本发明专利技术通过上述过程,实现了对图像的高级语义标注,并且通过去噪使得到的高级语义能够准确的描述待标注图像。

【技术实现步骤摘要】
本专利技术涉及图像标注及检索领域,具体涉及基于网络热点话题的图像高级语义标注、检索方法及装置
技术介绍
图像是一种复杂的多媒体数据,包含了丰富的语义内容。图像的语义分为三个层次,第一层为底层语义层,即利用图像原始数据抽取得到的颜色、纹理等底层视觉特征;第二层为实体语义层,即利用提取的底层视觉特征,进行一定的逻辑推理,识别出图像中包含的对象类别,围绕图像的对象抽取的实体语义。第三层是抽象语义层即高级语义,包含了场 景、行为和情感等高级的语义,是对实体语义的更高级的推理。随着数字影像技术与互联网技术的发展,用户可以轻松的获得大量的图像。为方便用户从大量的图像中检索到符合需求的图像,图像标注技术应运而生。图像标注是指为图像添加能够描述其语义的关键词的技术。这样用户通过文本检索即搜索关键词就可以从网络上检索到相关图像。随着技术的发展,图像标注由人工标注发展为图像自动标注即通过寻找语义与底层视觉特征之间的关联关系,以此建立关系模型,实现对未知语义图像的标注。目前,图像自动标注技术主要是指对图像底层语义和实体语义的标注,基于此,用户还无法通过输入高级语义内容的方式对图像进行检索。但随着互联网的发展,用户经常需要检索与高级语义内容相关的图像。比如,用户经常想要检索与网络热点话题相关的图像。此处,网络热点话题是指某一时间段内,网络上发生的(突发)事件或广为讨论的话题。一般体现为网页的点击率急剧上升或图像的查询、上传、下载量增多。因此,目前急需一种对图像高级语义进行标注的方法,尤其是对图像有关的网络热点话题的标注方法。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于网络热点话题的图像高级语义标注、检索方法及其装置,为实现用户通过高级语义对图像进行检索提供条件。本专利技术实施例提供了一种基于网络热点话题的图像高级语义标注方法,所述方法包括一种基于网络热点话题的图像高级语义标注方法,其特征在于,所述方法包括以待标注图像的至少一个实体语义词为查询词,利用基于文本关键词的搜索引擎,从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本;提取所述伴随文本中的主题,并基于所述伴随文本与所述主题的对应关系建立所述语义相似的图像与所述主题的对应关系;将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类,形成图像类集合;将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类,形成主题类集合;建立所述图像类集合和所述主题类集合的对应关系;根据所述待标注图像的视觉特征,从所述图像类集合中查找与所述待标注图像的视觉特征相似的图像类,并提取所述相似的图像类对应的主题类作为所述待标注图像的网络热点话题;根据所述网络热点话题对所述待标注图像进行语义标注。优选的,所述方法还包括预先对所述待标注图像进行实体语义标注的步骤,具体包括提取所述待标注图像的视觉特征; 根据所述视觉特征,从有限训练集中查找与所述待标注图像相似的候选图像;提取所述候选图像的实体语义词,并利用所述实体语义词对所述待标注图像进行实体语义标注。优选的,在所述提取所述候选图像的实体语义词之后,利用所述实体语义词对所述待标注图像进行实体语义标注之前,所述方法还包括根据所述实体语义词将实体语义相似的候选图像聚为一类,形成候选图像类集合;从所述候选图像类集合中查找与所述待标注图像视觉特征最相似的候选图像类作为邻居图像类;所述利用所述实体语义词对所述待标注图像进行实体语义标注包括利用所述邻居图像类的实体语义词对所述待标注图像进行实体语义标注。优选的,所述根据所述实体语义词将实体语义相似的候选图像聚为一类,形成候选图像类包括建立超图模型G (Vs,Ts),并基于此获得超图模型的相似性矩阵H,其中,所述超图模型以与所述待标注图像相似的候选图像的集合Vs为顶点集,以所述候选图像的实体语义词的集合Ts为超边集;所述矩阵H中的元素Hij代表每个图像Vi与对应的实体语义词Tj的联系以及每个实体语义词与多个候选图像的共生关系;根据所述相似性矩阵H,利用谱聚类算法,对所述超图模型进行聚类,将共享一定数量超边的候选图像聚为一类,形成所述候选图像类。优选的,所述方法还包括利用公式Σ_1 “讽“1 计算所述邻居图像类中的实体语义词与所述待标注图 Has 「I if图像ii包含了实体语义词ti像的相关度;其中,挪//+O= Λ;ii为邻居图像类S中的邻 [Uolhcrs居图像,iq为待标注图像;P(ii/iq)等于ii与所述iq的视觉特征相似度;所述利用所述邻居图像的实体语义词对所述待标注图像进行实体语义标注包括按照所述相关度从大到小的顺序,从所述邻居图像类中选取预设数量的实体语义词对所述待标注图像进行实体语义标注。优选的,所述提取所述伴随文本中的主题,并基于所述伴随文本与主题的对应关系,建立所述语义相似的图像与所述主题的对应关系包括利用所述伴随文本建立LDA模型,基于所述LDA模型提取所述主题并建立图像_主题相关矩阵Rvt ;所述将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类,形成图像类集合;将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类,形成主题类集合包括建立所述伴随文本的主题相关矩阵Rt ;利用图像的视觉相似性,计算所述语义相似的图像的视觉相似性矩阵Rv ;利用财、1^扒1^,建立复杂图模型6 0^、财、1^0 ; 对所述复杂图G(Rv、Rt、Rvt)进行聚类,形成所述图像类集合和所述主题类集合。优选的,所述根据所述网络热点话题对所述待标注图像进行语义标注包括利用开方检验方法X 2提取与所述网络热点话题相关度最高的前K个词对所述待标注图像进行语义标注。本专利技术还提供了一种基于网络热点话题的图像高级语义标注装置,所述装置包括文本检索单元,用于以待标注图像的至少一个实体语义词为查询词,利用基于文本关键词的搜索引擎,从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本;主题提取单元,用于提取所述伴随文本中的主题;第一关联单元,用于基于所述伴随文本与主题的对应关系,建立所述语义相似的图像与所述主题的对应关系;聚类单元,用于将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类,形成图像类集合;将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类,形成主题类集合;第二关联单元,用于建立所述图像类集合和所述主题类集合的对应关系;第一内容检索单元,用于根据所述待标注图像的视觉特征,从所述图像类集合中查找与所述待标注图像的视觉特征相似的图像类;热点话题提取单元,用于提取所述相似的图像类对应的主题类作为所述待标注图像的网络热点话题;热点话题标注单元,用于根据所述网络热点话题对所述待标注图像进行语义标注。优选的,所述装置还包括实体语义标注单元,用于对所述待标注图像进行实体语义标注;所述实体语义标注单元具体包括视觉特征提取单元,用于提取所述待标注图像的视觉特征;第二内容检索单元,用于根据所述视觉特征,从有限训练集中查找与所述待标注图像相似的候选图像;实体语义词提取单元,用于提取所述候选图像的实体语义词;实体语义标注子单元,用于利用所述实体语义词对所述待标注图像进行实体语义标注。优选的,所述装置还包括去噪单元,用于对所述候选图像进行去噪处理;具本文档来自技高网...

【技术保护点】
一种基于网络热点话题的图像高级语义标注方法,其特征在于,所述方法包括:以待标注图像的至少一个实体语义词为查询词,利用基于文本关键词的搜索引擎,从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本;提取所述伴随文本中的主题,并基于所述伴随文本与所述主题的对应关系建立所述语义相似的图像与所述主题的对应关系;将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类,形成图像类集合;将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类,形成主题类集合;建立所述图像类集合和所述主题类集合的对应关系;根据所述待标注图像的视觉特征,从所述图像类集合中查找与所述待标注图像的视觉特征相似的图像类,并提取所述相似的图像类对应的主题类作为所述待标注图像的网络热点话题;根据所述网络热点话题对所述待标注图像进行语义标注。

【技术特征摘要】
1.一种基于网络热点话题的图像高级语义标注方法,其特征在于,所述方法包括 以待标注图像的至少一个实体语义词为查询词,利用基于文本关键词的搜索引擎,从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本; 提取所述伴随文本中的主题,并基于所述伴随文本与所述主题的对应关系建立所述语义相似的图像与所述主题的对应关系; 将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类,形成图像类集合;将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类,形成主题类集合; 建立所述图像类集合和所述主题类集合的对应关系; 根据所述待标注图像的视觉特征,从所述图像类集合中查找与所述待标注图像的视觉特征相似的图像类,并提取所述相似的图像类对应的主题类作为所述待标注图像的网络热点话题; 根据所述网络热点话题对所述待标注图像进行语义标注。2.根据权利要求I所述的方法,其特征在于,所述方法还包括预先对所述待标注图像进行实体语义标注的步骤,具体包括 提取所述待标注图像的视觉特征; 根据所述视觉特征,从有限训练集中查找与所述待标注图像相似的候选图像; 提取所述候选图像的实体语义词,并利用所述实体语义词对所述待标注图像进行实体语义标注。3.根据权利要求2所述的方法,其特征在于,在所述提取所述候选图像的实体语义词之后,利用所述实体语义词对所述待标注图像进行实体语义标注之前,所述方法还包括 根据所述实体语义词将实体语义相似的候选图像聚为一类,形成候选图像类集合;从所述候选图像类集合中查找与所述待标注图像视觉特征最相似的候选图像类作为邻居图像类; 所述利用所述实体语义词对所述待标注图像进行实体语义标注包括 利用所述邻居图像类的实体语义词对所述待标注图像进行实体语义标注。4.根据权利要求3所述的方法,其特征在于,所述根据所述实体语义词将实体语义相似的候选图像聚为一类,形成候选图像类包括 建立超图模型G (Vs,Ts),并基于此获得超图模型的相似性矩阵H,其中,所述超图模型以与所述待标注图像相似的候选图像的集合Vs为顶点集,以所述候选图像的实体语义词的集合Ts为超边集;所述矩阵H中的元素Hij代表每个图像Vi与对应的实体语义词Ti的联系以及每个实体语义词与多个候选图像的共生关系; 根据所述相似性矩阵H,利用谱聚类算法,对所述超图模型进行聚类,将共享一定数量超边的候选图像聚为一类,形成所述候选图像类。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括 利用公式Σ P^li丨ii^ii 7 计算所述邻居图像类中的实体语义词与所述待标注图像的IlCZS Iif图像ii包含了实体语义词ti相关度;其中,/K+间=Λ' ;ii为邻居图像类S中的邻居图 [Oothers像,iq为待标注图像;p(ii/iq)等于ii与所述iq的视觉特征相似度; 所述利用所述邻居图像的实体语义词对所述待标注图像进行实体语义标注包括 按照所述相关度从大到小的顺序,从所述邻居图像类中选取预设数量的实体语义词对所述待标注图像进行实体语义标注。6.根据权利要求I所述的方法,其特征在于,所述提取所述伴随文本中的主题,并基于所述伴随文本与主题的对应关系,建立所述语义相似的图像与所述主题的对应关系包括 利用所述伴随文本建立LDA模型,基于所述LDA模型提取所述主题并建立图像-主题相关矩阵Rvt ; 所述将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类,形成图像类集合;将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类,形成主题类集合包括 建立所述伴随文本的主题相关矩阵Rt ; 利用图像的视觉相似性,计算所述语义相似的图像的视觉相似性矩阵Rv ; 利用Rt、Rvt、Rv,建立复杂图模型G (Rv、Rt、Rvt); 对所述复杂图G(Rv、Rt、Rvt)进行聚类,形成所述图像类集合和所述主题类集合。7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述网络热点话题对所述待标注图像进行语义标注包括 利用开方检验方法X 2提取与所述网络热点话题相关度最高的前K个词对所述待标注图像进行语义标注。8.一种基于网络热点话题的图像高级语义标注装置,其特征在于,所述装置包括 文本检索单元,用于以待标注图像的至少一个实体语义词为查询词,利用基于文本关键词的搜索引擎,从网络中检索与所述待标注图像的语义相似的图像和所述语义相似图像的伴随文本; 主题提取单元,用于提取所述伴随文本中的主题; 第一关联单元,用于基于所述伴随文本与主题的对应关系,建立所述语义相似的图像与所述主题的对应关系; 聚类单元,用于将视觉特征相似并且具有相似主题的所述语义相似的图像聚合为一类,形成图像类集合;将视觉特征相似的所述语义相似的图像对应的相似主题聚合为一类,形成主题类集合; 第二关联单元,用于建立所述图像类集合和所述主题类集合的对应关系; 第一...

【专利技术属性】
技术研发人员:王晓茹余志洪杜军平维旭光孙朝阳林晨
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1