一种确定图片的主题词的方法及装置制造方法及图纸

技术编号:9967592 阅读:133 留言:0更新日期:2014-04-25 08:18
本发明专利技术公开一种确定图片的主题词的方法及装置,属于互联网技术领域。所述方法包括:查询与输入的待识别图片对应的多张相似图片;查找query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。根据本发明专利技术,能够方便快捷地确定待识别图片的主题词,并且所确定的主题词的准确性也较高。

【技术实现步骤摘要】
一种确定图片的主题词的方法及装置
本专利技术涉及互联网
,具体涉及一种确定图片的主题词的方法及装置。
技术介绍
传统图片搜索引擎的实现方式是根据用户输入的查询关键词(query,描述性文本)匹配图片关键词(与图片关联度较高的文本),从图片数据库中搜索出与所述查询关键词相关的图片,其图片搜索功能在本质上还是文本搜索。而以图搜图系统或者称为反向图片搜索引擎(reverseimagesearchengine)是一种以图片作为搜索源的技术,其使用图片本身代替查询关键词来搜索其他图片。用户通过在反向图片搜索引擎中上传图片或者输入图片的URL地址,根据图片内容进行匹配,可以搜索到互联网上与输入的待识别图片相似的其他图片资源。在反向图片搜索引擎的搜索结果页中通常会展示输入的待识别图片的缩略图、待识别图片的相关信息以及与待识别图片对应的多张相似图片。其中,所述待识别图片的相关信息通常包括待识别图片的尺寸和待识别图片的主题词,所述主题词通常展示在所述缩略图的旁边或者下方。在现有反向图片搜索引擎的具体实现中,待识别图片的主题词通常是根据相似图片的相关信息确定,例如,根据图片的上传者或者网站的经营者本文档来自技高网...
一种确定图片的主题词的方法及装置

【技术保护点】
一种确定图片的主题词的方法,包括:查询与输入的待识别图片对应的多张相似图片;查找关键词query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。

【技术特征摘要】
1.一种确定图片的主题词的方法,包括:查询与输入的待识别图片对应的多张相似图片;查找关键词query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录,其中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数;基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。2.如权利要求1所述的方法,其中,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,包括:根据点击记录确定查询query中各分词的点击得分;从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。3.如权利要求2所述的方法,其中,所述根据点击记录确定查询query中各分词的点击得分,包括:将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。4.如权利要求1-3任一项所述的方法,其中,还包括:从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query;统计各分词在所有可信任查询query中的出现次数;将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。5.如权利要求1-3任一项所述的方法,其中,还包括:将提取到的所述待识别图片的主题词进行展示。6.一种确定图片的主题词的装置,包括:图片数据库,适于存储通过网络抓取到的图片...

【专利技术属性】
技术研发人员:陶哲薛红霞
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1