【技术实现步骤摘要】
一种基于扩展的sLDA模型对图像进行标题注释的方法
本专利技术涉及图像注释方法领域,具体涉及一种基于扩展的sLDA模型对图像进行标题注释的方法。
技术介绍
在过去的几十年里,图像和视频检索的问题一直处于计算机视觉研究的前沿。尽管如此,由于最近大量的图片和视频在网上可以找到,人们对一种高效的算法在大规模收集中搜索和导航的需求也在不断增长。当前最先进的图像搜索引擎严重依赖于使用带注释的文本或标题来识别和检索图像。虽然这种方法允许进行高级语义查询,但对于基于文本的搜索技术的成功至关重要的标题信息,通常是手动获得的,而这一过程不能随着当今多媒体语料库不断增长的规模而扩展。因此,需要自动化这个注释过程。由于它对涉及数字媒体档案的大量应用程序的潜在影响,近年来人们对设计和开发注释图像和视频的自动化工具的关注度与日俱增。在没有标题的情况下,注释算法的任务是通过学习图像和文本之间的关联模式来预测缺失的标题。以前在这个领域的工作可以大致分为两组。在第一组工作中,图像注释的问题被转换成一个监督学习问题,在这个问题中,注释将被当作概念类。对于词汇表中的每个单词,类条件密度是从所有标记的 ...
【技术保护点】
1.一种基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于,包括:步骤一、对于输入的图像,提取图像的局部特征,并利用K‑means算法得到图像的N个视觉词汇wn,其中n∈{1,2...,N},N为正整数;步骤二、使用LDA模型表示给定文档隐藏变量的后验分布:
【技术特征摘要】
1.一种基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于,包括:步骤一、对于输入的图像,提取图像的局部特征,并利用K-means算法得到图像的N个视觉词汇wn,其中n∈{1,2...,N},N为正整数;步骤二、使用LDA模型表示给定文档隐藏变量的后验分布:其中α和β是模型参数,z和θ分别是主题变量和主题比例;步骤三、在步骤二中引入响应变量y以及响应变量的参数η和δ,同时将并将响应变量分布定义成多变量伯努利分布,即将公式(3)表示为:步骤四、根据基于凸性的LDA推理变分算法将式(5)近似成其中狄利克雷参数γ和多项参数(φ1,φ2,...,φN)均为自由的变分参数;zn为第n个词的主题变量;将logp(θ,z,w|α,β,η,δ)和q(θ,z|γ,φ)期望的差值记作L;步骤五、求取能够使L的下界达到最大值的变分参数γ和φ;步骤六、估计模型参数ψ={α,β,η,δ};步骤七、根据模型参数ψ和变分参数γ和φ预测响应变量y的分布p(y|w)。2.根据权利要求1所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤三具体为:利用η和δ生成响应变量y,其中设响应变量y的分布符合广义线性模型:其中于是公式(3)能够表示为其中3.根据权利要求2所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤四具体为:通过以下公式将公式(5)近似为令L(γ,φ;α,β)表示式(8)的右边,式(8)表示为logp(w|α,β)=L(γ,φ;α,β)+D(q(θ,z|γ,φ)||p(θ,z|w,α,β))(9)通过使用...
【专利技术属性】
技术研发人员:秦丹阳,冯攀,纪萍,马静雅,张岩,杨松祥,
申请(专利权)人:黑龙江大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。