当前位置: 首页 > 专利查询>黑龙江大学专利>正文

一种基于扩展的sLDA模型对图像进行标题注释的方法技术

技术编号:19745446 阅读:17 留言:0更新日期:2018-12-12 04:46
本发明专利技术涉及一种基于扩展的sLDA模型对图像进行标题注释的方法,是为了解决现有的图像注释方法会遇到可伸缩性问题,只能处理一个小的注释词汇表,缺乏通用型和易用性的缺点而提出的,包括:对于输入的图像,提取图像的局部特征,并利用K‑means算法得到图像的N个视觉词汇;使用LDA模型表示给定文档隐藏变量的后验分布;引入响应变量并将响应变量分布定义成多变量伯努利分布;使用基于凸性的LDA推理变分算法进行公式近似;求取变分参数值;估计模型参数;预测响应变量的分布。本发明专利技术适用于图像标题注释系统。

【技术实现步骤摘要】
一种基于扩展的sLDA模型对图像进行标题注释的方法
本专利技术涉及图像注释方法领域,具体涉及一种基于扩展的sLDA模型对图像进行标题注释的方法。
技术介绍
在过去的几十年里,图像和视频检索的问题一直处于计算机视觉研究的前沿。尽管如此,由于最近大量的图片和视频在网上可以找到,人们对一种高效的算法在大规模收集中搜索和导航的需求也在不断增长。当前最先进的图像搜索引擎严重依赖于使用带注释的文本或标题来识别和检索图像。虽然这种方法允许进行高级语义查询,但对于基于文本的搜索技术的成功至关重要的标题信息,通常是手动获得的,而这一过程不能随着当今多媒体语料库不断增长的规模而扩展。因此,需要自动化这个注释过程。由于它对涉及数字媒体档案的大量应用程序的潜在影响,近年来人们对设计和开发注释图像和视频的自动化工具的关注度与日俱增。在没有标题的情况下,注释算法的任务是通过学习图像和文本之间的关联模式来预测缺失的标题。以前在这个领域的工作可以大致分为两组。在第一组工作中,图像注释的问题被转换成一个监督学习问题,在这个问题中,注释将被当作概念类。对于词汇表中的每个单词,类条件密度是从所有标记的图像中学习的。在注释过程中,计算出类标签的后验分布,然后使用最高概率的概念作为预测的标题。在实践中,这种方法会遇到可伸缩性问题,并且只能处理一个小的注释词汇表,因为每个单词都必须学习类条件密度。另一组通过对两个数据类型之间的联合统计相关性建模,在更平等的基础上处理注释和图像数据。这些模型使用一个潜在的变量框架,通过假设每个文档都有一组隐藏的因子来控制图像特征和相应的标题词之间的关联,从而了解文本和图像特征的联合概率分布。
技术实现思路
本专利技术的目的是为了解决现有的图像注释方法会遇到可伸缩性问题,只能处理一个小的注释词汇表,缺乏通用型和易用性的缺点,而提出一种基于扩展的sLDA模型对图像进行标题注释的方法,能够处理注释数据的多维二元响应变量,包括:步骤一、对于输入的图像,提取图像的局部特征,并利用K-means算法得到图像的N个视觉词汇wn,其中wn∈{1,2...,N}。步骤二、使用LDA模型表示给定文档隐藏变量的后验分布。其中α和β是模型参数,z和θ分别是主题变量和主题比例。步骤三、在步骤二中引入响应变量y以及响应变量的参数η和δ,同时将并将响应变量分布定义成多变量伯努利分布,即将公式(3)表示为:步骤四、根据基于凸性的LDA推理变分算法将式(5)近似成其中狄利克雷参数γ和多项参数(φ1,φ2,...,φN)均为自由的变分参数;zn为第n个主题词;将logp(θ,z,w|α,β,η,δ)和q(θ,z|γ,φ)期望的差值记作L。步骤五、求取能够使L的下界达到最大值的变分参数γ和φ。步骤六、估计模型参数ψ={α,β,η,δ}。步骤七、根据模型参数ψ和变分参数γ和φ预测响应变量y的分布p(y|w)。进一步,步骤三具体为:利用η和δ生成响应变量y,其中设响应变量y的分布符合广义线性模型:其中于是公式(3)能够表示为其中进一步,步骤四具体为:通过以下公式将公式(5)近似为令L(γ,φ;α,β)表示式(8)的右边,式(8)表示为logp(w|α,β)=L(γ,φ;α,β)+D(q(θ,z|γ,φ)||p(θ,z|w,α,β))(9)通过使用p和q的因式分解将L写作式(10):进一步,步骤五具体为:步骤五一、在公式(13)中,利用φni最大化L的下界,φni表示第n个视觉词汇由隐藏主题i生成的概率,因此并通过分离包含φni的项并添加适当的拉格朗日乘子来形成拉格朗日函数:ψ(x)是双伽马函数;计算关于φni的导数:其中βiv表示对于合适的v的v为词典的第v个词;进一步得到在响应变量服从伯努利分布条件下,参数φn的更新公式步骤五二利用γi最大化上式,γi表示后验狄利克雷参数的第i个组成部分;包含γi的项:对γi求导:令导数为零:迭代方程(16)至(19)直到边界收敛,进而得到能够使L的下界达到最大值的变分参数γ和φ。进一步,步骤六具体为:步骤六一、求得参数β的公式为:步骤六二、求得参数α的过程为:对于公式(22),进行求导得对公式(23)通过牛顿迭代法求取α的值;步骤六三、求得参数η和σ2的过程为:其中μ(·)=EGLM[Y|·];对σ2求导,在上评估经过计算,最终得到参数估计结果:将参数αi、βij、ηi和δi进行组合即可得到模型参数ψ={α,β,η,δ}。进一步,步骤七具体为:将没有标题的新文档w作为输入,任务是推断出最可能的标题词,利用φn和q(θ)来近似求解条件概率p(y|w),如下:其中p(y|w)用于推断新文档w最可能的标题词。本专利技术的有益效果为:1、本专利技术对Corr-LDA的结构做出了调整,删掉了变量x,图像主题可以直接用于预测标题,而不需要对标题的后验概率进行整合(而这是Corr-LDA需要的步骤)。并对sLDA进行扩展,使得模型能够处理多变量二进制响应变量,消除了sLDA只能处理一个响应变量的不足,对于图像的注释更加详细,因此图像检索也更方便且精确。2、在主题数、词汇数较多的情况下,本专利技术的预测准确率明显高于Corr-LDA模型,平均高出0.04。附图说明图1为sLDA-bin的图形化模型结构图;图2为Corr-LDA的图形化模型结构图;图3为sLDA-bin和LDA的预测和观察的响应间的误差曲线图;图4为K=30时Corr-LDA和sLDA-bin的标题词预测曲线图;图5为N=256时Corr-LDA和sLDA-bin的标题词预测曲线图;图6为N=512时Corr-LDA和sLDA-bin的标题词预测曲线图;图7为Corr-LDA和sLDA-bin对部分对象注释的准确率曲线图。具体实施方式本专利技术的基于扩展的sLDA模型对图像进行标题注释的方法,可简称为sLDA-bin,包括:步骤一、对于输入的图像,提取图像的局部特征,并利用K-means算法得到图像的N个视觉词汇wn,其中wn∈{1,2...,N}。步骤二、使用LDA模型表示给定文档隐藏变量的后验分布:其中α和β是模型参数,z和θ分别是主题变量和主题比例。步骤三、在步骤二中引入响应变量y以及响应变量的参数η和δ,同时将并将响应变量分布定义成多变量伯努利分布,即将公式(3)表示为:步骤四、根据基于凸性的LDA推理变分算法将式(5)近似成其中狄利克雷参数γ和多项参数(φ1,φ2,...,φN)均为自由的变分参数;zn为第n个词的主题变量;将logp(θ,z,w|α,β,η,δ)和q(θ,z|γ,φ)期望的差值记作L,并确定L下界的表示形式。步骤五、求取能够使L的下界达到最大值的变分参数γ和φ。步骤六、估计模型参数ψ={α,β,η,δ}。步骤七、根据模型参数ψ和变分参数γ和φ预测响应变量y的分布p(y|w)。下面具体说明本实施方式的原理和过程,需要说明的是,角标附带n的变量和不附带n的变量含义相同,区别在于角标附带n的变量强调序数n,也就是强调这个变量是N个词中的第n个对应的参数。例如,变量z和zn是相同的含义,区别在于zn强调的是第n个词的主题变量,z没有强调这一点,而它们的含义是完全相同的。步骤一、数据表示,提取图像的N个局部特征,然后用K-means对N个特征进行聚类,已知初始的k本文档来自技高网
...

【技术保护点】
1.一种基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于,包括:步骤一、对于输入的图像,提取图像的局部特征,并利用K‑means算法得到图像的N个视觉词汇wn,其中n∈{1,2...,N},N为正整数;步骤二、使用LDA模型表示给定文档隐藏变量的后验分布:

【技术特征摘要】
1.一种基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于,包括:步骤一、对于输入的图像,提取图像的局部特征,并利用K-means算法得到图像的N个视觉词汇wn,其中n∈{1,2...,N},N为正整数;步骤二、使用LDA模型表示给定文档隐藏变量的后验分布:其中α和β是模型参数,z和θ分别是主题变量和主题比例;步骤三、在步骤二中引入响应变量y以及响应变量的参数η和δ,同时将并将响应变量分布定义成多变量伯努利分布,即将公式(3)表示为:步骤四、根据基于凸性的LDA推理变分算法将式(5)近似成其中狄利克雷参数γ和多项参数(φ1,φ2,...,φN)均为自由的变分参数;zn为第n个词的主题变量;将logp(θ,z,w|α,β,η,δ)和q(θ,z|γ,φ)期望的差值记作L;步骤五、求取能够使L的下界达到最大值的变分参数γ和φ;步骤六、估计模型参数ψ={α,β,η,δ};步骤七、根据模型参数ψ和变分参数γ和φ预测响应变量y的分布p(y|w)。2.根据权利要求1所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤三具体为:利用η和δ生成响应变量y,其中设响应变量y的分布符合广义线性模型:其中于是公式(3)能够表示为其中3.根据权利要求2所述基于扩展的sLDA模型对图像进行标题注释的方法,其特征在于:步骤四具体为:通过以下公式将公式(5)近似为令L(γ,φ;α,β)表示式(8)的右边,式(8)表示为logp(w|α,β)=L(γ,φ;α,β)+D(q(θ,z|γ,φ)||p(θ,z|w,α,β))(9)通过使用...

【专利技术属性】
技术研发人员:秦丹阳冯攀纪萍马静雅张岩杨松祥
申请(专利权)人:黑龙江大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1