基于深层主题自编码模型的多模态检索方法技术

技术编号:22075927 阅读:22 留言:0更新日期:2019-09-12 14:12
本发明专利技术公开了一种基于深层主题自编码模型的多模态检索方法,主要解决现有技术检索性能低的问题,其实现方案是:确定J张图像和J个相应的文本为数据集,其中每个相应的文本为对应图像包括的若干个单词;对数据集进行预处理得到文本矩阵和图像特征矩阵作为训练数据;建立包括T层的泊松伽马置信自编码网络,并得到文本矩阵的每一层变量权重矩阵;利用训练数据去更新的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵;根据训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵,以图像特征矩阵为输入,得到文本矩阵的预测单词矩阵,即为多模态检索结果。本发明专利技术提高了检索的性能,可用于文本‑图像检索。

Multi-modal Retrieval Method Based on Deep Topic Self-coding Model

【技术实现步骤摘要】
基于深层主题自编码模型的多模态检索方法
本专利技术属于图像处理
,特别涉及一种多模态检索方法,适用于快速挖掘图像-文本两种不同模态的深层联系、提取联合特征,并利用所提取的联合特征对文本-图像进行检索。
技术介绍
多模态检索技术是利用联合学习不同模态特征,并挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;多模态泊松伽马置信网络Multimodal-PGBN是一种基于贝叶斯框架的在线深层主题模型,该模型拥有多层网络结构,能够快速提取出数据的多层特征,在文本处理上优于传统主题模型;同时Multimodal-PGBN模型不仅可以应用于文本处理,还可以应用于图像处理。多模态学习技术是指,联合学习不同模态特征,挖掘不同模态特征之间的联系,得到包含多模态信息的联合特征,做到不同模态数据之间相互生成;基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为:利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系,同时得到一个包含多模态信息的联合特征表示用于检索。KSohn,WShang,HLee等人在其发表的论文“Improvedmultimodaldeeplearningwithvariationofinformation”(InternationalConferenceonNeuralInformationProcessingSystems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法,该种基于深度神经网络的多模态检索方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络,受限制玻尔兹曼机网络层内无连接,在初始化网络参数后训练下一层网络,这就形成了一个两层结构的受限制玻尔兹曼机,将一个受限制玻尔兹曼机的输出单元作为另一个受限制玻尔兹曼机的输入单元,就形成了多层深度网络。该种基于深度神经网络的多模态检索方法引入了基于对比散度和多预测训练的学习方法,向深层网络反复编码结构调整整个网络,然后共享这些特定模态网络的最高层,通过联合学习的方法训练整个神经网络并把共享的隐层最高层作为联合特征表示;该种基于深度神经网络的多模态检索方法虽然能够挖掘的不同模态特征之间的联系,但该种基于深度神经网络的多模态检索方法仍然存在的不足之处是:由于深度神经网络的“黑箱”特性,多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限,从而基于深度神经网络的多模态技术不能确切描述不同模态特征之间的深层联系;同时,受限制玻尔兹曼机隐层与观测数据之间存在非线性映射,很难将隐层与观测之间的关系可视化。上海交通大学在其申请的专利文献“基于主题模型的文章特征抽取方法”(专利申请号:201511016955.7,公开号:CN105631018A)中提出了一种基于主题模型的文章特征抽取检索方法,该种基于主题模型的文章特征抽取检索方法基于原始语料库构建文章的引用关系网络,构建主题模型的生成模型和参数联合表达式,根据所述生成模型构建主题模型的推断过程,对新语料库采样文章,根据采样文章的采样结果提取文章参数。该种基于主题模型的文章特征抽取检索方法虽然能够直接对多模态的输入建立概率模型,把联合特征的表示问题转化成贝叶斯模型的隐层分布推断问题;但是,该方法由于受限于传统主题模型都是浅层模型,且仅限于构建不同模态浅层的联系,因而不能挖掘模态之间更深层的联系,从而影响检索性能。
技术实现思路
本专利技术的目的在于针对上述现有技术存在的不足,提出一种基于深层主题自编码模型的多模态检索方法,以泊松伽马置信自编码网络为基础,发掘不同模态隐层之间由深到浅的联系,得到一个用于检索多模态信息的联合特征,提高检索性能。为实现上述、目的,本专利技术的技术方案包括如下步骤:(1)确定J张图像和J个相应的文本为数据集,其中,每个相应的文本为对应图像包括的若干个单词,其中,J为大于1的正整数;(2)对数据集进行特征提取,得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg;(3)计算包括T层的泊松伽马置信自编码网络初始参数,其中,T为大于1的正整数;(4)计算文本矩阵的每一层共享变量权重矩阵(5)将数据集划分为L个迷你块作为训练数据,利用训练数据和共享变量权重矩阵更新Φi和Φt,直到达到设定的训练次数,得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵(6)将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数,把图像特征矩阵Xi输入到该网络,得到文本矩阵的预测单词矩阵该预测单词矩阵为多模态检索结果。本专利技术与现有技术相比,具有以下优点:第一,由于本专利技术采用初始化共享参数的操作,克服了现有技术中由于深度神经网络的“黑箱”特性。第二,本专利技术由于在检索时对不同模态数据间的关联描述更加确切,克服了传统的多层受限制玻尔兹曼机的隐层单元局限于二值,表达能力有限的问题,提高了检索性能。第三,本专利技术由于在计算共享变量权重矩阵时加入了变分自编码框架,能够直接利用推断网络映射对模型参数进行推断,不再局限于传统的基布斯采样。第四,本专利技术采用了在线梯度更新,使得模型能够更快地收敛,有助于高效地实现多模态检索。附图说明图1是本专利技术的实现流程图;图2是本专利技术中的数据集部分展示图。具体实施方式下面结合附图对本专利技术的实施例和效果作进一步详细说明。参照图1,本实例的具体实现步骤如下:步骤1,确定数据集。获取MIRFlicker25k数据,该MIRFlicker25k数据包括了从社交摄影网站Flickr下载下来的J张图像和对应的完整人工标注的单词,每一张图像包括Nj个单词,Nj是第j张图像对应的单词的数量;用每张图像对应的单词组成一个相应的文本,得到J张图像和J个相应的文本,并将这些图像和文本记为数据集,如图2所示,其中:图2a是城市的图片,右边的7个单词是对城市图片特征的描述;图2b是花的图片,右边的7个单词是对花的图片特征的描述;图2c是沙滩的图片,右边的7个单词是对沙滩图片特征的描述;图2d是森林的图片,右边的7个单词是对森林图片特征的描述;图2e是昆虫与植物的图片,右边的7个单词是对昆虫与植物图片特征的描述;图2f是雪景的图片,右边的7个单词是对雪景图片特征的描述;图2g是天空与村落的图片,右边的7个单词是对天空与村落图片特征的描述;图2h是人物的图片,右边的7个单词是对人物图片特征的描述。步骤2,对数据集进行特征提取,得到文本矩阵、图像特征矩阵及图像的边缘信息矩阵。2a)设定一个Nj×2维矩阵为第j个词汇表,其中Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数,设Nj表示第j张图像包括的单词总个数,其中j=1,2,…,J,Nj>0;2b)令j的值加1,设定第j张图像的Nj个单词中有Q个单词在第j-1个词汇表中存在,将这Q个单词在第j-1个词汇表内对应单词出现的次数加1,0≤Q≤Nj;2c)对Nj-1×2维矩阵增加Nj-Q行,使其变换为(Nj-1+Nj-Q)×2维矩阵,以构成第j个词汇表,其中(Nj-1+Nj-Q)×2维矩阵中的第1列由第j-1张图像的Nj-1个单词和第j张图像本文档来自技高网
...

【技术保护点】
1.一种基于在线深层主题模型的多模态检索方法,其特征在于,包括如下:(1)确定J张图像和J个相应的文本为数据集,其中,每个相应的文本为对应图像包括的若干个单词,其中,J为大于1的正整数;(2)对数据集进行特征提取,得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg;(3)计算包括T层的泊松伽马置信自编码网络初始参数,其中,T为大于1的正整数;(4)计算文本矩阵的每一层共享变量权重矩阵

【技术特征摘要】
1.一种基于在线深层主题模型的多模态检索方法,其特征在于,包括如下:(1)确定J张图像和J个相应的文本为数据集,其中,每个相应的文本为对应图像包括的若干个单词,其中,J为大于1的正整数;(2)对数据集进行特征提取,得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg;(3)计算包括T层的泊松伽马置信自编码网络初始参数,其中,T为大于1的正整数;(4)计算文本矩阵的每一层共享变量权重矩阵(5)将数据集划分为L个迷你块作为训练数据,利用训练数据和共享变量权重矩阵更新Φi和Φt,直到达到设定的训练次数,得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵(6)将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数,把图像特征矩阵Xi输入到该网络,得到文本矩阵的预测单词矩阵该预测单词矩阵为多模态检索结果。2.如权利要求1所述的方法,其特征在于,(2)中对数据集进行特征提取,得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg,其实现如下:2a)设定一个Nj×2维矩阵为第j个词汇表,其中Nj×2维矩阵中第1列分别为第j张图像的Nj个单词,Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数,设Nj表示第j张图像包括的单词总个数,其中j=1,2,…,J,Nj>0;2b)令j的值加1,设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现,将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1,0≤Q≤Nj;2c)对Nj-1×2维矩阵增加Nj-Q行,使其变换为(Nj-1+Nj-Q)×2维矩阵,以构成第j个词汇表,其中(Nj-1+Nj-Q)×2维矩阵中的第1列由第j-1张图像的Nj-1个单词和第j张图像剩余的Nj-Q个单词构成,(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数;2d)重复执行2b)到2c),直到得到第J个词汇表,即J个相应的文本词汇表,该J个相应的文本词汇表中包括有Vo个单词,Vo>0;2e)对Vo个单词按照每个单词出现的次数由高到低进行排序,选取排序后出现次数最多的前Ve个单词作为最终词汇表,该最终词汇表包括Ve个单词,其中Ve<Vo;2f)确定一个Ve×2维矩阵,该Ve×2维矩阵中第1列为最终词汇表中的Ve个词汇;设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现;2g)设Ve×2维矩阵中第2列初始值为0,在Ve×2维矩阵中第1列找到相应的Q'个单词,并将Q'个单词在Ve×2维矩阵中第2列相应值分别加1,得到的Ve×2维矩阵第2列作为第j个相应的文本Ve维向量,其余Ve-Q'个单词在Ve×2维矩阵中第2列的对应值为0,即最终词汇表中不存在这些单词;0≤Q'≤Nj;2h)令j的值分别取1至J,重复执行2g),直到得到第1个相应的文本Ve维向量至第J个相应的文本Ve维向量,并将该第1个相应的文本Ve维向量至第J个相应的文本Ve维向量记为Ve×J维文本矩阵Xt;2i)用尺度不变特征变换算法提取待训练数据中每幅图像的特征,得到Vi×J维图像特征矩阵Xi,其中J为图像总张数,Vi为每幅图像特征的维度;2j)通过vgg16算法提取图像特征矩阵Xi的边缘信息矩阵Xg,其中第j个图像对应的边缘信息向量为Xg_j。3.如权利要求1所述的方法,其特征在于,(3),计算包括T层的泊松伽马置信自编码网络初始参数,其实现如下:3a)对于输入的Ve×J维文本矩阵Xt,确定第1层至第T层全局主题参数矩阵Φ(1),Φ(2),...,Φ(t),...,Φ(T),其中Φ(t)表示第t层D(t-1)×D(t)维全局主题参数矩阵,t=1,2,…,T,D(t)表示第t层全局主题参数矩阵Φ(t)包括的主题总个数;当t=1时,D(0)=Ve;3b)定义第t层全局主题重构参数为Ve×D(t)维矩阵当t=1时,将Ve×J维文本矩阵Xt中每一个相应的文本Ve维向量分别记为一个样本,并将V×J维文本矩阵Xt中第j个样本记为3c)将第t层全局主题重构参数矩阵的第k(t)列记为Ve维向量k(t)=1,2,3,...,D(t),将中第v个元素记为表示最终词汇表中第v个单词出现的概率,且满足3d)将Ve×J维文本矩阵Xt中第j个样本Xt_j表示成:其中,表示第t层全局主题重构参数矩阵的第k(t)个主题,k(t)=1,2,3,...,D(t),表示第j个样本对应第k(t)个主题的权重,并将这D(t)个元素合并成D(t)维变量权重向量3e)j分别取1至J,重复执行3d),得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量将至这J个向量合并为文本矩阵Xt的第t层D(t)×J维变量权重矩阵θ(t);3f)令t分别取1至T,重复执行3e),得到文本矩阵Xt的第1层变量权重矩阵θ(1)至第T层变量权重矩阵θ(T);3g)初始化超参数及共享参数,并分别计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j;3h)计算文本矩阵Xt的第j列文本的第1层变量权重向量和图像特征矩阵Xi的第j列文本的第1层变量权重向量并使用和初始化主题参数4.如权利要求3所述的方法,其特征在于,3g)中初始化超参数及共享参数,并分别计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j,其实现如下:3g1)初始化超参数及共享参数:其中,为文本矩阵Xt和图像特征矩阵Xi的第t层共享变量权重矩阵,的第j列表示为为文本矩阵Xt和图像特征矩阵Xi的第t层共享全局主题参数矩阵,的第k(t)列表示为~表示服从,Gam表示Gamma分布,Dir表示狄利克雷分布;表示的第k(t)个主题的先验分布参数,表示共享变量权重矩阵对应的先验分布参数,3g2)计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j:其中,其中,ki_j表示图像特...

【专利技术属性】
技术研发人员:陈渤武嘉文王超杰刘宏伟
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1