基于深层主题自编码模型的多模态检索方法技术

技术编号：22075927 阅读：22 留言：0更新日期：2019-09-12 14:12

本发明专利技术公开了一种基于深层主题自编码模型的多模态检索方法，主要解决现有技术检索性能低的问题，其实现方案是：确定J张图像和J个相应的文本为数据集，其中每个相应的文本为对应图像包括的若干个单词；对数据集进行预处理得到文本矩阵和图像特征矩阵作为训练数据；建立包括T层的泊松伽马置信自编码网络，并得到文本矩阵的每一层变量权重矩阵；利用训练数据去更新的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵；根据训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵，以图像特征矩阵为输入，得到文本矩阵的预测单词矩阵，即为多模态检索结果。本发明专利技术提高了检索的性能，可用于文本‑图像检索。

Multi-modal Retrieval Method Based on Deep Topic Self-coding Model

全部详细技术资料下载

【技术实现步骤摘要】
基于深层主题自编码模型的多模态检索方法
本专利技术属于图像处理
，特别涉及一种多模态检索方法，适用于快速挖掘图像-文本两种不同模态的深层联系、提取联合特征，并利用所提取的联合特征对文本-图像进行检索。
技术介绍
多模态检索技术是利用联合学习不同模态特征，并挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成；多模态泊松伽马置信网络Multimodal-PGBN是一种基于贝叶斯框架的在线深层主题模型，该模型拥有多层网络结构，能够快速提取出数据的多层特征，在文本处理上优于传统主题模型；同时Multimodal-PGBN模型不仅可以应用于文本处理，还可以应用于图像处理。多模态学习技术是指，联合学习不同模态特征，挖掘不同模态特征之间的联系，得到包含多模态信息的联合特征，做到不同模态数据之间相互生成；基于泊松伽马置信网络的文本-图像多模态学习方法的主要思想为：利用泊松伽马置信网络发掘不同模态隐层之间由深到浅的联系，同时得到一个包含多模态信息的联合特征表示用于检索。KSohn，WShang，HLee等人在其发表的论文“Improvedmultimodaldeeplearningwithvariationofinformation”(InternationalConferenceonNeuralInformationProcessingSystems,2014:2141-2149)中提出了一种基于深度神经网络的多模态检索方法，该种基于深度神经网络的多模态检索方法首先构建了多个基于不同模态特征的受限制玻尔兹曼机深度神经网络，受限制玻...

【技术保护点】
1.一种基于在线深层主题模型的多模态检索方法，其特征在于，包括如下：(1)确定J张图像和J个相应的文本为数据集，其中，每个相应的文本为对应图像包括的若干个单词，其中，J为大于1的正整数；(2)对数据集进行特征提取，得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg；(3)计算包括T层的泊松伽马置信自编码网络初始参数，其中，T为大于1的正整数；(4)计算文本矩阵的每一层共享变量权重矩阵

【技术特征摘要】
1.一种基于在线深层主题模型的多模态检索方法，其特征在于，包括如下：(1)确定J张图像和J个相应的文本为数据集，其中，每个相应的文本为对应图像包括的若干个单词，其中，J为大于1的正整数；(2)对数据集进行特征提取，得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg；(3)计算包括T层的泊松伽马置信自编码网络初始参数，其中，T为大于1的正整数；(4)计算文本矩阵的每一层共享变量权重矩阵(5)将数据集划分为L个迷你块作为训练数据，利用训练数据和共享变量权重矩阵更新Φi和Φt，直到达到设定的训练次数，得到训练完成的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵(6)将训练得到的图像特征矩阵的最优全局主题参数矩阵和文本矩阵的最优全局主题参数矩阵作为泊松伽马置信自编码网络测试参数，把图像特征矩阵Xi输入到该网络，得到文本矩阵的预测单词矩阵该预测单词矩阵为多模态检索结果。2.如权利要求1所述的方法，其特征在于，(2)中对数据集进行特征提取，得到文本矩阵Xt、图像特征矩阵Xi及图像的边缘信息矩阵Xg，其实现如下：2a)设定一个Nj×2维矩阵为第j个词汇表，其中Nj×2维矩阵中第1列分别为第j张图像的Nj个单词，Nj×2维矩阵中第2列分别为第1列相应单词在第j张图像中出现的次数，设Nj表示第j张图像包括的单词总个数，其中j＝1,2,…,J,Nj＞0；2b)令j的值加1，设定第j张图像的Nj个单词中Q个单词在第j-1个词汇表内出现，将第j张图像的Nj个单词中的Q个单词在第j-1个词汇表内相应单词出现的次数加1，0≤Q≤Nj；2c)对Nj-1×2维矩阵增加Nj-Q行，使其变换为(Nj-1+Nj-Q)×2维矩阵，以构成第j个词汇表，其中(Nj-1+Nj-Q)×2维矩阵中的第1列由第j-1张图像的Nj-1个单词和第j张图像剩余的Nj-Q个单词构成，(Nj-1+Nj-Q)×2维矩阵中第2列为第1列Nj-1+Nj-Q个单词在第j-1张图像和第j张图像中对应出现的次数；2d)重复执行2b)到2c)，直到得到第J个词汇表，即J个相应的文本词汇表，该J个相应的文本词汇表中包括有Vo个单词，Vo＞0；2e)对Vo个单词按照每个单词出现的次数由高到低进行排序，选取排序后出现次数最多的前Ve个单词作为最终词汇表，该最终词汇表包括Ve个单词，其中Ve＜Vo；2f)确定一个Ve×2维矩阵，该Ve×2维矩阵中第1列为最终词汇表中的Ve个词汇；设定第j张图像的Nj个单词中有Q'个单词在最终词汇表内出现；2g)设Ve×2维矩阵中第2列初始值为0，在Ve×2维矩阵中第1列找到相应的Q'个单词，并将Q'个单词在Ve×2维矩阵中第2列相应值分别加1，得到的Ve×2维矩阵第2列作为第j个相应的文本Ve维向量，其余Ve-Q'个单词在Ve×2维矩阵中第2列的对应值为0，即最终词汇表中不存在这些单词；0≤Q'≤Nj；2h)令j的值分别取1至J，重复执行2g)，直到得到第1个相应的文本Ve维向量至第J个相应的文本Ve维向量，并将该第1个相应的文本Ve维向量至第J个相应的文本Ve维向量记为Ve×J维文本矩阵Xt；2i)用尺度不变特征变换算法提取待训练数据中每幅图像的特征，得到Vi×J维图像特征矩阵Xi，其中J为图像总张数，Vi为每幅图像特征的维度；2j)通过vgg16算法提取图像特征矩阵Xi的边缘信息矩阵Xg，其中第j个图像对应的边缘信息向量为Xg_j。3.如权利要求1所述的方法，其特征在于，(3)，计算包括T层的泊松伽马置信自编码网络初始参数，其实现如下：3a)对于输入的Ve×J维文本矩阵Xt，确定第1层至第T层全局主题参数矩阵Φ(1),Φ(2),...,Φ(t),...,Φ(T)，其中Φ(t)表示第t层D(t-1)×D(t)维全局主题参数矩阵，t＝1,2,…,T，D(t)表示第t层全局主题参数矩阵Φ(t)包括的主题总个数；当t＝1时，D(0)＝Ve；3b)定义第t层全局主题重构参数为Ve×D(t)维矩阵当t＝1时，将Ve×J维文本矩阵Xt中每一个相应的文本Ve维向量分别记为一个样本，并将V×J维文本矩阵Xt中第j个样本记为3c)将第t层全局主题重构参数矩阵的第k(t)列记为Ve维向量k(t)＝1,2,3,...,D(t)，将中第v个元素记为表示最终词汇表中第v个单词出现的概率，且满足3d)将Ve×J维文本矩阵Xt中第j个样本Xt_j表示成：其中，表示第t层全局主题重构参数矩阵的第k(t)个主题，k(t)＝1,2,3,...,D(t)，表示第j个样本对应第k(t)个主题的权重，并将这D(t)个元素合并成D(t)维变量权重向量3e)j分别取1至J，重复执行3d)，得到第1个样本的第t层变量权重向量至第J个样本的第t层变量权重向量将至这J个向量合并为文本矩阵Xt的第t层D(t)×J维变量权重矩阵θ(t)；3f)令t分别取1至T，重复执行3e)，得到文本矩阵Xt的第1层变量权重矩阵θ(1)至第T层变量权重矩阵θ(T)；3g)初始化超参数及共享参数，并分别计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j；3h)计算文本矩阵Xt的第j列文本的第1层变量权重向量和图像特征矩阵Xi的第j列文本的第1层变量权重向量并使用和初始化主题参数4.如权利要求3所述的方法，其特征在于，3g)中初始化超参数及共享参数，并分别计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j，其实现如下：3g1)初始化超参数及共享参数：其中，为文本矩阵Xt和图像特征矩阵Xi的第t层共享变量权重矩阵，的第j列表示为为文本矩阵Xt和图像特征矩阵Xi的第t层共享全局主题参数矩阵，的第k(t)列表示为～表示服从，Gam表示Gamma分布，Dir表示狄利克雷分布；表示的第k(t)个主题的先验分布参数，表示共享变量权重矩阵对应的先验分布参数，3g2)计算图像特征矩阵Xi的第j列图像的自适应尺度参数ki_j和文本矩阵Xt中的第j列文本的自适应尺度参数kt_j：其中，其中，ki_j表示图像特...

【专利技术属性】
技术研发人员：陈渤，武嘉文，王超杰，刘宏伟，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人