一种基于主题模型的跨模态检索方法技术

技术编号：10971084 阅读：120 留言：0更新日期：2015-01-30 00:50

本发明专利技术公开了一种基于主题模型的跨模态检索方法。它包括如下步骤：1）对数据库中各种类型模态数据提取特征和记录标签；2）基于主题的跨模态检索图模型的建立；3）采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型；4）用户提交一种类型模态的数据，并提取特征后，利用跨模态检索模型返回与之相关的另外一种类型模态数据；5）利用跨模态数据的真实对应信息和标签信息，对跨模态检索模型同时从对应性和区别性两方面来进行评价。本发明专利技术引入跨模态主题和不同模态主题增强概念，并且利用了标签信息，既增强了主题建模的可解释性和灵活性，而且具有很好的可扩展性和判别性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题模型的跨模态检索方法
本专利技术涉及跨模态检索，一种基于主题模型的跨模态检索方法。
技术介绍
如今，各种类型数据在互联网上广泛存在，如文本、图像、声音和地理位置数据等等。同一语义内容往往通过不同类型数据来进行表达，因此跨媒体检索成为一种需求。比如，根据文本去检索与文本所包含语义相关的图像，或者根据图像去检索与图像有关的文本新闻报道。现有的检索方法大多针对单一类型媒体数据，如文本检索文本或图像检索图像。最近，也出现了若干跨模态方法，但是这些跨模态检索方法大都是在同模态数据之间先做相似度计算，然后利用已知的不同类型模态数据之间存在的对应关系来实现跨模态数据检索，这些方法很少直接关联不同类型模态数据进行跨模态检索。在同一类型模态数据间进行关联比较的检索方法，其无法学习得到跨模态数据之间关系，查询效果不理想。因此，有必要提出直接建立不同模态间关联关系的跨模态检索方法。但是，不同模态数据由于底层特征构成差异巨大，表达含义丰富，使得跨媒体检索面临“语义鸿沟”的难题。为了克服语义鸿沟，需要学习跨媒体数据在语义层面的关联性。基于这样的认识，一些方法将不同模态的数据看作随机变量，将其映射到一个隐含空间，在隐含空间来度量不同类型模态数据的相似性。为了寻找一种更好的映射，出现了线性映射、非线性映射、稀疏映射和最大间隔映射等方法。但是这些基于映射的方法完全依赖于数据的统计特性，对跨模态数据内在机理的分析较为欠缺，学习得到的隐含空间不具有很好可解释性。作为一种文本聚类的方法，主题模型能够挖掘文本中隐性语义。近年来，主题模型在图像分析领域也取得了较好成功。因此，本专利技术...
一种基于主题模型的跨模态检索方法

【技术保护点】
一种基于主题模型的跨模态检索方法，其特征在于包括如下步骤：1)对数据库中各种类型模态数据提取特征和记录标签；2)构建基于主题的跨模态检索图模型，建立不同模态数据所包含主题之间的相关关系，同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息，最终进行跨模态之间相似性度量，实现跨模态检索；3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型；4)用户提交一种类型模态的数据，并提取特征后，利用跨模态检索模型返回与之相关的另外一种类型模态数据；5)利用跨模态数据的真实对应信息和标签信息，对跨模态检索模型同时从对应性和区别性两方面来进行评价。

【技术特征摘要】
1.一种基于主题模型的跨模态检索方法，其特征在于包括如下步骤：1)对数据库中各种类型模态数据提取特征和记录标签；2)构建基于主题的跨模态检索图模型，建立不同模态数据所包含主题之间的相关关系，同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息，最终进行跨模态之间相似性度量，实现跨模态检索；3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型；该步骤具体包括：3.1)由系统自动设定，或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β1...M统一初始值β、不同模态数据相关关系比例系数λ初始值，以及各个类别初始化类别参数η1...C统一初始值η，并且设定好包括迭代次数、收敛条件在内的参数；3.2)对于包含相互关联的不同模态数据，称之为一个跨模态文档；对各个跨模态文档d中模态类型为m所对应数据中每一个单词xdmn，随机分配K个主题中的某个主题作为单词xdmn的主题zdmn；3.3)对于各个跨模态文档d，统计模态类型为m所对应数据在各个主题k上所分配单词数ndmk；3.4)对于模态类型为m所对应数据，统计单词v属于某个主题k的频率nmkv；3.5)已知模态类型为m所对应数据在各个主题k上所分配单词数ndmk，主题k的主题比例分布由公式(3)计算得到：3.6)更新各个跨模态文档d中所包含模态类型为m的对应数据中每一个单词xdmn的主题分配zdmn，根据除xdmn以外其他单词具有主题通过按如下公式(4)完成，公式(4)表示概率采样跨模态文档d中模态m数据的第n个单词的主题zdmn：其中，表示整个文档集合；ndmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数，计数时不包含xdmn这一单词；nmkv是模态类型为m对应数据所包含主题k中单词v出现的频率，计数时不包含xdmn这一单词；是单词xdmn所包含主题zdmn为k时跨模态文档d的经验主题频率向量，是排除单词xdmn主题分配时跨模态文档d的经验主题频率向量；是排除单词xdmn主题分配时跨模态文档d中模态m的数据的主题比例分布，是单词xdmn所包含主题zdmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布；3.7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后，按照以下公式(5)(6)(7)来更新参数α，β1...M和η1...C：

【专利技术属性】
技术研发人员：庄越挺，吴飞，李玺，王彦斐，宋骏，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人