当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于主题模型的跨模态检索方法技术

技术编号:10971084 阅读:120 留言:0更新日期:2015-01-30 00:50
本发明专利技术公开了一种基于主题模型的跨模态检索方法。它包括如下步骤:1)对数据库中各种类型模态数据提取特征和记录标签;2)基于主题的跨模态检索图模型的建立;3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。本发明专利技术引入跨模态主题和不同模态主题增强概念,并且利用了标签信息,既增强了主题建模的可解释性和灵活性,而且具有很好的可扩展性和判别性。

【技术实现步骤摘要】
一种基于主题模型的跨模态检索方法
本专利技术涉及跨模态检索,一种基于主题模型的跨模态检索方法。
技术介绍
如今,各种类型数据在互联网上广泛存在,如文本、图像、声音和地理位置数据等等。同一语义内容往往通过不同类型数据来进行表达,因此跨媒体检索成为一种需求。比如,根据文本去检索与文本所包含语义相关的图像,或者根据图像去检索与图像有关的文本新闻报道。现有的检索方法大多针对单一类型媒体数据,如文本检索文本或图像检索图像。最近,也出现了若干跨模态方法,但是这些跨模态检索方法大都是在同模态数据之间先做相似度计算,然后利用已知的不同类型模态数据之间存在的对应关系来实现跨模态数据检索,这些方法很少直接关联不同类型模态数据进行跨模态检索。在同一类型模态数据间进行关联比较的检索方法,其无法学习得到跨模态数据之间关系,查询效果不理想。因此,有必要提出直接建立不同模态间关联关系的跨模态检索方法。但是,不同模态数据由于底层特征构成差异巨大,表达含义丰富,使得跨媒体检索面临“语义鸿沟”的难题。为了克服语义鸿沟,需要学习跨媒体数据在语义层面的关联性。基于这样的认识,一些方法将不同模态的数据看作随机变量,将其映射到一个隐含空间,在隐含空间来度量不同类型模态数据的相似性。为了寻找一种更好的映射,出现了线性映射、非线性映射、稀疏映射和最大间隔映射等方法。但是这些基于映射的方法完全依赖于数据的统计特性,对跨模态数据内在机理的分析较为欠缺,学习得到的隐含空间不具有很好可解释性。作为一种文本聚类的方法,主题模型能够挖掘文本中隐性语义。近年来,主题模型在图像分析领域也取得了较好成功。因此,本专利技术提出一种基于主题模型的跨模态检索方法。基于主题的跨模态检索方法,将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述基于映射方法不同,基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间,学习得到的“主题”具有较强的可解释性。
技术实现思路
本专利技术的目的在于提供一种基于主题模型的跨模态检索方法,以便可以通过一种模态类型数据直接检索到与之相关的另外一种或几种模态类型的数据。基于主题模型的跨模态检索方法包括如下步骤:1)对数据库中各种类型模态数据提取特征和记录标签;2)构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,最终进行跨模态之间相似性度量,实现跨模态检索;3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。所述的步骤1)包括:1)对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中名词,将数据库中出现过的所有单词构成字典,统计字典中单词出现在每个文本中次数,用字典中单词出现的次数作为每个文本数据的表达;2)对数据库内所有其他类型模态的数据提取底层特征作为单词,并进行聚类,用聚类中心点代表底层特征,形成该模态数据的字典;统计字典中每个单词出现在该模态数据中的次数,用字典中单词出现的次数作为每个模态数据的表达;3)对数据库中不同类型模态数据,统计它们的标签信息,即记录每一个模态数据所属于的类别。所述的步骤2)包括:1)对于具有相关关系的不同模态数据,它们之间的相似性强弱通过其主题比例分布度量如下:假设πi和πj是具有相关关系的两种不同模态数据的主题比例分布,这两个不同模态数据之间的相似性通过定义在其主题空间的势函数来计算,势函数的定义如公式(1)所示,Ψ(πi,πj)=exp(-λf(πi,πj))(1)其中λ是一个非负缩放比例参数,f(πi,πj)是对称KL-divergence距离,定义为其中,K是πi和πj的维度,即主题数目;2)利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,由于相互关联的不同模态数据组成的跨模态文档具有一个共同的标签,因此通过跨模态文档经验主题频率向量采用softmax函数回归推理得到标签信息,计算如公式(2)所示,跨模态文档的经验主题频率由其所包含各种类型模态数据的经验主题频率拼接而成:其中,为跨模态文档d的经验主题频率向量,M为跨模态文档d所包含的模态个数,为模态m所对应数据的经验主题频率,softmax函数的表达式为所述的步骤3)包括:1)由系统自动设定,或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β1…M统一初始值β、不同模态数据相关关系比例系数λ初始值,以及各个类别初始化类别参数η1…C统一初始值η,并且设定好迭代次数、收敛条件等参数;2)对于包含相互关联的不同模态数据,称之为一个跨模态文档。对各个跨模态文档d中模态类型为m所对应数据中每一个单词xdmn,随机分配K个主题中的某个主题作为单词xdmn的主题zdmn;3)对于各个跨模态文档d,统计模态类型为m所对应数据在各个主题k上所分配单词数ndmk;4)对于模态类型为m所对应数据,统计单词v属于某个主题k的频率nmkv;5)已知模态类型为m所对应数据在各个主题k上所分配单词数ndmk,主题k的主题比例分布由公式(3)计算得到:6)更新各个跨模态文档d中所包含模态类型为m的对应数据中每一个单词xdmn的主题分配zdmn,根据除xdmn以外其他单词具有主题通过按如下公式(4)完成,公式(4)表示概率采样跨模态文档d中模态m数据的第n个单词的主题zdmn:其中,表示整个文档集合;ndmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数,计数时不包含xdmn这一单词;nmkv是模态类型为m对应数据所包含主题k中单词v出现的频率,计数时不包含xdmn这一单词;是单词xdmn所包含主题zdmn为k时跨模态文档d的经验主题频率向量,是排除单词xdmn主题分配时跨模态文档d的经验主题频率向量;是排除单词xdmn主题分配时跨模态文档d中模态m的数据的主题比例分布,是单词xdmn所包含主题zdmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布;7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后,按照以下公式(5)(6)(7)来更新参数α,β1…M和η1…C:其中ε设为0.001(7);8)检查算法是否满足收敛条件,如不满足返回3);9)算法收敛后,则可得到每个跨模态文档所包含的各种模态类型数据中所有单词主题分布,于是模态类型为m的数据所包含单词v在主题k上分布可通过如下公式(8)计算:所述的步骤4)包括:1)假设给定模态类型为p的检索样例数据X={x1,x2,…xN},要检索与之相关的模态类型为q的数据,首先计算模态类型为q的所有数据的主题比例,然后计算在此主题比例下生成模态类型为p的检索样例数据X={x1,x2,…xN}的可能性大小,记模态类型为q的第i个数据产生X的概率为si,通过如下公式(9)来计算这一生成概率:其中,πi是模态类型为q的第i个数据的主题比例,p(z=k|πi)是模态类型为p数据的主题-单词分布2)按照si对模态类型为q的数据进行排序,本文档来自技高网
...
一种基于主题模型的跨模态检索方法

【技术保护点】
一种基于主题模型的跨模态检索方法,其特征在于包括如下步骤:1)对数据库中各种类型模态数据提取特征和记录标签;2)构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,最终进行跨模态之间相似性度量,实现跨模态检索;3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。

【技术特征摘要】
1.一种基于主题模型的跨模态检索方法,其特征在于包括如下步骤:1)对数据库中各种类型模态数据提取特征和记录标签;2)构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,最终进行跨模态之间相似性度量,实现跨模态检索;3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;该步骤具体包括:3.1)由系统自动设定,或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β1...M统一初始值β、不同模态数据相关关系比例系数λ初始值,以及各个类别初始化类别参数η1...C统一初始值η,并且设定好包括迭代次数、收敛条件在内的参数;3.2)对于包含相互关联的不同模态数据,称之为一个跨模态文档;对各个跨模态文档d中模态类型为m所对应数据中每一个单词xdmn,随机分配K个主题中的某个主题作为单词xdmn的主题zdmn;3.3)对于各个跨模态文档d,统计模态类型为m所对应数据在各个主题k上所分配单词数ndmk;3.4)对于模态类型为m所对应数据,统计单词v属于某个主题k的频率nmkv;3.5)已知模态类型为m所对应数据在各个主题k上所分配单词数ndmk,主题k的主题比例分布由公式(3)计算得到:3.6)更新各个跨模态文档d中所包含模态类型为m的对应数据中每一个单词xdmn的主题分配zdmn,根据除xdmn以外其他单词具有主题通过按如下公式(4)完成,公式(4)表示概率采样跨模态文档d中模态m数据的第n个单词的主题zdmn:其中,表示整个文档集合;ndmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数,计数时不包含xdmn这一单词;nmkv是模态类型为m对应数据所包含主题k中单词v出现的频率,计数时不包含xdmn这一单词;是单词xdmn所包含主题zdmn为k时跨模态文档d的经验主题频率向量,是排除单词xdmn主题分配时跨模态文档d的经验主题频率向量;是排除单词xdmn主题分配时跨模态文档d中模态m的数据的主题比例分布,是单词xdmn所包含主题zdmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布;3.7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后,按照以下公式(5)(6)(7)来更新参数α,β1...M和η1...C:

【专利技术属性】
技术研发人员:庄越挺吴飞李玺王彦斐宋骏
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1