当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多模态信息融合分析的跨媒体检索方法技术

技术编号:2844834 阅读:411 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于多模态信息融合分析的跨媒体检索方法。利用该方法可以对多模态信息融合分析进行多媒体语义理解,从而实现基于内容的多媒体文档检索、图像检索、声音检索和文本检索。用户可以通过提交任意的模态的检索例子去检索任意模态的媒体对象或者多媒体文档。比如为了检索图像,用户既可以提交图像作为检索例子进行检索,也可以提交声音或者文本或者它们的组合作为检索例子进行检索。由于该方法在进行多媒体语义理解的时候,不仅仅依靠关键字,而是将多媒体文档内全体媒体对象进行融合分析后综合各种模态媒体对象所携带的信息进行语义理解,因此检索效果更好;由于检索例子和返回结果可以是不同模态的,因此功能更强大,适用更广泛。

【技术实现步骤摘要】

本专利技术涉及多媒体检索,尤其涉及一种。
技术介绍
多媒体文档是当前非常常见的文件类型,它由多个不同模态的媒体对象(包括音频、图像和文本等)组成,并具有一定的语义,如多媒体百科全书、网页和Microsoft PowerPoint格式的幻灯片等都属于多媒体文档。一般来说,多媒体文档具有两个特点。第一,组成结构复杂,多种模态的媒体对象同时存在于多媒体文档内部;第二,同一多媒体文档内部不同模态的媒体对象在语义上是互补的,多媒体文档的语义是由其内部所有媒体对象共同表达的。因此当某一种媒体对象具有二义性的时候,作为一个整体,多媒体文档的语义往往是明确的。由于传统的检索方法往往是针对单一模态媒体对象设计的,没有综合考虑多媒体文档内部各个模态媒体对象所蕴涵的互补信息,因此不能很好地综合分析多媒体文档内不同模态的各个媒体对象以理解多媒体语义,从而无法很好适应用户需求。目前,随着存储技术和网络技术的发展,包括文本,图片,声音片段以及多媒体文档等在内的可以被用户访问到的多媒体文件越来越多。检索技术可以帮助用户在海量的数据中快速找到自己需要的内容,成为计算机应用技术中越来越重要的领域。传统的检索技术可以分为基于关键字的检索和基于内容的检索。在基于关键字的检索系统中,需要事先对多媒体对象进行标注。但是由于目前存在的媒体对象数量巨大,因此标注过程工作量浩繁;而由于标注内容不可避免地受到标注者主观因素的影响,针对同一个多媒体对象,不同的标注者可能会标注不同的关键字,因此关键字往往不能完全客观地反映多媒体对象所蕴涵的全部语义。基于内容的检索系统则不需要对多媒体对象进行标注,用户可以提交一个检索例子对多媒体对象进行检索。但是传统的基于内容的检索技术存在两个弱点一是用户只能检索与查询例子相同模态的媒体对象,也就是说只能通过图像例子检索图像或者通过音频例子检索音频,而无法通过音频例子去检索图像或者通过图像例子检索音频;二是媒体对象的底层特征和高层语义之间存在语义鸿沟,因此查准率不是很理想。考虑到媒体对象往往是以多媒体文档的形式出现,而同一多媒体文档内媒体对象往往具有相同的语义,为了跨越语义鸿沟,可以利用不同模态媒体对象的语义互补性来消除歧义,更好地理解多媒体语义。同时,为了满足用户跨媒体查询的需要,如通过声音例子查询图像,找到一种基于内容的跨媒体检索方法颇有意义。
技术实现思路
本专利技术的目的在于提供一种基于内容的多媒体文档检索和跨媒体检索的方法,其特征在于包括如下步骤1)基于多模态信息融合分析对多媒体语义进行理解;2)用户提交数据库内已有的或数据库以外的媒体对象作为查询例子进行检索;3)根据用户的相关反馈,进行二次检索;4)根据用户的相关反馈,对多媒体语义空间进行维护。所述的基于多模态信息融合分析对多媒体语义进行理解,其步骤如下1)对数据库内所有音频片段提取均方根RMS、截止频率Rolloff、过零率ZCR和质心Centroid四个特征,利用动态时间伸缩DTW算法计算所有音频片段两两之间的距离,并将所有的距离归一化;2)对数据库内所有的图像对象提取颜色和纹理特征,计算所有图像对象两两之间的欧氏距离,并将所有的距离归一化;3)对数据库内所有的文本媒体对象采用单文本词汇频率/逆文本频率(TF/IDF)方法进行矢量化,计算所有文本媒体对象两两之间的距离,并将所有的距离归一化;4)通过非线性的方法对每个多媒体文档内的声音对象,文本对象和图像对象所携带的信息进行融合分析,从而得到多媒体文档两两之间的距离;5)建立一个多媒体文档关联图。每个多媒体文档是该图上的一个顶点,任意两点之间有一条加权边,权重为步骤4所得到的这两个顶点所对应多媒体文档之间的距离;6)重构多媒体文档关联图,方法是首先设定一个阈值,然后将权重大于这一阈值的边的权全部设为无穷大。然后对所有的边,用两点之间的最短路径作为该边的新权重;7)采用多向度量尺法(Multidimensional Scaling)将多媒体文档关联图投影到多媒体语义空间,该空间可以保持多媒体文档关联图的拓扑关系,所有的多媒体文档都在该空间内有唯一的坐标并被该坐标所指向;所有的媒体对象都被它们所属多媒体文档的坐标所指向。用户提交数据库内已有的媒体对象作为查询例子进行检索的方法,其步骤如下首先找到该媒体对象在多媒体语义空间内的坐标,然后根据全体媒体对象在多媒体语义空间内的坐标,计算查询例子与其他所有媒体对象在多媒体语义空间内的欧氏距离,并根据该距离,将所有媒体对象进行从小到大排序,返回距离最近的目标模态的媒体对象;用户提交数据库内以外的媒体对象作为查询例子进行检索方法的步骤如下1)找到数据库内和查询例子相同模态的全体媒体对象,计算这些媒体对象和查询例子的底层特征距离;2)根据底层特征距离,找到数据库内和查询例子最接近的k个媒体对象,将这些媒体对象在多媒体语义空间的质心作为检索例子的坐标,按照前面所述的用户提交数据库内已有的媒体对象作为查询例子进行检索的方法进行跨媒体检索。根据用户的相关反馈,进行二次检索的步骤如下返回查询结果之后,用户对查询结果进行评价,并标注一些他们认为正确的结果,系统将用户标注为正例的那些媒体对象在多媒体语义空间内的质心作为检索例子的坐标,计算查询例子与其它所有媒体对象在多媒体语义空间内的欧氏距离,并根据该距离,将所有媒体对象进行排序,返回距离最近的目标模态的媒体对象。根据用户的相关反馈,对多媒体语义空间进行维护的步骤如下1)根据用户的相关反馈历史记录,周期性动态修改多媒体文档关联图并重新构造多媒体语义空间,使之更加准确地反映多媒体语义关系;2)根据用户的相关反馈,将数据库之外的查询例子映射到多媒体语义空间,从而完成数据库更新。本专利技术与
技术介绍
相比,具有的有益的效果是本专利技术提出了一套新的基于内容的检索方法。由于该方法采用了多模态信息融合机制,充分利用不同模态媒体对象所携带的信息,跨越语义鸿沟的能力更强,因此具有更高的查准率。同时,本方法还公开了一种跨媒体检索的方法,用户可以通过提交任何形式的例子(包括图像、文本、声音或者多媒体文档)去查询任何模态的媒体对象或者多媒体文档,查询例子和返回结果可以是不同模态的,因此比传统的基于内容的检索系统功能更加强大。附图说明图1是本专利技术的系统框架图;图2是本专利技术的一次检索结果。该图显示内容是用户通过提交一段汽车引擎的声音去查询图像返回的前9个结果。具体实施例方式本专利技术通过多模态信息融合分析对多媒体文档进行语义理解,为所有的多媒体文档建立统一的索引,不同模态的多媒体对象可以被其所属的多媒体文档的坐标所指向,从而为不同模态的多媒体对象建立了统一的索引,实现对多媒体文档的检索和跨媒体检索。本专利技术提出的基于内容的检索方法实例如图1所示,具体说明如下1)预处理模块该模块实现对数据库内的媒体对象进行语义理解和建立统一的索引。该模块主要包括特征提取、多模态信息融合和多媒体语义空间建立三个主要算法。具体说明如下a多媒体对象特征提取和相似度计算算法;该算法对不同模态的媒体对象分别提取特征并计算底层特征距离。对于数据库内的所有图像对象,提取纹理和颜色特征,然后计算所有图像对象两两之间的欧氏距离。对于所有声音对象,提取均方根、过零率、截止频率和质心四个特征,然后利用动态时间本文档来自技高网
...

【技术保护点】
一种基于多模态信息融合分析的跨媒体检索方法,其特征在于包括如下步骤:1)对多模态信息融合分析,进行多媒体语义理解;2)用户提交数据库内已有的或数据库以外的媒体对象作为查询例子进行检索;3)根据用户的相关反馈,进行二次 检索;4)根据用户的相关反馈,对多媒体语义空间进行维护。

【技术特征摘要】
1.一种基于多模态信息融合分析的跨媒体检索方法,其特征在于包括如下步骤1)对多模态信息融合分析,进行多媒体语义理解;2)用户提交数据库内已有的或数据库以外的媒体对象作为查询例子进行检索;3)根据用户的相关反馈,进行二次检索;4)根据用户的相关反馈,对多媒体语义空间进行维护。2.根据权利要求1所述的一种基于多模态信息融合分析的跨媒体检索方法,其特征在于,所述的对多模态信息融合分析,进行多媒体语义理解,其步骤如下1)对数据库内所有音频片段提取均方根、截止频率、过零率和质心四个特征,利用动态时间伸缩算法计算所有音频片段两两之间的距离,并将所有的距离归一化;2)对数据库内所有的图像对象提取颜色和纹理特征,计算所有图像对象两两之间的欧氏距离,并将所有的距离归一化;3)对数据库内所有的文本媒体对象采用单文本词汇频率/逆文本频率方法进行矢量化,计算所有文本媒体对象两两之间的距离,并将所有的距离归一化;4)通过非线性的方法对每个多媒体文档内的声音对象,文本对象和图像对象所携带的信息进行融合分析,从而得到多媒体文档两两之间的距离;5)建立一个多媒体文档关联图。每个多媒体文档是该图上的一个顶点,任意两点之间有一条加权边,权重为步骤4所得到的这两个顶点所对应的多媒体文档之间的距离;6)重构多媒体文档关联图,方法是首先设定一个阈值,然后将权重大于这一阈值的边的权全部设为无穷大,然后对所有的边,用两点之间的最短路径作为该边的新权重;7)采用多向度量尺法将多媒体文档关联图投影到多媒体语义空间,该空间可以保持多媒体文档关联图的拓扑关系,所有的多媒体文档都在该空间内有唯一的坐标并被该坐标所指向;所有的媒体对象都被它们所属多媒体文档的坐标所指向。3.根据权利要求1所述的一种基于多模态信息融...

【专利技术属性】
技术研发人员:潘云鹤庄越挺吴飞杨易
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1