多媒体信息检索方法和系统技术方案

技术编号:9238475 阅读:156 留言:0更新日期:2013-10-10 02:32
本发明专利技术公开了一种多媒体信息检索方法及系统,所述方法包括:提取当前多媒体信息的特征数据,根据提取的特征数据得到所述当前多媒体信息的特征比特向量;对当前多媒体信息的特征比特向量进行分割,得到所述当前多媒体信息的k个子向量;针对所述当前多媒体信息的每个子向量,分别确定对应该子向量的候选集合;对于得到的候选集合中的各向量标识,分别在多媒体特征数据库中查找出对应的特征比特向量;并计算所述当前多媒体信息的特征比特向量与查找到的特征比特向量之间的汉明距离,将汉明距离符合设定条件的特征比特向量所对应的多媒体信息作为检索结果输出。利用上述方法通过建立分段索引结构对特征比特向量进行索引,能够大大提高多媒体信息检索速度和检索效率。

【技术实现步骤摘要】
多媒体信息检索方法和系统
本专利技术涉及计算机领域,尤其涉及一种多媒体信息检索方法和系统。
技术介绍
近年来,随着多媒体技术和计算机技术的飞速发展、大规模的多媒体信息越来越多地出现在众多的研究和应用领域。为了使这些庞杂的数据中所包含的信息能够得到有效地访问和利用,传统的基于文本的检索技术已经无法满足用户日益增长的需求,基于内容的检索技术便应运而生。基于内容的检索方法需要先提取出多媒体的特征数据建立特征数据库,然后将对多媒体信息的检索转换为对特征数据的近邻检索。对于大规模多媒体信息而言,其特征数据也是大规模的。这就需要有与特征数据相对应的合适的索引方法来组织特征数据,加快检索的速度。然而,多媒体信息的特征数据往往是高维的向量数据(简称高维向量),传统的适应于低维数据的索引机制难以适应于基于内容检索的要求,这也就是通常所说的高维数据的索引维数灾难现象。为了降低索引维数灾难的影响,更好的实现高维数据索引,从而提高多媒体信息的检索性能,目前在研究领域,通常采用哈希方法将高维向量映射成离散的比特向量,这可以大大节约高维向量的存储消耗和提高相似查找速度。在利用比特向量进行多媒体信息检索时,首先需本文档来自技高网...
多媒体信息检索方法和系统

【技术保护点】
一种多媒体信息检索方法,其特征在于,包括:提取当前多媒体信息的特征数据,将提取的特征数据转换为特征比特向量后,对其进行均匀分割,得到k个子向量,其中第i个子向量由所述特征比特向量均匀分割后的第i组元素组成;i为1~k的自然数;分别确定对应所述当前多媒体信息的各子向量的候选集合,其中,针对第i个子向量,具体过程包括:在预先确定的第i个索引结构的索引集中查找出与该第i个子向量相同的索引,并将查找出的索引所对应的向量标识集合作为对应该第i个子向量的候选集合;其中,第i个索引结构中,第i个子向量相同的待检索多媒体信息的特征比特向量的向量标识存储于同一向量标识集合中,且该向量标识集合的索引为该第i个子向...

【技术特征摘要】
1.一种多媒体信息检索方法,其特征在于,包括:提取当前多媒体信息的特征数据,将提取的特征数据转换为特征比特向量后,对其进行均匀分割,得到k个子向量,其中第i个子向量由所述特征比特向量均匀分割后的第i组元素组成;i为1~k的自然数;分别确定对应所述当前多媒体信息的各子向量的候选集合,其中,针对第i个子向量,具体过程包括:在预先确定的第i个索引结构的索引集中查找出与该第i个子向量相同的索引,并将查找出的索引所对应的向量标识集合作为对应该第i个子向量的候选集合;其中,第i个索引结构中,第i个子向量相同的待检索多媒体信息的特征比特向量的向量标识存储于同一向量标识集合中,且该向量标识集合的索引为该第i个子向量;对于得到的候选集合中的各向量标识,分别在多媒体特征数据库中查找出对应的特征比特向量;并计算所述当前多媒体信息的特征比特向量与查找到的特征比特向量之间的汉明距离,将汉明距离符合设定条件的特征比特向量所对应的多媒体信息作为检索结果输出;其中,第i个索引结构的确定方法,包括:针对每个待检索多媒体信息,将该待检索多媒体信息的特征比特向量进行均匀分割,得到该待检索多媒体信息的k个子向量;其中,该待检索多媒体信息的第i个子向量由所述特征比特向量分割后的第i组元素组成;i为1~k的自然数;将第i个子向量相同的待检索多媒体信息的特征比特向量的向量标识划分到同一向量标识集合中;并将该向量标识集合中的向量标识所对应的特征比特向量中的相同的第i个子向量,作为该向量标识集合的索引,并存储到第i个索引结构的索引集中。2.如权利要求1所述的方法,其特征在于,所述对于得到的候选集合中的各向量标识,分别在多媒体特征数据库中查找出对应的特征比特向量,具体包括:将得到的候选集合进行并集操作后,得到候选合并集合;对于所述候选合并集合中的每个向量标识,在所述多媒体特征数据库中查找出对应该向量标识的特征比特向量。3.如权利要求1或2所述的方法,其特征在于,所述汉明距离符合设定条件的特征比特向量具体为:与所述当前多媒体信息的特征比特向量的汉明距离小于等于q的特征比特向量,其中,所述q小于等于k。4.如权利要求3所述的方法,其特征在于,第i个索引结构具体为键/值Key/Value形式结构;其中,所述相同的第i个子向量作为Key,对应所述相同的第i个子向量的向量标识集合作为对应该Key的Value。5.一种多媒体信息检索系统,其特征在于,包括:特征比特向量确定模块,用于提取当前多媒体信息的特征数据,根据提取的特征数据得到所述当前多媒体信息的特征比特向量;特征比特向量分割模块,用于对所述特征比特向量确定模块得到的特征比特向量进行均匀分割,得到所述当前多媒体信息的k个子向量,其中第i个子向量由所述特征比特向量分割后的第i组元素组成;i为1~k的自然数;候选集合确定模块,用于针对所述特征比...

【专利技术属性】
技术研发人员:刘洁
申请(专利权)人:新浪网技术中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1