当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于耦合鉴别性字典的跨媒体哈希索引方法技术

技术编号:10973881 阅读:123 留言:0更新日期:2015-01-30 05:49
本发明专利技术公开了一种基于耦合鉴别性字典的跨媒体哈希索引方法。包括如下步骤:1)基于图结构对多个模态数据之间的关联关系进行建模;通过数据底层特征之间的欧氏距离确定同一模态内部的相似性,利用不同模态数据已知关联关系确定模态间的关联,利用数据所具有类别标签信息增强图结构上数据的鉴别性;2)在步骤1)中得到的图结构上数据的关联关系学习鉴别性的耦合字典;3)利用步骤2)中学习得到的耦合字典对不同模态的数据进行稀疏编码,并映射到统一的字典空间内;4)学习从字典空间到二值海明空间的哈希映射函数。本发明专利技术可以实现基于内容的海量数据的高效跨媒体检索,用户可以通过提交一种模态的检索例子去检索另外一种模态的媒体对象。

【技术实现步骤摘要】
一种基于耦合鉴别性字典的跨媒体哈希索引方法
本专利技术涉及跨媒体检索,尤其涉及一种基于海量数据的跨媒体高效索引方法。
技术介绍
随着互联网技术的高速发展和社交网络的风靡,互联网上的多媒体数据的数量正在以惊人的速度增长。多媒体数据具有如下几个特性1)由于多媒体数据具有复杂的语义,因此难以直接进行度量。为了实现多媒体数据的度量,一般是先对其媒体数据所具有的特征进行提取,然后将特征之间的相似度作为媒体数据之间的相似度。一般的,这些所提取的特征往往是高维的,因此,多媒体数据的检索问题就转变为了高维数据的检索问题。2)多媒体数据量十分庞大,传统的暴力线性搜索策略在处理大规模数据时候会产生极高时间复杂度,无法满足用户在线搜索需求。为了克服这一困难,现在主流海量高维数据检索方法一般采用哈希索引策略,也就是说,其用近似最近邻检索来代替传统精确最近邻检索。在哈希索引中,给定海量高维媒体数据,可通过哈希函数将每个媒体数据映射为简短哈希编码,于是可在哈希编码空间实现高维数据近似搜索。由于哈希编码的相似性计算非常高效,因此哈希索引在实现海量数据近似查询时能取得很高查询性能。3)多媒体数据中广泛存在多种媒体数本文档来自技高网...
一种基于耦合鉴别性字典的跨媒体哈希索引方法

【技术保护点】
一种基于耦合鉴别性字典的跨媒体哈希索引方法,其特征在于包括如下步骤:1)基于图结构对多个模态数据之间的关联关系进行建模;通过数据底层特征之间的欧氏距离确定同一模态内部的相似性,利用不同模态数据已知关联关系确定模态间的关联,利用数据所具有类别标签信息增强图结构上数据的鉴别性;2)在步骤1)中得到的图结构上数据的关联关系学习鉴别性的耦合字典;3)利用步骤2)中学习得到的耦合字典对不同模态的数据进行稀疏编码,并映射到统一的字典空间内;4)学习从字典空间到二值海明空间的哈希映射函数。

【技术特征摘要】
1.一种基于耦合鉴别性字典的跨媒体哈希索引方法,其特征在于包括如下步骤:1)基于图结构对多个模态数据之间的关联关系进行建模;通过数据底层特征之间的欧氏距离确定同一模态内部的相似性,利用不同模态数据已知关联关系确定模态间的关联,利用数据所具有类别标签信息增强图结构上数据的鉴别性;2)在步骤1)中得到的图结构上数据的关联关系学习鉴别性的耦合字典;该步骤具体包括:将步骤1)得到的图结构形式化表达为G(V,E,w,C);其中V为图结构中的顶点集合,代表不同模态所对应的数据对象,E是图结构中边的集合,代表了每个顶点之间的关联关系,w为边的权重集合,C为每个顶点对应的标签信息的集合;得到图结构G(V,E,w,C)后,基于图分割方法,给出了鉴别性耦合字典学习问题的解决方法:从边的集合E中选择合适的子集A,将图G分割成K个子图,将每个子图中所包含数据对象的质心选择出来,形成一组耦合字典,假设总共有M个模态数据,就得到了M个耦合字典D1,D2,...,DM,每个字典中所包含的字典项个数都为K;为了得到合适的子集A,设计了具有亚模性质的三个函数,这三个亚模函数分别具有如下压缩...

【专利技术属性】
技术研发人员:汤斯亮邵健余宙吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1