当前位置: 首页 > 专利查询>杜小勇专利>正文

多媒体数据高维索引及kNN检索方法技术

技术编号:8517331 阅读:241 留言:0更新日期:2013-03-30 20:23
本发明专利技术提供一种多媒体数据高维索引及kNN检索方法,包括:构建多个多媒体数据的高维索引,高维索引包括多个节点和多个多媒体数据的数据对象,每个节点包括节点的节点中心到节点对应的子节点的节点中心或数据对象的距离;根据kNN检索算法,在高维索引中确定出待检索数据的检索范围及候选索引节点集合;根据检索范围及候选索引节点集合内各节点包括的距离,对候选索引节点集合进行剪枝处理得出待检索数据的检索结果。本发明专利技术通过在构建多媒体数据的高维索引时存入每个节点的节点中心到节点对应的子节点的节点中心或数据对象的距离,并依据该存储的距离,对得到的候选索引节点集合进行剪枝处理,有效地降低检索过程中剪枝处理的计算开销。

【技术实现步骤摘要】

本专利技术涉及数据索引及检索技术,尤其涉及一种。
技术介绍
随着数字娱乐设备的逐渐普及,图像、视频、音频等多媒体数据在数据量上出现了大幅增长,而基于多媒体数据的内容进行检索的技术,尤其是kNN (k-Nearest Neighbor,k近邻)检索技术,也变得越来越重要。在图像检索领域,待检索图像可以通过多媒体高维索引和kNN检索技术找到与其最相似的多个图像。在视频检索领域,系统可根据待检索视频片段的高维视觉特征,以及待检索视频片段的高维音频特征,基于高维索引和kNN检索技术,快速找到与待检索视频片段的最为相似的多个视频片段。因此,多媒体数据的高维索引技术及其kNN检索方法是多媒体数据检索的核心技术,有着非常广泛的应用前景。目前,已有的多媒体数据的高维索引及kNN检索技术存在着一定的局限性,主要表现在1、现有高维索引技术通常只考虑通过建立层次型高维索引的方式来减少kNN检索过程中的输入输出(I/O)开销,而未解决高维kNN检索时计算开销大的问题。2、现有的基于剪枝技术的kNN检索方法,如Branch-and-Bound和INN方法,采用了复杂的,计算开销很大的剪枝度量规则,即通过最短距离算法计算每个候选节点或数据对象到待检测数据的距离来进行数据过滤和剪枝。整个剪枝处理过程开销很大。
技术实现思路
本专利技术提供一种,以解决现有技术中计算开销大的问题。本专利技术实施例提供一种,包括构建多个多媒体数据的高维索引,其中,每个多媒体数据包括多个数据对象,所述高维索引包括多个节点和所述多个多媒体数据的数据对象,每个节点包括所述节点的节点中心到所述节点对应的子节点的节点中心或数据对象的距离;根据kNN检索算法,在所述高维索引中确定出待检索数据的检索范围及候选索引节点集合;根据所述检索范围及所述候选索引节点集合内各节点包括的所述距离,对所述候选索引节点集合进行剪枝处理,得出所述待检索数据的检索结果。 通过上述内容可知,本专利技术实施例通过在构建多媒体数据的高维索引时存入每个节点的节点中心到节点对应的子节点的节点中心或数据对象的距离,并依据该存储的距离,对根据kNN检索算法得到的候选索引节点集合进行剪枝处理,避免了现有技术中需要对每个候选节点或数据对象进行基于最短距离算法的剪枝处理,有效地降低检索过程中剪枝处理的计算开销。附图说明图1为本专利技术实施例提供的多媒体数据高维索引及检索方法的流程示意图;图2为本专利技术实施例提供的多媒体数据高维索引的一具体实例的示意图;图3为采用本专利技术实施例提供的多媒体数据高维索引及检索方法对中间节点采用下限距离进行剪枝处理的示例图;图4为采用本专利技术实施例提供的多媒体数据高维索引及检索方法对中间节点采用上限距离进行剪枝处理的示例图;图5为采用本专利技术实施例提供的多媒体数据高维索引及检索方法对叶子节点采用下限距离进行剪枝处理的示例图。具体实施例方式如图1所示,本专利技术实施例提供的的流程示意图。本实施例所述方法包括步骤S1、构建多个多媒体数据的高维索引,其中,每个多媒体数据包括多个数据对象,所述高维索引包括多个节点和所述多个多媒体数据的数据对象,每个节点包括所述节点的节点中心到所述节点对应的子节点的节点中心或数据对象的距离。其中,所述多媒体数据包括图像、视频和音频等数据。每个多媒体数据包括多个数据对象。实际应用中,为快速检索到多媒体数据,多媒体数据通常被表示为高维特征向量的形式,并根据高维特征向量建立高维索引,所述高维索引包括多个节点和所述多个多媒体数据的数据对象。如图2所示,所述高维索引为层次型,包括由上至下层级排列的一层根节点层、至少一层中间节点层1、一层叶子节点层2及数据对象层3。上层节点是下层节点的父节点,下层节点是上层节点的子节点。图2所示的高维索引实例图仅示出了一层中间节点层1、一层叶子节点层2及一层数据对象层,未示出根节点层。本实施例中所构建的高维索引中各节点均存储了节点的节点中心到节点对应的子节点的节点中心或数据对象的距离。如图2中所示,根节点R包括节点R的节点中心到节点R的下一层级中间节点R2的节点中心的距离Dk2 ;中间节点Rl包括中间节点Rl的节点中心到Rl的子节点R4的节点中心的距离Dk4 ;所述中间节点Rl还包括中间节点Rl的节点中心到Rl的子节点R5的节点中心的距离DK5。同样地,所述叶子节点R3包括叶子节点R3的节点中心到数据对象I的距离Diij各节点存储的距离,将在后续检索过程中用于进行剪枝处理,以降低现有技术中仅采用最短距离方法进行剪枝处理的计算开销。步骤S2、根据kNN检索算法,在所述高维索引中确定出待检索数据的检索范围及候选索引节点集合。具体地,所述检索算法可以是kNN检索。检索引擎首先采用kNN检索方法确定出所述待检索数据的检索半径,然后根据所述检索半径确定出以所述检索半径为半径,所述待检索数据为圆心的检索范围。其中,所述候选索引节点集合中的节点为与所述检索范围重叠的节点。步骤S3、根据所述检索范围及所述候选索引节点集合内各节点包括的所述距离,对所述候选索引节点集合进行剪枝处理,得出所述待检索数据的检索结果。其中,所述剪枝处理过程就是判断所述候选索引节点集合中的节点对应的子节点或数据对象是否与所述检索范围重叠,将不与所述检索范围重叠的子节点或数据对象剪去。实际上,要得出所述待检索数据的检索结果,检索引擎需要对所述候选索引节点集合进行多次剪枝处理。所述剪枝处理的次数决定了所述待检索数据的检索结果的检索精度。本实施例提供的所述,通过构建各节点包含距离信息的高维索引来降低检索过程中的剪枝处理的计算开销,有效地提高了多媒体数据的检索效率。进一步地,上述实施例中步骤1,所述的构建多媒体数据的高维索引具体的可以采用如下步骤来实现,包括步骤S101、根据数据划分策略对检索数据特征向量数据进行划分,生成高维索引。 其中,基于数据划分策略构建多媒体数据的高维索引的技术可以分为两大类。第一类是最小绑定矩形(Minimum Bounding Rectangle,MBR)划分策略,MBR划分策略是将多媒体特征向量数据进行矩形划分形成层次型的高维索引。第二类是最小绑定球体(MinimumBounding Sphere, MBS)划分策略,MBS划分策略是将多媒体特征向量数据进行球形划分形成层次型的高维索引。由于第一类MBR划分策略在高维空间中具有更小的体积,从而使得对象间通常具有更小的重叠概率,因此,在构建基本的多媒体高维索引时,优选采用基于MBR划分策略构建多媒体数据的高维索引。步骤S102、计算出所述高维索引中个节点的节点中心到所述节点对应的子节点的节点中心或数据对象的距离,并将所述距离存储于所述节点内。其中,所述高维索引包括一层根节点层、至少一层中间节点层、叶子节点层及数据对象层。所述高维索引中根节点层、中间节点层及叶子节点层中的各节点均包括距离信息。具体地,高维索引构建引擎在构建所述高维索引后,分别计算高维索引中根节点的节点中心到所述根节点对应的下一层级中间节点的节点中心的距离,中间节点的节点中心到所述中间节点对应的下一层级中间节点的节点中心或叶子节点的节点中心的距离,以及叶子节点的节点中心到所述叶子节点对应的数据对象的距离,并将计算得出的距离存储到对应的根节点、中间节点或叶子节点内。所本文档来自技高网...

【技术保护点】
一种多媒体数据高维索引及kNN检索方法,其特征在于,包括:构建多个多媒体数据的高维索引,其中,每个多媒体数据包括多个数据对象,所述高维索引包括多个节点和所述多个多媒体数据的数据对象,每个节点包括所述节点的节点中心到所述节点对应的子节点的节点中心或数据对象的距离;根据kNN检索算法,在所述高维索引中确定出待检索数据的检索范围及候选索引节点集合;根据所述检索范围及所述候选索引节点集合内各节点包括的所述距离,对所述候选索引节点集合进行剪枝处理,得出所述待检索数据的检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:杜小勇张孝王珊李晖
申请(专利权)人:杜小勇
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1