特征矢量数据空间的索引方法和设备以及相似性搜索方法技术

技术编号:2935051 阅读:219 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种特征矢量数据空间的索引方法,可以用于在多维矢量空间中进行相似性搜索。该索引方法包括下列步骤:(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。因此,当特征矢量在高维矢量空间中不均匀分布时,可以细致地索引特征矢量数据空间。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种,尤其涉及通过依它们在特征矢量数据空间中的分布分层近似求出特征矢量,细致地索引特征矢量高度集中的小区的索引方法。当处理大量多媒体数据时,快速有效地访问数据库总是人们所关心的。目前,随着产生多媒体数据的能力迅速提高,管理这样的数据库并提供访问多媒体内容的方法已经变成重要的课题。举例来说,典型的图像集合的范围可以从数十万到数百万甚至更多个项。对于数据库中的每个对象(或记录),其程度(属性的维数)要比传统数据库高得多。为了访问具有这样特性的数据库,必须仔细地设计有效的索引方法。索引方法的有效性可以通过将焦点集中在索引方法上来正确评价。举例来说,一些索引方法旨在使存储额外开销最小,而另一些则集中在有效支持查询范围上。多年来,多维数据的索引一直是人们的研究课题。但对于多媒体数据,由于它们对特定域的需要,还没有一种令人满意的数据结构能有效地支持最邻近(NN)搜索。为了解决这个问题,传统的索引方法使用了矢量近似(VA)-文件。但是,这样的传统索引方法可能会受到特征矢量分布的影响。根据这种传统索引方法,当特征矢量均匀分布时,对复杂性会大幅度降低的期待是合理的。但是,当特征矢量不均匀分布时,有效的索引就可能得不到实现。为了解决上述问题,本专利技术的第一个目的是提供一种,通过这种索引方法可以细致地索引特征矢量高度集中的小区。本专利技术的第二个目的是提供一种用于存储执行特征矢量数据空间索引方法的程序代码的计算机可读记录介质。本专利技术的第三个目的是提供一种在已经执行了特征矢量数据空间索引方法的特征矢量数据空间中进行相似性搜索的相似性搜索方法。因此,为了实现本专利技术的第一个目的,本专利技术提供了一种。该方法包括下列步骤(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。该索引方法最好还包括下列步骤(pa-1)在步骤(a)之前,将特征矢量数据空间划分成若干个尺寸相同的小区。步骤(a)最好包括下列步骤(a-1)在每个小区中构造显示特征矢量数量的直方图;和(a-2)利用该直方图分析特征矢量的分布,并确定是否至少存在一个特征矢量集中在上面的小区。最好,步骤(b)包括下列步骤利用矢量近似文件索引特征矢量数据空间。步骤(b)包括下列步骤(b-1)在特征矢量集中在上面的每个小区上构造子矢量近似文件;和(b-2)利用矢量近似文件和相应的子矢量近似文件,在特征矢量集中在上面的每个小区中近似求出特征矢量。步骤(b)包括下列步骤(b-1)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,将相应小区划分成子小区;和(b-2)利用这些子小区,在每个相应小区近似求出特征矢量,从而分层索引特征矢量数据空间。为了实现本专利技术的第二个目的,本专利技术提供了一种用于存储执行特征矢量数据空间索引方法的程序代码的计算机可读记录介质。该索引方法包括下列步骤(a)确定是否至少存在一个特征矢量集中在上面的小区;和(b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。为了实现本专利技术的第三个目的,本专利技术提供了一种进行相似性搜索的方法,包括下列步骤通过确定是否存在特征矢量集中在上面的小区,和根据预定的索引方法在已经确定存在特征矢量集中在上面的小区中分层索引特征矢量数据,在已经索引过的特征矢量数据空间中进行相似性搜索。通过结合附图对本专利技术的优选实施例进行详细描述,本专利技术的上面目的和优点将更加清楚,在附图中附图说明图1是显示根据本专利技术实施例的特征矢量数据空间索引方法的流程图;图2是显示在上面构造了矢量近似(VA)文件的特征矢量数据空间的示例图;和图3A和3B是显示定义为吸引子(attractor)的小区被划分成若干个子小区的示例图。下文将参照附图详细描述本专利技术的实施例。参照图1,在根据本专利技术实施例的索引方法中,在步骤102,在整个特征矢量数据空间上构造矢量近似(VA)文件。为了构造VA文件,将特征矢量数据空间划分成若干个尺寸相同的小区。在本说明书中,为了解释本专利技术能起有效作用的情况,假定特征矢量集中在若干个划分的小区中的一些任意小区上。图2显示了在上面构造了VA文件的特征矢量数据空间的示例。参照图2,特征矢量集中在特征矢量近似01 01的小区20上和特征矢量近似10 11的小区22上。下文将特征矢量集中在上面的小区称为吸引子。接着,在步骤104,获取显示特征矢量在整个特征矢量数据空间上分布的直方图。在步骤106,根据此直方图确定是否存在一些吸引子。举例来说,从直方图中,可以将至少含有预定数量特征矢量的小区定义为吸引子。在本实施例中,将含有10个或更多个特征矢量的小区定义为吸引子。例如,可明显看出,在图2中,小区20和22含有多于10个的特征矢量,因此,将小区20和22定义为吸引子。在步骤108,当确认存在吸引子时,在定义为吸引子的小区上构造子VA文件。将定义为吸引子的小区划分成若干个子小区。根据子小区中特征矢量的位置构造子VA文件。图3A和3B是显示定义为吸引子(attractor)的小区被划分成若干个子小区的示例图。在图3A中,图2中01 01的小区20被划分成若干个子小区。在图3B中,图2中10 11的小区被22划分成若干个子小区。根据子小区中特征矢量的位置构造子VA文件。另一方面,如果不存在吸引子,即意味着至少大体上保持矢量空间的均匀性,那么将使用一般VA文件。换言之,以划分的小区为单位,通过近似求出在特征矢量数据空间中的特征矢量构造VA文件。在步骤110,利用VA文件和子VA文件近似求出在定义为吸引子的小区中的特征矢量。例如,将01 01的小区20中的特征矢量302和特征矢量304分别近似取为01 01 01 10和01 01 01 11。将01 11的小区22中的特征矢量322和特征矢量324分别近似取为10 11 00 01和10 11 10 10。因此,根据合并了VA文件和子VA文件的文件索引小区。可以将合并了VA文件和子VA文件的文件称为分层矢量近似(HVA)文件。按照本专利技术的索引方法,根据特征矢量的分布分层近似求出特征矢量数据空间以索引小区。分层索引使特征矢量高度集中的小区能够被细致地索引。尤其是,按照本专利技术,当特征矢量在高维矢量空间中不均匀分布时,可以实现更有效的特征矢量索引。换言之,依特征矢量数据在特征矢量数据空间中的分布调整近似结构以处理特征矢量数据的集中。下面将描述对已经按照参照图1描述的特征矢量数据空间索引方法分层索引过的特征矢量数据空间进行相似性搜索的方法。在特征矢量数据空间中特征矢量集中在上面的每个小区中的特征矢量都已经利用子VA文件作了近似。例如,当对近似为01、01、01、10的查询点进行相似性搜索时,选择特征矢量数据空间中坐标为01、01的小区为搜索小区,并确定在所选的小区中是否存在近似为10、10的小区。当确定在所选的小区中存在近似为10、10的小区时,将所选的小区确定为搜索小区。即使特征矢量在高维矢量空间中不是均匀分布的,这样的相似性搜索方法也能使具有与查询点相似特征的特征点在特征矢量数据空间中得到细致精确的搜索。对于搜索方法来说,可以利用包括最邻近(NN)搜索的各种搜索方法。在参照图1所描本文档来自技高网...

【技术保护点】
一种特征矢量数据空间的索引方法,在该特征矢量数据空间中特征矢量被索引,该索引方法包括下列步骤: (a)确定是否至少存在一个特征矢量集中在上面的小区;和 (b)当在步骤(a)确定至少存在一个特征矢量集中在上面的小区时,分层索引特征矢量数据空间。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:申铉枓崔良林吴澎班加洛尔S曼朱纳思
申请(专利权)人:三星电子株式会社加利福尼亚大学董事会
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利