数据管理系统、数据管理方法及程序技术方案

技术编号:17959819 阅读:31 留言:0更新日期:2018-05-16 05:26
实施方式的数据管理系统具备索引构筑器(200)和检索器(300)。索引构筑器(200)生成与事例矢量类似的周边矢量,且构筑用于根据周边矢量确定事例矢量的索引信息(40),所述事例矢量是所积蓄的数据的特征矢量。检索器(300)按照指定了作为任意的特征矢量的查询矢量的检索请求,使用索引信息(40),确定与查询矢量完全一致的周边矢量所对应的事例矢量,输出基于所确定的事例矢量的检索结果数据集(60)。

Data management system, data management method and program

The data management system for implementation has indexer architecture (200) and searcher (300). The index architecture (200) generates a peripheral vector similar to the case vector, and constructs the index information (40) used to determine the case vector based on the surrounding vector (40), which is the characteristic vector of the accumulated data. The Retriever (300) uses the index information (40) to determine the case vector corresponding to the surrounding vector that is exactly the same as the query vector, and outputs a retrieval result data set (60) based on the determined case vector, in accordance with the retrieval request designated as the query vector of any feature vector.

【技术实现步骤摘要】
【国外来华专利技术】数据管理系统、数据管理方法及程序
本专利技术的实施方式涉及数据管理系统、数据管理方法及程序。
技术介绍
近年来,伴随信息通信技术的发展,能够进行多种多样数据的收集或积蓄、大数据分析或大媒体分析等这样的以大规模数据为对象的信息处理技术被关注。在处理这样的大规模数据的系统中,伴随数据规模的加速扩大的计算量的庞大化涉及到服务的劣化,所以如何能够削减计算量成为重要的课题。在数据库检索等数据检索中,作为高速进行图像或音乐等媒体检索的方法,进行使用了多维的特征矢量的相似性检索。在该相似性检索中,包含特征矢量间的相似度计算的矢量附近检索、即、从成为检索对象的特征矢量(以下,将其称为“事例矢量”)群之中找出与某特征矢量(以下,将其称为“查询(query)矢量”)接近的特征矢量群的处理占据计算量的大多数。因此,希望能够削减矢量附近检索的计算量而缩短数据检索的执行时间。现有技术文献专利文献专利文献1:(日本)特开2000-35965号公报专利文献2:(日本)特开2001-52024号公报
技术实现思路
专利技术要解决的课题本专利技术要解决的课题是,提供能够削减矢量附近检索的计算量而缩短数据检索的执行时间的数据管理系统、数据管理方法及程序。用于解决课题的手段实施方式的数据管理系统具备索引构筑部和检索部。索引构筑部生成与作为所积蓄的数据的特征矢量的事例矢量类似的周边矢量,构筑用于确定与所生成的所述周边矢量对应的所述事例矢量的索引信息。检索部按照指定了作为任意的特征矢量的查询矢量的检索请求,使用所述索引信息,确定与所述查询矢量完全一致的所述周边矢量所对应的所述事例矢量,输出基于所确定的所述事例矢量的检索结果。附图说明图1是表示第一实施方式的数据管理系统的概要的系统结构图。图2是表示数据表的具体例的图。图3是表示在媒体数据为静止图像的情况下的由数据登记器进行的处理过程的一例的流程图。图4是表示在媒体数据为动态图像的情况下的由数据登记器进行的处理过程的一例的流程图。图5是表示索引构筑器的结构例的框图。图6是表示LSH立即值表的一例的图。图7是表示由LSH立即值索引信息生成器进行的处理过程的一例的流程图。图8是表示LSH附近展开表的一例的图。图9是表示将LSH附近展开表分割为两个而归一化后的例子的图。图10是表示数据库复合索引的一例的图。图11是表示由LSH附近展开索引信息生成器进行的处理过程的一例的流程图。图12是说明关联数组和连续存储器配置型数组的图。图13是表示检索器的结构例的框图。图14是表示矢量类似性判断部的输入输出关系的图。图15是表示由矢量类似性判断部进行的处理过程的一例的流程图。图16是表示由严格检索器进行的处理过程的一例的流程图。图17是表示由线性LSH检索器进行的处理过程的一例的流程图。图18是表示由数据库索引LSH检索器进行的处理过程的一例的流程图。图19是表示由数据库索引LSH检索+严格检索器进行的处理过程的一例的流程图。图20是表示由数据库索引LSH检索+线性LSH检索器进行的处理过程的一例的流程图。图21是表示第二实施方式的检索器的结构例的框图。图22是表示由查询扰动型LSH检索器进行的处理过程的一例的流程图。图23是表示第三实施方式的索引构筑器的结构例的框图。图24是表示PQLSH附近展开表的一例的图。图25是表示由PQLSH附近展开索引信息生成器进行的处理过程的一例的流程图。图26是表示第三实施方式的检索器的结构例的框图。图27是表示由数据库索引PQLSH检索器进行的处理过程的一例的流程图。图28是表示数据管理系统的硬件结构例的框图。具体实施方式以下,参照附图详细说明实施方式的数据管理系统、数据管理方法及程序。实施方式的数据管理系统是用于高效地管理·检索大规模数据的系统。被视为数据库管理系统的管理大规模数据的以往的系统一般而言搭载有对盘存取等进行优化的数据配置机构作为下位层,搭载有用于基于检索条件对大规模数据进行高速检索的索引机构作为上位层。在索引的算法中,主要使用B树等树结构算法、或一般的散列(Hash)算法。在大多数的情况下,在数据库中可利用的检索条件是由与实数·整数·字符串·日期等基本型(以下,将它们总称而称为“DB基本型”)相关的四则运算·集合运算等构成的逻辑式。关于矢量或比特串(即二值矢量)彼此的类似性,除了一部分例外之外,通常不能用作检索条件。在该背景中,有时并没有考虑将包含矢量的相似度计算的检索条件高效化的索引。上述的一部分例外是以低维矢量为对象的相似度计算。在大多数著名的数据库管理系统中,设想主要管理时空间数据的用途,能够将2~4维左右的低维的矢量的相似度计算包含于检索条件。在该相似度计算的实现中,使用被称为空间树(空间分割法)的索引方法,由此能够进行高速的检索。但已知在矢量不是低维的情况下,由于索引尺寸的庞大化而失去高速化的效果,执行时间与通常的线性检索相比没有差别。在实施方式中设想的特征矢量例如是设想了机械学习用途的几百~几亿维的高维矢量,所以即使使用基于空间树的方法也不能实现高速的检索。但是,能够对高维矢量的完全一致进行高速对照。在该情况下,等价于以AND将对于两个矢量的各维要素的等号条件结合而成的条件下进行检索。即,该检索条件仅由标量运算构成,不包含矢量的相似度计算,所以能够利用B树等的索引。如上所述,以往的一般的数据库管理系统能够进行在由DB基本型构成的检索条件下的大规模数据的高速检索,但不能高速执行包含不是低维的矢量间的相似度计算的矢量附近检索。因此,在以下所示的实施方式中,提出一种通过削减矢量附近检索的计算量从而能够高速执行矢量附近检索、能够缩短数据检索的执行时间的新的数据管理系统。另外,作为表示矢量间的相似度的指标,有内积和距离。求取矢量间的内积值的内积计算和求取矢量间的距离的距离计算的含义和计算量都大致相同。不同点仅为,在两个矢量类似的情况下,内积值变大但距离变小。也就是说,矢量间的内积值大、和矢量间的距离小都意味着矢量间的相似度高。以下,说明以距离来表示矢量间的相似度的情况,但也可以将距离置换为内积。在该情况下,认为矢量间的距离越小、也就是说矢量间的相似度越高则内积值变得越大即可。作为削减矢量附近检索的计算量的方法,考虑使用LSH(局部敏感散列(Locality-SensitiveHashing))。LSH是将被给予的矢量群映射到仅取离散值的收缩矢量空间的技术(例如,参考下述的参考文献1)。该基于LSH的映射有如下性质:映射前的空间中的矢量间的距离的相对大小在映射后的空间中也较好地保存。从而,代替在映射前的矢量空间中计算矢量间距离,而在映射后的矢量空间中计算矢量间距离,从而能够将计算高效化。其中,不需要将距离的大小关系完全地保存,所得到的是近似解。参考文献1:AnshumaliShrivastavaandPingLi,“AsymmetricLSH(ALSH)forSublinearTimeMaximumInnerProductSearch(MIPS)”,AdvancesinNeuralInformationProcessingSystems,2014.作为LSH算法,至今为止,例如提出了下述的参考文献2所示的SimHash(随机投影(Randomprojection)本文档来自技高网...
数据管理系统、数据管理方法及程序

【技术保护点】
一种数据管理系统,其中,具备:索引构筑部,生成与作为所积蓄的数据的特征矢量的事例矢量类似的周边矢量,构筑用于确定与所生成的所述周边矢量对应的所述事例矢量的索引信息;以及检索部,按照指定了作为任意的特征矢量的查询矢量的检索请求,使用所述索引信息,确定与所述查询矢量完全一致的所述周边矢量所对应的所述事例矢量,输出基于所确定的所述事例矢量的检索结果。

【技术特征摘要】
【国外来华专利技术】1.一种数据管理系统,其中,具备:索引构筑部,生成与作为所积蓄的数据的特征矢量的事例矢量类似的周边矢量,构筑用于确定与所生成的所述周边矢量对应的所述事例矢量的索引信息;以及检索部,按照指定了作为任意的特征矢量的查询矢量的检索请求,使用所述索引信息,确定与所述查询矢量完全一致的所述周边矢量所对应的所述事例矢量,输出基于所确定的所述事例矢量的检索结果。2.如权利要求1所述的数据管理系统,其中,所述索引构筑部构筑所述索引信息,该所述索引信息至少包含在列要素中具有第一列和第二列的表、以及针对该表中的所述第一列的索引,所述第一列储存所述周边矢量,所述第二列储存与该周边矢量所对应的所述事例矢量相关的信息,所述检索部使用所述索引,求取与所述查询矢量完全一致的所述周边矢量所对应的所述表的记录,基于在所求取的记录的所述第二列中储存的信息来确定所述事例矢量。3.如权利要求2所述的数据管理系统,其中,作为所述表的数据结构,使用将在所述第一列中储存的所述周边矢量作为键、将在所述第二列中储存的信息作为值的关联数组或连续存储器配置型数组。4.如权利要求2所述的数据管理系统,其中,所述索引构筑部构筑所述索引信息,该所述索引信息包含在列要素中除了所述第一列及所述第二列之外还具有第三列的所述表、以及针对该表中的所述第一列及所述第三列的复合索引,所述第三列储存所述周边矢量相对于所述事例矢量的相似度,所述检索部使用所述复合索引,求取与所述查询矢量完全一致并且所述相似度满足条件的所述周边矢量所对应的所述表的记录,基于在所求取的记录的所述第二列中储存的信息来确定所述事例矢量。5.如权利要求4所述的数据管理系统,其中,作为所述表的数据结构,使用将在所述第一列中储存的所述周边矢量及在所述第三列中储存的所述相似度作为键、将在所述第二列中储存的信息作为值的关联数组或连续存储器配置型数组。6.如权利要求1所述的数据管理系统,其中,所述索引构筑部构筑所述索引信息,所述索引信息包含在列要素中具有储存所述周边矢量的第一列和储存该周边矢量相对于所述事例矢量的相似度的第二列的第一表、在列要素中具有储存该第一表的记录的行ID的第一列和储存与该记录的所述周边矢量所对应的所述事例矢量相关的信息的第二列的第二表、以及针对所述第一表中的所述第一列及所述第二列的复合索引,所述检索部使用所述复合索引,求取与所述查询矢量完全一致并且所述相似度满足条件的所述周边矢量所对应的所述第一表的记录的行ID,基于在储存了所求取的行ID的所述第二表的记录的第二列中储存的信息,来确定所述事例矢量。7.如权利要求1所述的数据管理系统,其中,所述索引构筑部按照与所述查询矢量完全一致的所述周边矢量的值,构筑用于搜索与所述周边矢量所对应的所述事例矢量相关的信息的索引,作为所述索引信息,所述检索部使用所述索引,确定与所述查询矢量完全一致的所述周边矢量所对应的所述事例矢量。8.如权利要求1所述的数据管理系统,其中,所述索引构筑部按照与所述查询矢量完全一致的所述周边矢量的值和该周边矢量相对于所述事例矢量的相似度的条件,构筑用于搜索与所述周边矢量所对应的所述事例矢量相关的信息的复合索引,作为所述索引信息,所述检索部使用所述复合索引,确定与所述查询矢量完全一致并且所述相似度满足条件的所述周边矢量所对应的所述事例矢量。9.如权利要求1至8的任一项所述的数据管理系统,其中,所述检索部在所述检索请求包含输出件数的指定的情况下,一边将所述周边矢量相对于所述事例矢量的相似度的条件从严格一方起阶段性地变化,一边反复进行确定与所述查询矢量完全一致的所述周边矢量所对应的所述事例矢量的处...

【专利技术属性】
技术研发人员:浜田伸一郎小野聪一郎汤浅真由美长田邦男
申请(专利权)人:株式会社东芝东芝数字解决方案株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1