一种基于二值码字典树的搜索方法技术

技术编号：15878697 阅读：65 留言：0更新日期：2017-07-25 16:41

本发明专利技术公开一种基于二值码字典树的搜索方法，包括：获取数据库中每一图像的二值码，将每个二值码划分为m段子串；针对数据库中所有图像的第j段子串，建立该第j段子串的一个二值码字典树；所述二值码字典树的数量为m个；每一二值码字典树包括：内部节点和叶子节点；获取待查询图像的二值码以及该二值码的m段子串；针对待查询图像二值码的第j段子串，在数据库中所有图像的第j段子串对应的二值码字典树中查找汉明距离不超过

A search method based on two valued code dictionary tree

The invention discloses a search method based on two value code dictionary tree include: access to the database for each image value of two yards, two yards each value is divided into m sub string; for all images in the database of the j scripts on J, the establishment of a two piece string value code dictionary tree the number; the two value code dictionary tree is m; each of the one or two value code dictionary tree consists of internal nodes and leaf nodes; obtain the query image and the two value two value code m code according to the query image piece string; two value code section J scripts in the series, all images in database the J piece of string corresponding to two value code dictionary tree search Hamming distance not exceeding

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二值码字典树的搜索方法
本专利技术涉及计算机视觉技术，具体涉及一种基于二值码字典树的搜索方法。
技术介绍
近年来，高维向量的二进制表达问题(binaryrepresentation)获得了广泛的关注。二进制编码的目标是将特征压缩为紧凑的二值码(binarycode)。二值码具有易存储、易索引、对比速度快等优点，是处理大规模数据应用的首选。尽管二值码之间的汉明距离比对速度非常快(1秒内能完成数百万次比对)，但当数据规模特别大时，线性扫描整个数据集的方式仍然无法实现实时的检索。因此，设计高效的索引算法来提高大规模数据集下二值码的检索速度是十分必要的。常见的一种索引二值码并进行近邻搜索的方法是使用哈希表，其中二值码直接作为键值(地址)插入哈希表中。大量测试表明该方法的检索速度相比线性扫描有显著提高。然而，实践中使用哈希表需消耗大量内存，本质上是以空间换时间。理想状况下为索引长度为d的二值码需要2d个哈希桶。当d增长至64时，264≈1019个哈希桶的内存消耗是不可接受的。为了能够处理长向量,业内人士提出了分段索引哈希(Multi-IndexHashing,简称M...
一种基于二值码字典树的搜索方法

【技术保护点】
一种基于二值码字典树的搜索方法，其特征在于，包括：获取数据库中每一图像的二值码，将每个二值码划分为m段子串；针对数据库中所有图像的第j段子串，建立该第j段子串的一个二值码字典树；所述二值码字典树的数量为m个；每一二值码字典树包括：内部节点和叶子节点；获取待查询图像的二值码以及该二值码的m段子串；针对待查询图像二值码的第j段子串，在数据库中所有图像的第j段子串对应的二值码字典树中查找汉明距离不超过

【技术特征摘要】
1.一种基于二值码字典树的搜索方法，其特征在于，包括：获取数据库中每一图像的二值码，将每个二值码划分为m段子串；针对数据库中所有图像的第j段子串，建立该第j段子串的一个二值码字典树；所述二值码字典树的数量为m个；每一二值码字典树包括：内部节点和叶子节点；获取待查询图像的二值码以及该二值码的m段子串；针对待查询图像二值码的第j段子串，在数据库中所有图像的第j段子串对应的二值码字典树中查找汉明距离不超过的二值码；遍历待查询图像二值码的所有子串，获得每一子串的查询结果；其中：m，j均为正整数，r为预先确定的非负整数值，且j小于等于m。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据待查询图像二值码的所有子串的查询结果，进行合并去重测试，获取待查询图像的搜索结果。3.根据权利要求1所述的方法，其特征在于，针对数据库中所有图像的第j段子串，建立该第j段子串的一个二值码字典树的步骤，包括：依据第j段子串长度和预设的参数值c，确定二值码字典树的最小索引单位；以及，根据预设的参数值b和最小索引单位，取前b个比特建立二值码字典树的节点，构建该第j段子串的二值码字典树；其中，所述二值码字典树的根节点依据该第j段子串左侧的第一个最小索引单位建立分支；对于第i层的节点，依据该第j段子串从左至右的第i个最小索引单位建立分支；所述叶子节点为所述二值码字典树的末节点；所述二值码字典树中的每个节点对应于一个字符串，根节点对应于空串；对于第i层的节点，其对应的字符串为该第j段子串中的前i个最小索引单位组成的长度为i*c的字符串；其中b，c均为正整数，b为c的倍数，所述根节点和第i层的节点均为所述二值码字典树的内部节点，i为小于等于b/c的正整数。4.根据权利要求3所述的方法，其特征在于，每一个二值码字典树中的每一个叶子节点均为以容器形式存在的末节点；所述容器内含有所有插入到这个末节点的字符串，这些字符串含有相同的前缀。5.根据权利要求4所述的方法，其特征在于，针对待查询图像二值码的第j段子串，在数据库中所有图像的第j段子串对应的二值码字典树中查找汉明距离不超过的二值码的步骤，包括：从所述二值码字典树的根节点开始遍历该二值码字典树；对于该二值码字典树中的每一个节点，计算该节点对应的字符串与所述待查询图像二值码的第j段子串的汉明距离；若计算的汉明距离大于r’，则遍历在当前节点处停止；或者，当遍历至叶子节点时，在叶子节点所属的容器中获取相应的汉明距离不超过的二值码。6.根据权利要求1至5任一所述的方法，其特征在于，获取数据库中每一图像的二值码，将每个二值码划分为m段子串的步骤，包括：获取数据库图像的二值码，该二值码长度为d；采用分段策略将每个二值码划分为m个不相交不重叠的子串；若d为m的倍数，则将二值码分为m段长度相同的子串，每段长度均为s＝d/m；若d不是m的倍数，令v等于d除以m所得的余数，则分段时，前v段的长度为后m-v段的长度为和/或，获...

【专利技术属性】
技术研发人员：段凌宇，黄祎程，王哲，高文，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人