一种索引建立方法及装置制造方法及图纸

技术编号：17442205 阅读：47 留言：0更新日期：2018-03-10 14:57

本发明专利技术实施例公开了一种索引建立方法及装置，所述方法包括：提取目标文本的特征词；对所述特征词进行排序得到特征字符串；对所述特征字符串应用MinHash算法，得到所述目标文本对应的哈希值；查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶，若存在，则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引；若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶，建立与所述哈希值匹配的索引映射桶，并建立所述哈希值与所述目标文本之间的索引。本发明专利技术实施例提供的索引建立方法减少了索引存储量，通过将相似文本的索引建立在同一个索引映射桶中，实现了相似文本的分类，提高了相似文本的检索速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种索引建立方法及装置
本专利技术实施例涉及信息索引以及查询领域，尤其涉及一种索引建立方法及装置。
技术介绍
近年来，随着互联网技术的迅速发展和普及，很多情况下我需要从海量数据中快速而准确地找到我们想要的数据，这一过程称为相似性搜索。随着网络数据的急剧增加，搜索速度已经成为相似性搜索的一大瓶颈，因此，如何设计一个快速有效的索引结构，成为了大数据时代下相似性搜索的迫切需求。目前常用的索引技术一种为基于树形结构的索引，典型的有KD树。树形结构的索引采用了子空间划分的结构设计，通过将对象数据划分到若干个子空间中，每个子空间中包含相似的数据，在进行搜索时，只在某个子空间范围内进行搜索即可，在低维特征空间中有效提高了检索速度。但是当搜索对象的特征维数增大时，树形结构索引的效率大大降低，其效率与线性查找的时间复杂度相比几乎没有提高。另一种索引技术为基于传统的hash函数索引，例如md5，其原理为将原始内容尽量均匀地随机映射为一个签名，因此，即使原始内容只相差一个字节，则所产生的签名也很可能差别极大。若两个签名相等，则说明原始内容在一定概率下是相等的，如果不相等，除了说明原始内容不相等外，不再提供任何信息。因此基于传统的hash函数的索引技术不能通过比较签名的相似度来确定原始内容之间的相似度，具备一定的局限性。
技术实现思路
本专利技术实施例提供了一种索引建立方法及装置，有效降低了索引数据的存储量，进而提高了检索速度。第一方面，本专利技术实施例提供了一种索引建立方法，该方法包括：提取目标文本的特征词；对所述特征词进行排序得到特征字符串；对所述特征字符串应用MinHash算法...
一种索引建立方法及装置

【技术保护点】
一种索引建立方法，其特征在于，包括：提取目标文本的特征词；对所述特征词进行排序得到特征字符串；对所述特征字符串应用MinHash算法，得到所述目标文本对应的哈希值；查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶，若存在，则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引；若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶，建立与所述哈希值匹配的索引映射桶，并建立所述哈希值与所述目标文本之间的索引。

【技术特征摘要】
1.一种索引建立方法，其特征在于，包括：提取目标文本的特征词；对所述特征词进行排序得到特征字符串；对所述特征字符串应用MinHash算法，得到所述目标文本对应的哈希值；查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶，若存在，则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引；若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶，建立与所述哈希值匹配的索引映射桶，并建立所述哈希值与所述目标文本之间的索引。2.根据权利要求1所述的方法，其特征在于，在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引，包括：若所述索引映射桶中不存在与所述哈希值相同的索引哈希值，则将所述哈希值存入所述索引映射桶中，并建立所述哈希值与所述目标文本之间的索引；若所述索引映射桶中已经存在与所述哈希值相同的索引哈希值，则不对所述哈希值进行再次保存，直接建立所述索引哈希值与所述目标文本之间的索引。3.根据权利要求1或2所述的方法，其特征在于，还包括：若所述映射缓存池中存在与所述哈希值匹配的索引映射桶，则将与所述哈希值对应的文本数据作为与所述目标文本相似的文本数据进行推荐。4.根据权利要求1或2所述的方法，其特征在于，还包括：随机确定N个哈希函数；基于所述N个哈希函数对目标文本的特征字符串分别进行哈希运算，得到N个哈希值；统计所述N个哈希值位于映射缓存池中同一索引映射桶的相近哈希值的数量；将所述相近哈希值的数量进行排序，并根据排序结果确定与所述目标文本相似的推荐文本数据集；计算所述目标文本与所述推荐文本数据集中每个推荐文本数据之间的相似度；将相似度满足设定阈值的推荐文本数据进行推荐；其中，N为正整数。5.根据权利要求1或2所述的方法，其特征在于，所述提取目标文本的特征词包括：对目标文本进行分词；根据各分词的词性和出现的频率确定所述目标文本的特征词。6.根据权利要求5所述的方法，其特征在于，所述对目标文本进行分词包括：基于大粒度或小粒度模式，...

【专利技术属性】
技术研发人员：谢永恒，张侠，火一莽，万月亮，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人