一种索引建立方法及装置制造方法及图纸

技术编号:17442205 阅读:47 留言:0更新日期:2018-03-10 14:57
本发明专利技术实施例公开了一种索引建立方法及装置,所述方法包括:提取目标文本的特征词;对所述特征词进行排序得到特征字符串;对所述特征字符串应用MinHash算法,得到所述目标文本对应的哈希值;查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引;若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引。本发明专利技术实施例提供的索引建立方法减少了索引存储量,通过将相似文本的索引建立在同一个索引映射桶中,实现了相似文本的分类,提高了相似文本的检索速度。

【技术实现步骤摘要】
一种索引建立方法及装置
本专利技术实施例涉及信息索引以及查询领域,尤其涉及一种索引建立方法及装置。
技术介绍
近年来,随着互联网技术的迅速发展和普及,很多情况下我需要从海量数据中快速而准确地找到我们想要的数据,这一过程称为相似性搜索。随着网络数据的急剧增加,搜索速度已经成为相似性搜索的一大瓶颈,因此,如何设计一个快速有效的索引结构,成为了大数据时代下相似性搜索的迫切需求。目前常用的索引技术一种为基于树形结构的索引,典型的有KD树。树形结构的索引采用了子空间划分的结构设计,通过将对象数据划分到若干个子空间中,每个子空间中包含相似的数据,在进行搜索时,只在某个子空间范围内进行搜索即可,在低维特征空间中有效提高了检索速度。但是当搜索对象的特征维数增大时,树形结构索引的效率大大降低,其效率与线性查找的时间复杂度相比几乎没有提高。另一种索引技术为基于传统的hash函数索引,例如md5,其原理为将原始内容尽量均匀地随机映射为一个签名,因此,即使原始内容只相差一个字节,则所产生的签名也很可能差别极大。若两个签名相等,则说明原始内容在一定概率下是相等的,如果不相等,除了说明原始内容不相等外,不再提供任何信息。因此基于传统的hash函数的索引技术不能通过比较签名的相似度来确定原始内容之间的相似度,具备一定的局限性。
技术实现思路
本专利技术实施例提供了一种索引建立方法及装置,有效降低了索引数据的存储量,进而提高了检索速度。第一方面,本专利技术实施例提供了一种索引建立方法,该方法包括:提取目标文本的特征词;对所述特征词进行排序得到特征字符串;对所述特征字符串应用MinHash算法,得到所述目标文本对应的哈希值;查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引;若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引。进一步地,在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引,包括:若所述索引映射桶中不存在与所述哈希值相同的索引哈希值,则将所述哈希值存入所述索引映射桶中,并建立所述哈希值与所述目标文本之间的索引;若所述索引映射桶中已经存在与所述哈希值相同的索引哈希值,则不对所述哈希值进行再次保存,直接建立所述索引哈希值与所述目标文本之间的索引。进一步地,所述方法还包括:若所述映射缓存池中存在与所述哈希值匹配的索引映射桶,则将与所述哈希值对应的文本数据作为与所述目标文本相似的文本数据进行推荐。进一步地,所述方法还包括:随机确定N个哈希函数;基于所述N个哈希函数对目标文本的特征字符串分别进行哈希运算,得到N个哈希值;统计所述N个哈希值位于映射缓存池中同一索引映射桶的相近哈希值的数量;将所述相近哈希值的数量进行排序,并根据排序结果确定与所述目标文本相似的推荐文本数据集;计算所述目标文本与所述推荐文本数据集中每个推荐文本数据之间的相似度;将相似度满足设定阈值的推荐文本数据进行推荐;其中,N为正整数。进一步地,所述提取目标文本的特征词包括:对目标文本进行分词;根据各分词的词性和出现的频率确定所述目标文本的特征词。进一步地,所述对目标文本进行分词包括:基于大粒度或小粒度模式,结合词频以及词性选择对应的分词单元对所述目标文本以单词为单位进行划分,并标注每个单词的词性。进一步地,在对目标文本进行分词之前,所述方法还包括:对目标文本中不能识别的字符进行过滤。第二方面,本专利技术实施例提供了一种索引建立装置,所述装置包括:特征词提取模块,用于提取目标文本的特征词;排序模块,用于对所述特征词进行排序得到特征字符串;第一运算模块,用于对所述特征字符串应用MinHash算法,得到所述目标文本对应的哈希值;第一建立模块,用于查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引;第二建立模块,用于若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引。进一步地,所述装置还包括:保存单元,用于若所述索引映射桶中不存在与所述哈希值相同的索引哈希值,则将所述哈希值存入所述索引映射桶中,并建立所述哈希值与所述目标文本之间的索引;建立单元,用于若所述索引映射桶中已经存在与所述哈希值相同的索引哈希值,则不对所述哈希值进行再次保存,直接建立所述索引哈希值与所述目标文本之间的索引。进一步地,所述装置还包括:推荐模块,用于若所述映射缓存池中存在与所述哈希值匹配的索引映射桶,则将与所述哈希值对应的文本数据作为与所述目标文本相似的文本数据进行推荐;或者用于随机确定N个哈希函数;基于所述N个哈希函数对目标文本的特征字符串分别进行哈希运算,得到N个哈希值;统计所述N个哈希值位于映射缓存池中同一索引映射桶的相近哈希值的数量;将所述相近哈希值的数量进行排序,并根据排序结果确定与所述目标文本相似的推荐文本数据集;计算所述目标文本与所述推荐文本数据集中每个推荐文本数据之间的相似度;将相似度满足设定阈值的推荐文本数据进行推荐;其中,N为正整数。本专利技术实施例提供的一种索引建立方法,通过对目标文本的特征词字符串应用MinHash算法得到所述目标文本对应的哈希值,进而查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引,若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引,从而实现了通过将相似的文本数据的索引以哈希值的形式存储到同一索引映射桶中,减少了相似数据的存储索引,提高了检索速度。附图说明图1是本专利技术实施例一提供的一种索引建立方法流程示意图;图2是本专利技术实施例二提供的一种索引建立方法流程示意图;图3是本专利技术实施例二提供的一种近邻哈希分类、索引建立与相似文本查询流程示意图;图4是本专利技术实施例三提供的一种索引建立装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各项步骤的顺序可以被重新安排。当其步骤完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的一种索引建立方法流程示意图,本实施例提供的索引建立方法可适用于对大批量的文本数据建立索引,该方法可以由索引建立装置来执行。参见图1所示,所述方法具体包括如下:步骤110、提取目标文本的特征词。具体的,提取目标文本的特征词可以以中文分词为基础,在分词时通过文本分词以及词频排序,并可以进一步依靠文本语义分析和词性调优等,找到能准确反映文本含义的分词,将这本文档来自技高网...
一种索引建立方法及装置

【技术保护点】
一种索引建立方法,其特征在于,包括:提取目标文本的特征词;对所述特征词进行排序得到特征字符串;对所述特征字符串应用MinHash算法,得到所述目标文本对应的哈希值;查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引;若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引。

【技术特征摘要】
1.一种索引建立方法,其特征在于,包括:提取目标文本的特征词;对所述特征词进行排序得到特征字符串;对所述特征字符串应用MinHash算法,得到所述目标文本对应的哈希值;查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引;若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引。2.根据权利要求1所述的方法,其特征在于,在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引,包括:若所述索引映射桶中不存在与所述哈希值相同的索引哈希值,则将所述哈希值存入所述索引映射桶中,并建立所述哈希值与所述目标文本之间的索引;若所述索引映射桶中已经存在与所述哈希值相同的索引哈希值,则不对所述哈希值进行再次保存,直接建立所述索引哈希值与所述目标文本之间的索引。3.根据权利要求1或2所述的方法,其特征在于,还包括:若所述映射缓存池中存在与所述哈希值匹配的索引映射桶,则将与所述哈希值对应的文本数据作为与所述目标文本相似的文本数据进行推荐。4.根据权利要求1或2所述的方法,其特征在于,还包括:随机确定N个哈希函数;基于所述N个哈希函数对目标文本的特征字符串分别进行哈希运算,得到N个哈希值;统计所述N个哈希值位于映射缓存池中同一索引映射桶的相近哈希值的数量;将所述相近哈希值的数量进行排序,并根据排序结果确定与所述目标文本相似的推荐文本数据集;计算所述目标文本与所述推荐文本数据集中每个推荐文本数据之间的相似度;将相似度满足设定阈值的推荐文本数据进行推荐;其中,N为正整数。5.根据权利要求1或2所述的方法,其特征在于,所述提取目标文本的特征词包括:对目标文本进行分词;根据各分词的词性和出现的频率确定所述目标文本的特征词。6.根据权利要求5所述的方法,其特征在于,所述对目标文本进行分词包括:基于大粒度或小粒度模式,...

【专利技术属性】
技术研发人员:谢永恒张侠火一莽万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1