基于哈希函数的高效层级索引构建及检索方法技术

技术编号:16427971 阅读:27 留言:0更新日期:2017-10-21 22:56
本发明专利技术涉及基于哈希函数的高效层级索引构建及检索方法,包括:对待归档文档di中的每个关键词进行哈希操作,得到各关键词的n个正整数集合;每个关键词的n个正整数集合构成最终表示待归档文档di的n维向量;将所述n维向量放入文档集合索引矩阵T中,集合索引矩阵中第i行表示文档di的索引信息,第j列表示文档中存在哈希处理结果为j的关键词。本发明专利技术采用的树形结构数据这类存储方式非常便于面向检索的索引结构,且采用哈希函数对关键词的处理具有较高的安全性,不仅能够保证索引效率受到的影响较少,同时也能够提高索引的安全性。

Efficient hierarchical index construction and retrieval method based on hash function

The invention relates to a high level index hash function construction and retrieval methods based on keyword: treat each filing documents in di hash operation, the keyword n a positive integer set; each keyword n positive integers denote the n-dimensional vector to constitute final file Di document; the n-dimensional vector in the document collection index matrix in T, a collection of the I line index matrix index information showing a di document, the j document exists in the hash column represents the results for the J keyword. The tree structure data of the invention adopts this kind of storage is very easy to index structure for retrieval and processing, using a hash function on the keyword has higher security, can not only ensure the index efficiency is less affected, but also can improve the safety index.

【技术实现步骤摘要】
基于哈希函数的高效层级索引构建及检索方法
本专利技术涉及数据检索,具体地指一种基于哈希函数的高效层级索引构建及检索方法。
技术介绍
在信息技术日益发达的今天,检索技术成为了信息技术中极其重要的一个领域,对于信息系统的用户而言,通过检索技术快速定位和获取目标数据已经成为信息系统日常使用中必不可少的环节。日常检索技术在为人们带来极大方便的同时,也带来了许多安全性威胁。在一些涉密单位的相关部门中,由于日常工作涉及的数据量非常巨大,必须使用检索技术来快速获取数据,但是由于数据涉密,检索过程的安全性成为一个备受关注的问题。在信息安全形势日益严峻的今天,如何对涉密数据进行安全检索将是数据存储问题中一个很重要的环节,只有实现安全高效的数据检索,才能保证海量数据的使用价值,使海量数据的存储具有意义。但是传统的全文检索结构往往是基于明文的全文检索,即对文档数据构建索引时仅仅直接按照明文关键词构建明文索引,在索引结构中,系统不仅会保留对文档数据进行分词得到的关键词集合,同时还会保存与这些关键词相关联的位置信息,这一特点导致一旦系统的索引存储区域遭受不明攻击者的攻击,攻击者可以通过系统中存储的索引数据通过统计方法还原成原始文档数据,传统索引结构存在的这一严重的安全问题会导致存储数据的用户蒙受巨大的损失。另一方面,在传统方法中,同样存在着一些针对密文数据的全文检索,对于密文数据的全文检索由于将文档数据和全文关键词进行了加密操作,因此其安全性相比于传统的明文数据来说安全性相对较高,一种传统的密文全文检索解决方式是对目前构建的明文全文索引进行加密处理,这种处理一般被分为两个层次,即索引级加密处理和索引词级加密处理。这两种处理在检索过程中仍需要对密文进行解密,本质上仍然是明文全文检索,同样存在着很大的安全隐患,这就需要一套更加安全合理的密文全文检索系统来提供安全高效的密文全文检索服务。正是基于以上需求,本专利技术提出一种基于哈希函数的高效层级全文检索方法。树形结构数据这类存储方式非常便于面向检索的索引结构,具有数据组织有序、检索效率高等优势。而哈希函数具有单向性的特点,即由哈希函数通过输入得出输出结果比较简单,而从哈希函数输出结果逆推函数输入却有着很大的难度,需要投入非常大的计算成本,因此,哈希函数具有较高的安全性本方法以哈希函数为基础,采用树形结构为主要数据结构构建全文检索索引,不仅能够保证索引效率受到的影响较少,同时也能够提高索引的安全性。
技术实现思路
本专利技术目的在于克服上述现有技术的不足而提供一种基于哈希函数的高效层级索引构建及其检索方法,该方法能够实现安全高效的密文全文检索。实现本专利技术目的采用的技术方案是一种基于哈希函数的高效层级索引构建方法,该方法包括:将待归档文档di构建成n维向量Ti;对待归档文档di中的每个关键词进行哈希操作,得到代表各个关键词的k个正整数的集合;代表关键词集合的k个正整数集合构成最终表示待归档文档di的n维向量Tik;将所述n维向量Tik放入文档集合索引矩阵T中,集合索引矩阵中第i行表示文档di的索引信息,第j列表示文档中存在哈希处理结果为j的关键词。此外,本专利技术还提供一种基于上述高效层级索引构建的检索方法,该方法包括:将查询请求中的查询关键词转换为多个子关键词的析取范式或合取范式;将所述析取范式或合取范式构建一个与文档集合索引矩阵相同维度的n维向量Tq,利用与索引构建时相同的哈希算法对子关键词集合进行哈希操作,将子关键词转换为正整数,并插入到集合Z(z1,z2,…,zn)中,将Tq的z1、z2、……、zn位分别置为1,表示当前查询请求含有某些特定关键词,将Tq与文档索引矩阵进行矩阵T乘法操作:T’=T·Tq在T’中选择所有不为0的行,记为t1,t2,…,tn行,表示含有当前关键词的文档的索引向量,根据这些向量确认所有含有当前查询关键词的文档Dt{dt1,dt2,……,dtn},根据指针查找到目标文档dt的层次索引中,然后,系统会根据关键词的哈希结果Zq继续逐段查找文档的索引中各个段落的索引向量,判断向量中dt1、dt2、……、dtn位是否为1,命中后再查找命中段落的逐句索引向量,同样判断向量中dt1、dt2、……、dtn位是否为1,最终命中含有查询关键词的目标语句,完成查询流程。本专利技术采用的树形结构数据非常适合用于检索数据的索引结构,由于其本身的结构特点,检索时系统可以按照检索要求查找,精确定位,具有数据组织有序、检索效率高等优势。而哈希函数具有单向性的特点,即由哈希函数通过输入得出输出结果比较简单,而从哈希函数输出结果逆推函数输入却有着很大的难度,需要投入非常大的计算成本,因此,哈希函数具有较高的安全性本方法以哈希函数为基础,采用树形结构为主要数据结构构建全文检索索引,不仅能够保证索引效率受到的影响较少,同时也能够提高索引的安全性。附图说明图1为本专利技术基于哈希函数的高效层级索引构建及其检索放方法的流程图。图2为通过本专利技术基于哈希函数的高效层级索引构建方法构建的全文索引图。具体实施方式下面结合附图,对本专利技术的技术方案作进一步具体的说明。本专利技术基于哈希函数的高效层级索引构建及其检索方法的流程如图1所示。当待归档文档di存储到本系统后,检索系统首先会对其进行分词操作,得到关键词的集合Wi(w1,w2,…,wk),同时,针对每个分词记录,为关键词记录该关键词的位置信息,位置信息按照文档结构进行划分,对于关键词wk,其位置信息为段落、句子、句中偏移量组成的三元组,表示为lk(pk,sk,ok),这样,待归档文档di即可表示为Di(Wk,Lk),其中Lk为位置信息lk的集合,获取此集合后,系统会根据其关键词信息及位置信息进行索引构建操作。在索引构建算法中,对于当前文档di,构建一个n维向量Ti,将各个维度初始化为0,得到Ti0。对于关键词wk,系统采用哈希算法对关键词进行哈希操作,将关键词wk转换为正整数zk,将Ti中的zi1,zi2,…,zin位分别置1,表示文档中含有关键词中的各个字符,得到新的n维向量Ti1,然后,针对集合Wi中的每个关键词进行相同的处理(即对关键词进行哈希操作,然后根据关键词的哈希结果处理表示当前文档的n维向量),得到最终表示当前文档的n维向量Tik,将Tik放入文档集合索引矩阵T中,形成最终的文档索引矩阵即将n维向量与原索引矩阵合并,新的n维向量直接加入到最下面一行,此时,最终的文档集合索引矩阵中第i行表示文档di的索引信息,第j列表示文档中存在哈希处理结果为j的关键词。上述文档集合索引的构建过程如下所示:本专利技术在索引构建阶段,当系统需要对待归档数据进行索引构建,系统首先对待归档数据进行分词操作,完成分词操作之后,对当前文档中得到的分词结果进行哈希函数处理,完成处理之后,根据哈希函数的输出结果对索引向量进行处理,具体流程可通过以下算法实现:完成文档集合索引构建之后,根据分词结果中记录的分词结果,对待归档文档di进行分层处理,对于文章中每一段落、每一句子构建一个n维向量,针对各段落的分词结果进行哈希函数处理,完成处理之后,根据哈希函数的输出结果对索引向量进行处理,具体流程可通过以下算法实现:将处理之后的段落索引向量和语句向量加入到索引层次结构中,通过指针链接。上述操作得到段落索本文档来自技高网
...
基于哈希函数的高效层级索引构建及检索方法

【技术保护点】
一种基于哈希函数的高效层级索引构建方法,其特征在于,包括:将待归档文档di构建成n维向量Ti;对待归档文档di中的每个关键词进行哈希操作,得到代表各个关键词的k个正整数的集合;代表关键词集合的k个正整数集合构成最终表示待归档文档di的n维向量Tik;将所述n维向量Tik放入文档集合索引矩阵T中,集合索引矩阵中第i行表示文档di的索引信息,第j列表示文档中存在哈希处理结果为j的关键词。

【技术特征摘要】
1.一种基于哈希函数的高效层级索引构建方法,其特征在于,包括:将待归档文档di构建成n维向量Ti;对待归档文档di中的每个关键词进行哈希操作,得到代表各个关键词的k个正整数的集合;代表关键词集合的k个正整数集合构成最终表示待归档文档di的n维向量Tik;将所述n维向量Tik放入文档集合索引矩阵T中,集合索引矩阵中第i行表示文档di的索引信息,第j列表示文档中存在哈希处理结果为j的关键词。2.根据权利要求1所述基于哈希函数的高效层级索引构建方法,其特征在于:将待归档文档di进行分词操作,得到待归档文档di的关键词集合Wi(w1,w2,…,wk);针对每个分词记录,为关键词记录该关键词的位置信息,位置信息按照文档结构进行划分,对于关键词wk,其位置信息为段落、句子、句中偏移量组成的三元组,表示为lk(pk,sk,ok),待归档文档di即可表示为Di(Wk,Lk),其中Lk为位置信息lk的集合,获取此集合后,根据关键词信息及位置信息进行索引构建操作。3.根据权利要求1所述基于哈希函数的高效层级索引构建方法,其特征在于:根据分词结果中记录的分词结果,对待归档文档di进行分层处理,对于文章中每一段落、每一句子构建一个n维向量,针对各段落的分词结果进行哈希函数处理,完成处理...

【专利技术属性】
技术研发人员:宋伟彭智勇史成良杨先娣
申请(专利权)人:武汉图信科技有限公司
类型:发明
国别省市:湖北,42

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1