The invention relates to a high level index hash function construction and retrieval methods based on keyword: treat each filing documents in di hash operation, the keyword n a positive integer set; each keyword n positive integers denote the n-dimensional vector to constitute final file Di document; the n-dimensional vector in the document collection index matrix in T, a collection of the I line index matrix index information showing a di document, the j document exists in the hash column represents the results for the J keyword. The tree structure data of the invention adopts this kind of storage is very easy to index structure for retrieval and processing, using a hash function on the keyword has higher security, can not only ensure the index efficiency is less affected, but also can improve the safety index.
【技术实现步骤摘要】
基于哈希函数的高效层级索引构建及检索方法
本专利技术涉及数据检索,具体地指一种基于哈希函数的高效层级索引构建及检索方法。
技术介绍
在信息技术日益发达的今天,检索技术成为了信息技术中极其重要的一个领域,对于信息系统的用户而言,通过检索技术快速定位和获取目标数据已经成为信息系统日常使用中必不可少的环节。日常检索技术在为人们带来极大方便的同时,也带来了许多安全性威胁。在一些涉密单位的相关部门中,由于日常工作涉及的数据量非常巨大,必须使用检索技术来快速获取数据,但是由于数据涉密,检索过程的安全性成为一个备受关注的问题。在信息安全形势日益严峻的今天,如何对涉密数据进行安全检索将是数据存储问题中一个很重要的环节,只有实现安全高效的数据检索,才能保证海量数据的使用价值,使海量数据的存储具有意义。但是传统的全文检索结构往往是基于明文的全文检索,即对文档数据构建索引时仅仅直接按照明文关键词构建明文索引,在索引结构中,系统不仅会保留对文档数据进行分词得到的关键词集合,同时还会保存与这些关键词相关联的位置信息,这一特点导致一旦系统的索引存储区域遭受不明攻击者的攻击,攻击者可以通过系统中存储的索引数据通过统计方法还原成原始文档数据,传统索引结构存在的这一严重的安全问题会导致存储数据的用户蒙受巨大的损失。另一方面,在传统方法中,同样存在着一些针对密文数据的全文检索,对于密文数据的全文检索由于将文档数据和全文关键词进行了加密操作,因此其安全性相比于传统的明文数据来说安全性相对较高,一种传统的密文全文检索解决方式是对目前构建的明文全文索引进行加密处理,这种处理一般被分为两个层次,即索 ...
【技术保护点】
一种基于哈希函数的高效层级索引构建方法,其特征在于,包括:将待归档文档di构建成n维向量Ti;对待归档文档di中的每个关键词进行哈希操作,得到代表各个关键词的k个正整数的集合;代表关键词集合的k个正整数集合构成最终表示待归档文档di的n维向量Tik;将所述n维向量Tik放入文档集合索引矩阵T中,集合索引矩阵中第i行表示文档di的索引信息,第j列表示文档中存在哈希处理结果为j的关键词。
【技术特征摘要】
1.一种基于哈希函数的高效层级索引构建方法,其特征在于,包括:将待归档文档di构建成n维向量Ti;对待归档文档di中的每个关键词进行哈希操作,得到代表各个关键词的k个正整数的集合;代表关键词集合的k个正整数集合构成最终表示待归档文档di的n维向量Tik;将所述n维向量Tik放入文档集合索引矩阵T中,集合索引矩阵中第i行表示文档di的索引信息,第j列表示文档中存在哈希处理结果为j的关键词。2.根据权利要求1所述基于哈希函数的高效层级索引构建方法,其特征在于:将待归档文档di进行分词操作,得到待归档文档di的关键词集合Wi(w1,w2,…,wk);针对每个分词记录,为关键词记录该关键词的位置信息,位置信息按照文档结构进行划分,对于关键词wk,其位置信息为段落、句子、句中偏移量组成的三元组,表示为lk(pk,sk,ok),待归档文档di即可表示为Di(Wk,Lk),其中Lk为位置信息lk的集合,获取此集合后,根据关键词信息及位置信息进行索引构建操作。3.根据权利要求1所述基于哈希函数的高效层级索引构建方法,其特征在于:根据分词结果中记录的分词结果,对待归档文档di进行分层处理,对于文章中每一段落、每一句子构建一个n维向量,针对各段落的分词结果进行哈希函数处理,完成处理...
【专利技术属性】
技术研发人员:宋伟,彭智勇,史成良,杨先娣,
申请(专利权)人:武汉图信科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。