当前位置: 首页 > 专利查询>广西大学专利>正文

基于动态后继树索引结构的密文全文检索系统的索引更新方法技术方案

技术编号:7662621 阅读:162 留言:0更新日期:2012-08-09 07:10
本发明专利技术分案申请涉及基于动态后继树索引结构的密文全文检索系统的索引更新方法,该方法包括有增加操作、删除操作和修改操作,更新粒度为文档局部级。所述增加操作包括:为新添加的文本以相对位置建立树叶信息;解密原索引中受添加文本影响的树叶的树叶信息集;将新建立的树叶信息插入原索引中;插入过程中只对添加文本的前驱的树叶关联位置修改,使其指向添加文本的首字符树叶位置,同时将前驱树叶原先的关联位置值写入添加文本的尾字符树叶关联位置;每次插入新的位置信息后,判断树叶信息集长度,如大于设定值则进行树叶信息集划分;对得到的树叶信息集进行加密。采用本方法,可使系统安全高效地实现密文状态下的索引创建及动态更新。

【技术实现步骤摘要】

本专利技术属于信息检索和信息安全领域,具体涉及一种。
技术介绍
随着计算机和通信等信息技术的迅猛发展,电子媒体等各种应用激增,传统行业信息化也快速展开,工业和科研数据自动化和半自动化的产生,使得各种数据大量累积 ’另一方面存储技术发展的日新月异也使得数据总量的增长势头越来越猛。据统计,二十世纪八十年代以来全世界信息总量以指数级增长。可以说,如今信息产生的速度远远大于人类对这些信息进行充分消化的速度。人们对问题进行有效决策所需要的信息量也大为增加,这就使得用户在海量数据面前想找到自己满意的信息变得越来越困难。在这样的背景下,如果不借助于有效的检索机制,信息量过大所产生的效果与无信息可查的效果是一样的。全文信息检索技术最早产生于20世纪50年代的美国。1950年Calvin N. Mooers首创了信息检索这个术语,1958年Luhn提出了统计信息检索的基本理论和方法,1960年Marson和Kuhns提出了信息检索的概率模型,1986年Gerard创立了信息检索向量空间模型,1968年Rocchio和Salton共同提出了查询扩展的方法,1972年Lockheed公司推出的DIALOG系统是世界首例商用在线信息查询服务系统。从上个世纪90年代开始,随着廉价海量数据存储设备的成功研发,特别是国际互联网技术的诞生和随之而来的网络信息的爆炸式增长,使信息检索技术进入了一个崭新的发展时期。在这一时期,具有代表性的理论成果包括潜在语义索引技术,贝叶斯网络和神经网技术。全文检索技术已发展得较为成熟,国外的全文检索软件已较早地得到了应用。虽然中西文全文检索的原理是一致的,但中文本身的特点使得中文全文检索系统要比西文的复杂。国内全文检索技术的研究开始于1987年左右,目如在国内市场占有率超过90%、具有代表性的全文检索系统如易北宝信公司开发的TRS,支持概念检索、多媒体数据检索和原格式文件检索,支持海量存储结构化数据处理,并提供Wffff的数据库接口。索引模型是信息检索的核心技术,对信息检索系统待处理的数据进行高效的组织是进行信息检索的必要前提,索引存储结构影响系统的检索速度和存储空间。当前主要索引模型有签名文件、倒排文件、位图、Pat树、Pat数组和互关联后继树等。前三种索引模型实质上都是把文档看成索引项的集合,索引数据必须具有文档-索引项结构,因而难以实现复杂查询。Pat树和Pat数组将索引数据看成一组半无限串的叠加,能实现复杂查询,但存在空间开销大等缺点。互关联后继树|旲型是处理中文等半无限字符串的一种新颖的索引模型,它创建效率高、查询速度快,与Pat树一样具有查询功能全的特点以及比Pat树小的膨胀比等系列优点,但是也存在存储结构、动态索引更新等方面的不足。目前国内外在基于密文的全文检索领域只有少量研究,通过各著名的大型数据库和搜索弓I擎检索得到的结果中,在中文的密文全文检索领域,只查到由中国科学院计算机网络研究中心的李新在中国的专利技术专利申请《密文全文检索技术》(申请号为200410070113. 5)和华中科技大学在中国的专利技术专利申请《分布式密文全文检索系统》(申请号为200910062129.4)等相关研究成果发表。前者的专利技术是对全文检索技术的改造,几乎保留了全文检索的大部分技术,只对索引文件的索引词进行加密处理;后者实现了在密文条件下的全文信息检索,保证了敏感数据的安全检索,具有安全性强,执行效率高的特点,其索引文件为倒排文件,但不能进行密文子串查询及潜在的分词查询,而且不能进行密文动态更新。
技术实现思路
本专利技术的目的,在于提供一种基于动态后继树索引结构的密文全文检索系统的创建、检索和索引更新方法。具体技术方案包括如下内容一、密文全文检索系统中的密文全文索引创建方法,包括以下步骤(I)将用户提交的涉密原始文本文档原文转化为纯文本,提取原文本文件中的主题、正文及其他附加属性,并形成文档概要;(2)对原文本文件中的主题、正文、附加属性进行分词处理,并提取特征向量;(3)对步骤(I)中得到的纯文本文档、文档概要分别加密;(4)把步骤(3)中得到的文档密文分布存储到相应的文档密文库,把步骤(3)中得到的文档概要密文分布存储到相应的文档概要密文库;(5)对步骤⑵中得到的分词、特征向量分别加密;(6)把步骤(5)中得到的特征向量密文存储到特征向量密文库;(7)对步骤(5)中得到的密文分词分发到各索引服务器;(8)各索引服务器根据步骤(7)中的密文分词检索得到相应的分词位置密文;(9)对步骤⑶中得到的分词位置密文进行解密;(10)将步骤(9)中解密后的分词位置传回相应索引服务器;(11)索引服务器根据分词位置创建索引;(12)对步骤(11)中得到的索引进行加密;(13)将步骤(12)中得到的密文索引存储到相应的密文索引库;与上述密文全文索引创建方法相对应的密文全文检索方法,包括以下步骤(I)对用户提交的检索词/串进行分词并作查询扩展;(2)对步骤⑴中得到的扩展分词集进行加密;(3)把步骤(2)中得到的扩展密文分词集以广播方式分发到各索引服务器;(4)各索引服务器进行检索;(5)系统收集各索引服务器返回的文档编号集;(6)系统根据步骤(5)中得到的文档编号集读取相应文档特征向量密文;(7)系统解密步骤(6)中得到的特征向量密文;(8)利用步骤(7)中得到的特征向量对文档编号集进行排序;(9)根据步骤(8)中得到的有序的文档编号集读取相应文档概要密文;(10)将文档概要密文解密;(11)将解密后的文档概要显示给用户;(12)系统根据用户的选择获取相应的文档密文;(13)将文档密文解密; (14)将解密后的文档显示给用户。二、基于动态后继树索引结构的密文全文索引创建方法所述动态后继树索引结构为密文动态后继树索引结构;所述密文动态后继树索引是一个森林,所述森林由子树组成;每一棵子树的结构包括有树根的密文,树叶的密文,以及,由伪文档编号、树叶位置、树叶关联位置、树叶变种组成的树叶信息集的密文;所述树根,用于指代位于树根的分词;所述树叶,即树根的后继,用于指代位于树叶的分词;所述伪文档编号,是伪文档编号组的一个元素;所述树叶位置,用于指代当前树叶在文档中的位置;所述树叶关联位置,用于指代指向当前树叶的后继的分词的指针;所述树叶变种,用于指代代替原树叶的一串字符串;所述密文动态后继树索引的具体建立方法是对每一棵子树中的树根、树叶分别进行加密,对伪文档编号、树叶位置、树叶关联位置、树叶变种进行整体加密,即可得到所述密文动态后继树索引。本基于动态后继树索引结构的密文全文索引创建方法,可采用前述的密文全文索引创建方法,其特征在于,I)上述步骤(5)中的分词采用如下加密方法a、根据分词分组加密信息表对分词明文进行分组,得到该分词的密钥生成参数和加密算法编号,并发送给密钥管理器;b、密钥管理器根据密钥生成参数计算分词分组密钥,同时根据加密算法编号到加密算法库中提取加密算法;C、根据所得到的分词分组密钥和加密算法,对分词进行加密。2)上述步骤(11)中的密文索引创建采用如下方法a、对每个密文分词,根据文档编号信息表随机选取一个伪文档编号替换原密文分词携带的文档编号;b、用密文分词的前驱到密文索引库中查找树根,用密文分词本身查找树叶,获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:霍林黄保华胡和平覃海生
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1