本发明专利技术分案申请涉及密文全文检索系统的安全覆盖网构建方法及对应的全文检索方法。本发明专利技术提出了用于对等全文检索的安全覆盖网概念,在不影响查全率和查准率的前提下,解决了海量密文数据索引文件的分布存储和检索问题,实现了海量数据向分布式P2P网络对等节点存储和检索;介绍了基于枢纽节点的索引文件副本复制机制:该机制通过枢纽节点的副本,保证了来自不同方向的查找可以快速得到资源,且不增加网络带宽占用,更适合于信息量巨大时的对等全文检索,进一步提高了对等网络环境下全文检索的效率。
【技术实现步骤摘要】
本专利技术属于信息检索和信息安全领域,具体涉及一种密文全文检索系统及其安全覆盖网构建的方法及对应的全 文检索方法。
技术介绍
随着计算机和通信等信息技术的迅猛发展,电子媒体等各种应用激增,传统行业信息化也快速展开,工业和科研数据自动化和半自动化的产生,使得各种数据大量累积 ’另一方面存储技术发展的日新月异也使得数据总量的增长势头越来越猛。据统计,二十世纪八十年代以来全世界信息总量以指数级增长。可以说,如今信息产生的速度远远大于人类对这些信息进行充分消化的速度。人们对问题进行有效决策所需要的信息量也大为增加,这就使得用户在海量数据面前想找到自己满意的信息变得越来越困难。在这样的背景下,如果不借助于有效的检索机制,信息量过大所产生的效果与无信息可查的效果是一样的。全文信息检索技术最早产生于20世纪50年代的美国。1950年Calvin N. Mooers首创了信息检索这个术语,1958年Luhn提出了统计信息检索的基本理论和方法,1960年Marson和Kuhns提出了信息检索的概率模型,1986年Gerard创立了信息检索向量空间模型,1968年Rocchio和Salton共同提出了查询扩展的方法,1972年Lockheed公司推出的DIALOG系统是世界首例商用在线信息查询服务系统。从上个世纪90年代开始,随着廉价海量数据存储设备的成功研发,特别是国际互联网技术的诞生和随之而来的网络信息的爆炸式增长,使信息检索技术进入了一个崭新的发展时期。在这一时期,具有代表性的理论成果包括潜在语义索引技术,贝叶斯网络和神经网技术。全文检索技术已发展得较为成熟,国外的全文检索软件已较早地得到了应用。虽然中西文全文检索的原理是一致的,但中文本身的特点使得中文全文检索系统要比西文的复杂。国内全文检索技术的研究开始于1987年左右,目前在国内市场占有率超过90%、具有代表性的全文检索系统如易北宝信公司开发的TRS,支持概念检索、多媒体数据检索和原格式文件检索,支持海量存储结构化数据处理,并提供Wffff的数据库接口。索引模型是信息检索的核心技术,对信息检索系统待处理的数据进行高效的组织是进行信息检索的必要前提,索引存储结构影响系统的检索速度和存储空间。当前主要索引模型有签名文件、倒排文件、位图、Pat树、Pat数组和互关联后继树等。前三种索引模型实质上都是把文档看成索引项的集合,索引数据必须具有文档-索引项结构,因而难以实现复杂查询。Pat树和Pat数组将索引数据看成一组半无限串的叠加,能实现复杂查询,但存在空间开销大等缺点。互关联后继树|旲型是处理中文等半无限字符串的一种新颖的索引模型,它创建效率高、查询速度快,与Pat树一样具有查询功能全的特点以及比Pat树小的膨胀比等系列优点,但是也存在存储结构、动态索引更新等方面的不足。目前国内外在基于密文的全文检索领域只有少量研究,通过各著名的大型数据库和搜索弓I擎检索得到的结果中,在中文的密文全文检索领域,只查到由中国科学院计算机网络研究中心的李新在中国的专利技术专利申请《密文全文检索技术》(申请号为200410070113. 5)和华中科技大学在中国的专利技术专利申请《分布式密文全文检索系统》(申请号为200910062129. 4)等相关研究成果发表。前者的专利技术是对全文检索技术的改造,几乎保留了全文检索的大部分技术,只对索引文件的索引词进行加密处理;后者实现了在密文条件下的全文信息检索,保证了敏感数据的安全检索,具有安全性强,执行效率高的特点,其索引文件为倒排文件,但不能进行密文子串查询及潜在的分词查询,而且不能进行密文动态更新。新兴起的对等网络(Peer-t0-Peer,P2P)被认为是一种有着更高效、更负载均衡和更好容错性优点的网络,通过P2P网络,大量的计算机可组织在一起形成一个高性能、高可靠性、高扩展性和低消耗的运算整体。由于P2P存储系统面临节点异构性、节点自私性、节点安全性及节点时效性等诸多问题,多数研究集中于搜索和定位机制,忽略了复制机制。在这种网络环境下进行中文全文检索和中文密文全文检索,引入索引文件副本复制机制,是提高检索效率,降低网络消耗和实现分布式节点负载均衡的有效途径。
技术实现思路
本专利技术的目的之一,在于提供一种数据安全性高、索引创建速度快、数据检索效率高的密文全文检索系统。本专利技术的另一目的,还在于在上述密文全文检索系统的基础上,提供一种基于动态后继树索引结构的密文全文检索系统及其创建、检索方法,该系统支持索引的动态更新,并可以实现密文子串查询。本专利技术的又一目的,还在于提供上述。具体技术方案如下一、密文全文检索系统本专利技术密文全文检索系统,包括有原始文本处理模块、分词模块、加密模块、文档密文存储模块、密文索引模块、密文检索模块、检索结果处理模块、系统管理模块;其特征在于所述原始文本处理模块,用于对文档的原始文本进行格式化预处理,包括但不限于电子化纸质文档和/或格式化电子原始文档,并提取其主题、正文及附加属性等信息,以及,形成文档概要。其中,电子化纸质文档就是使纸质文档经过扫描等方式后,得到可以处理的电子化原始文档;格式化文档就是对需要处理的电子文档统一转化为纯文本文档。所述分词模块,用于对所述原始文本处理模块所提供的文档主题、正文及附加属性等进行分词并提取特征向量,以及,用于对所述密文检索模块提供的检索词/串进行分词和查询扩展。所述加密模块,对包括但不限于所述原始文本处理模块传送过来的纯文本文档、文档概要,所述分词模块传送来的特征向量、分词进行加密操作,并将所述特征向量密文存入特征向量密文库;对由密文索引模块传送过来的分词位置信息进行加/解密操作;对包括但不限于所述文档密文存储模块传送来的文档密文、文档概要密文进行解密;对经所述检索结果处理模块传送来的特征向量密文进行解密;并向所述文档密文存储模块、检索结果处理模块、密文检索模块、密文索引模块提供经加/解密的相应数据。所述文档密文存储模块,用于分布存储、提供文档密文和文档概要密文所述分布是按照地域、文档密级和文档分类来决定相应密文所存向的目标文档密文服务器,各文档密文服务器接收并存储来自所述加密模块提供的文档密文和文档概要密文;本模块还可接受所述检索结果处理模块的密文读取请求,为加密模块提供需要解密的密文。所述密文索引模块,用于分布密文分词并创建、存储密文索引,提供需要解密的密文索引,及检索到的文档编号所述分布是按照地域、文档密级和文档分类来决定相应密文索引所存向的目标索引服务器;各索引服务器接收来自所述加密模块提供的密文分词和分词位置信息并进行索引创建,经加密后存储密文索引到相应的密文索引库;本模块还根据所述密文检索模块的密文分词检索请求,从密文索弓I库中检索到需要解密的索引分词位置信息密文并传送到加密模块,及,将从加密模块返回的文档编号集发送给密文检索模块。所述密文检索模块,为系统的合法用户提供相应级别的信息检索服务。该模块接收合法用户输入的检索词/串,经审查过滤后提交给所述分词模块;接收加密模块发送来的扩展密文分词集并形成密文分词检索请求,然后传送到所述密文索引模块进行检索;接收密文索引模块返回的文档编号集,并提交给所述检索结果处理模块。所述检索结果处理模块,用来接收并处理所述密文检索模块提供的本文档来自技高网...
【技术保护点】
密文全文检索系统的安全覆盖网构建方法,其特征在于:(1)所述密文全文检索系统,包括有原始文本处理模块、分词模块、加密模块、文档密文存储模块、密文索引模块、密文检索模块、检索结果处理模块、系统管理模块;所述原始文本处理模块(100),用于对文档的原始文本进行格式化预处理,包括电子化纸质文档和/或格式化电子原始文档,并提取其主题、正文及附加属性信息,以及,形成文档概要;所述分词模块(200),用于对所述原始文本处理模块所提供的文档主题、正文及附加属性进行分词并提取特征向量,以及,用于对所述密文检索模块提供的检索词/串进行分词和查询扩展;所述加密模块(300),对包括所述原始文本处理模块传送过来的纯文本文档、文档概要,所述分词模块传送来的特征向量、分词进行加密操作,并将所述特征向量密文存入特征向量密文库;对由密文索引模块传送过来的分词位置信息进行加/解密操作;对包括所述文档密文存储模块传送来的文档密文、文档概要密文进行解密;对经所述检索结果处理模块传送来的特征向量密文进行解密;并向所述文档密文存储模块、检索结果处理模块、密文检索模块、密文索引模块提供经加/解密的相应数据;所述文档密文存储模块(400),用于分布存储、提供文档密文和文档概要密文:所述分布是按照地域、文档密级和文档分类来决定相应密文所存向的目标文档密文服务器,各文档密文服务器接收并存储来自所述加密模块提供的文档密文和文档概要密文;本模块还接受所述检索结果处理模块的密文读取请求,为加密模块提供需要解密的密文;所述密文索引模块(500),用于分布密文分词并创建、存储密文索引,提供需要解密的密文索引,及检索到的文档编号:所述分布是按照地域、文档密级和文档分类来决定相应密文索引所存向的目标索引服务器;各索引服务器接收来自所述加密模块提供的密文分词和分词位置信息并进行索引创建;经加密后存储密文索引到相应的密文索引库;本模块还根据所述密文检索模块的密文分词检索请求,从密文索引库中检索到需要解密的索引分词位置信息密文并传送到加密模块,及,将从加密模块返回的文档编号集发送给密文检索模块;所述密文检索模块(600),为系统的合法用户提供相应级别的信息检索服务;该模块接收合法用户输入的检索词/串,经审查过滤后提交给所述分词模块;接收加密模块发送来的扩展密文分词集并形成密文分词检索请求,然后传送到所述密文索引模块进行检索;接收密文索引模块返回的文档编号集,并提交给所述检索结果处理模块;所述检索结果处理模块(700),用来接收并处理所述密文检索模块提供的文档编号集,并将经过排序处理后得到的结果集返回给检索用户;根据所述密文检索模块提供的文档编 号集,从特征向量密文库中取出相应的特征向量密文,经加密模块解密后对文档编号集合进行排序;把有序的文档编号集发送给文档密文存储模块;接收经所述加密模块解密的相应文档概要并显示给用户;根据用户选择的文档概要明文提取相应文档密文,经加密模块解密后显示给用户,其提取方式与提取文档概要明文相同;所述系统管理模块(800),包括用来管理用户权限,对部门、角色、用户的基本信息以及它们之间的映射关系进行维护更新;(2)所述密文全文检索系统是一个基于安全覆盖网的密文对等全文检索系统,包括有集中式检索服务器和对等节点;所述安全覆盖网,是将对等网络中的对等节点按照其安全级支配关系组织起来形成的网络;在该安全覆盖网中,安全级高的节点直接或间接支配安全级低的节点,同时,数据由安全级高的节点流向安全级受其支配的节点;(3)所述密文全文检索系统的安全覆盖网构建方法具体包括采用如下步骤:1a、节点(p)在对等网络中广播加入安全覆盖网的消息;1b、安全级支配节点(p)的节点集以u应答,并将节点(p)加入到受自己支配的节点集中;1c、安全级受节点(p)支配的节点集以d应答,并将节点(p)加入到支配自己的节点集中;1d、节点(p)根据其它节点的应答,将其加入到支配自己的节点集或受自己支配的节点集中。...
【技术特征摘要】
1.密文全文检索系统的安全覆盖网构建方法,其特征在干 (1)所述密文全文检索系统,包括有原始文本处理模块、分词模块、加密模块、文档密文存储模块、密文索引模块、密文检索模块、检索结果处理模块、系统管理模块; 所述原始文本处理模块(100),用于对文档的原始文本进行格式化预处理,包括电子化纸质文档和/或格式化电子原始文档,并提取其主题、正文及附加属性信息,以及,形成文档概要; 所述分词模块(200),用于对所述原始文本处理模块所提供的文档主题、正文及附加属性进行分词并提取特征向量,以及,用于对所述密文检索模块提供的检索词/串进行分词和查询扩展; 所述加密模块(300),对包括所述原始文本处理模块传送过来的纯文本文档、文档概要,所述分词模块传送来的特征向量、分词进行加密操作,并将所述特征向量密文存入特征向量密文库;对由密文索引模块传送过来的分词位置信息进行加/解密操作;对包括所述文档密文存储模块传送来的文档密文、文档概要密文进行解密;对经所述检索结果处理模块传送来的特征向量密文进行解密;并向所述文档密文存储模块、检索结果处理模块、密文检索模块、密文索引模块提供经加/解密的相应数据; 所述文档密文存储模块(400),用于分布存储、提供文档密文和文档概要密文所述分布是按照地域、文档密级和文档分类来决定相应密文所存向的目标文档密文服务器,各文档密文服务器接收并存储来自所述加密模块提供的文档密文和文档概要密文;本模块还接受所述检索结果处理模块的密文读取请求,为加密模块提供需要解密的密文; 所述密文索引模块(500),用于分布密文分词并创建、存储密文索引,提供需要解密的密文索引,及检索到的文档编号所述分布是按照地域、文档密级和文档分类来决定相应密文索引所存向的目标索引服务器;各索引服务器接收来自所述加密模块提供的密文分词和分词位置信息并进行索引创建;经加密后存储密文索引到相应的密文索引库;本模块还根据所述密文检索模块的密文分词检索请求,从密文索弓I库中检索到需要解密的索引分词位置信息密文并传送到加密模块,及,将从加密模块返回的文档编号集发送给密文检索模块; 所述密文检索模块(600),为系统的合法用户提供相应级别的信息检索服务;该模块接收合法用户输入的检索词/串,经审查过滤后提交给所述分词模块;接收加密模块发送来的扩展密文分词集并形成密文分词检索请求,然后传送到所述密文索引模块进行检索;接收密文索引模块返回的文档编号集,并提交给所述检索结果处理模块; 所述检索结果处理模块(700),用来接收并处理所述密文检索模块提供的文档编号集,并将经过排序处理后得到的结果集返回给检索用户;根据所述密文检索模块提供的文档编号集,从特征向量密文库中取出相应的特征向量密文,经加密模块解密后对文档编号集合进行排序;把有序的文档编号集发送给文档密文存储模块;接收经所述加密模块解密的相应文档概要并显示给用户;根据用户选择的文档概要明文提取相应文档密文,经加密模块解密后显示给用户,其提取方式与提取文档概要明文相同; 所述系统管理模块(800),包括用来管理用户权限,对部门、角色、用户的基本信息以及它们之间的映射关系进行维护更新; (2)所述密文全文检索系统是ー个基于安全覆盖网的密文对等全文检索系统,包括有集中式检索服务器和对等节点;所述安全覆盖网,是将对等网络中的对等节点按照其安全级支配关系组织起来形成的网络;在该安全覆盖网中,安全级高的节点直接或间接支配安全级低的节点,同时,数据由安全级高的节点流向安全级受其支配的节点; (3)所述密文全文检索系统的安全覆盖网构建方法具体包括采用如下步骤 la、节点(P)在对等网络中广播加入安全覆盖网的消息; lb、安全级支配节点(P)的节点集以u应答,并将节点(P)加入到受自己支配的节点集中; lc、安全级受节点(P)支配的节点集以d应答,并将节点(P)加入到支配自己的节点集中; Id、节点(P)根据其它节点的应答,将其加入到支配自己的节点集或受自己支配的节点集中。2.根据权利要求I所述的密文全文检索系统的安全覆盖网构建方法,其特征在于所述原始文本处理模块(100),包括有转化单元(110),提取单元(120),概要単元(130);所述转化単元(110),用于电子化纸质文档,及,将需要处理的电子文档统ー转化为纯文本文档;所述提取单元(120),用于对转化单元(110)提供的纯文本文档中的文档信息进行提取,提取的信息包括主题、正文、附加属性;所述概要単元(130),将所述提取单元(120)提供的包括主题、摘要、作者、时间及来源组织成文档概要; 所述分词模块(200),包括有分词单元(210),特征向量单元(220),查询扩展单元(230);所述分词単元(210),用于对传送过来的包括主题、正文、附加属性、检索词/串进行分词;所述特征向量単元(220),从分词结果中提取文档特征词,形成特征向量;所述查询扩展单元(230),对检索词/串分...
【专利技术属性】
技术研发人员:霍林,
申请(专利权)人:广西大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。