【技术实现步骤摘要】
本专利技术属于计算机检索
,具体涉及一种分布式环境下的密文 全文检索系统。
技术介绍
随着通信、计算机及信息技术的发展,在党政机关、企事业单位、财 政金融、国防军工等相关部门中,信息的保有量和交流量都达到了前所未 有的数量级,如何在这海量信息中快速地找到需要的信息已成为迫切的需 求。与此同时,很多商业组织和国家涉密机构需要在网络环境中存储和处 理大量涉密文档,尽管全文检索和加密技术都已相对成熟并且有较好的商 业产品出现,但是如何在分布式环境中高效地存储和检索这些涉密的非结 构化文本数据,已成为一个急待解决的研究课题。国外的全文检索技术已经发展得较为成熟,对于比较复杂的Internet, 已经有不少颇具影响的大型全文检索工具,如Google、 Yahoo等,这些系 统收集了 Internet上几百万至上亿的主页,对它们建立了全文检索索引库, 使用户能在Internet上快速查找到自己所需的信息。但对中文用户而言,国 外的全文检索技术有很多不适用的地方。中文全文检索技术在原理上同西 文全文检索是一致的,但汉字本身的特点使中文系统的实现比西文系统更 为复杂。因此,国外许多完善的全文检索系统很难应用于处理汉字信息。我国对全文检索技术的研究已经有一段时间了,也取得了一定的成果。 自主中文全文检索技术已经达到了较高水平,在传统市场也获得了很高的 占有率。主要集中在汉字全文检索、超文本全文检索、网络环境下的全文 检索技术等方面。中文全文检索技术的研发始于1987年左右,目前已经商 品化的软件有近10种。国内厂商自主开发的全文检索系统居于领先地位, 市场占有率超过 ...
【技术保护点】
一种分布式密文全文检索系统,其特征在于:该系统包括数据库(100)、登录模块(200)、查询模块(300)、结果集显示模块(400)、文档管理模块(500)、索引模块(600)、审计管理模块(700)、用户管理模块(800)和权限管理模块(900); 数据库(100)用于存储用户及用户权限方面的信息; 登录模块(200)用于接收来自用户输入信息的服务请求,通过与数据库(100)的信息交互,对服务请求进行验证,验证成功则允许用户进入系统,并且在登录模块(200)获得该用户在数据库(100)中的相关信息,保存在会话中;当用户以管理员身份成功登录时,则进入后台管理首页的界面,并能够选择对审计管理模块(700)、用户管理模块(800)和权限管理模块(900)这三个模块进行管理;当用户以普通用户身份成功登录时,则进入查询模块(300);如果验证失败,则拒绝用户进入系统;不管用户是否成功登录系统,都将用户的登录操作信息加入数据库(100)中; 查询模块(300)用于接收用户输入的检索信息,将此检索信息记录到数据库(100)中,并对检索信息进行分词、加密得到密文检索词,然后将所有密文检索词进行哈希运 ...
【技术特征摘要】
1、一种分布式密文全文检索系统,其特征在于该系统包括数据库(100)、登录模块(200)、查询模块(300)、结果集显示模块(400)、文档管理模块(500)、索引模块(600)、审计管理模块(700)、用户管理模块(800)和权限管理模块(900);数据库(100)用于存储用户及用户权限方面的信息;登录模块(200)用于接收来自用户输入信息的服务请求,通过与数据库(100)的信息交互,对服务请求进行验证,验证成功则允许用户进入系统,并且在登录模块(200)获得该用户在数据库(100)中的相关信息,保存在会话中;当用户以管理员身份成功登录时,则进入后台管理首页的界面,并能够选择对审计管理模块(700)、用户管理模块(800)和权限管理模块(900)这三个模块进行管理;当用户以普通用户身份成功登录时,则进入查询模块(300);如果验证失败,则拒绝用户进入系统;不管用户是否成功登录系统,都将用户的登录操作信息加入数据库(100)中;查询模块(300)用于接收用户输入的检索信息,将此检索信息记录到数据库(100)中,并对检索信息进行分词、加密得到密文检索词,然后将所有密文检索词进行哈希运算,分别映射到相应的密文索引服务器中的密文索引库进行查询匹配,这些密文索引库返回和检索词匹配并且用户有权访问的所有文档信息,根据各检索词匹配返回的结果集进行合并处理后排序,将排序后的结果集交给结果集显示模块(400)处理;其中,密文索引服务器是专门用来构建和存储密文索引的计算机,本系统中共有n台密文索引服务器,n为正整数;结果集显示模块(400)用于接收来自查询模块(300)的结果集,并根据相应密文文档库的信息来建立结果集的文摘信息和快照信息,并将用户查看快照信息的记录存储于数据库(100)中;文档管理模块(500)对原始纯文本文件进行加密处理,通过对密文文档名进行哈希处理,将这些密文文档映射到各个密文文档服务器上存储,形成分布式的密文文档库;此外,文档管理模块(500)还为索引模块(600)提供所有纯文本文件的内容和标题信息;其中,密文文档服务器是专门用来存储密文文档的计算机,本系统中共有m台密文文档服务器,m为正整数;索引模块(600)接收来自文档管理模块(500)的纯文本文件的内容和标题信息,利用分词策略对纯文本文件的内容和标题信息进行分词处理,得到索引词,然后加密索引词,再将加密后的索引词进行哈希运算,映射到若干个密文索引服务器上,并结合文档相关信息建立分布式的密文索引库;审计管理模块(700)用于对用户的所有操作提供查询功能,通过用户IP地址、用户名、时间范围以及它们的逻辑组合来对用户的操作进行查询,还用于查询检索内容被哪些用户查询过;审计管理模块(700)接收来自用户输入的查询信息,通过与数据库(100)的信息交互,获得满足查询条件的所有记录;用户管理模块(800)用于接收来自管理员的操作请求,对用户信息进行相应的管理,并与数据库(100)进行交互;权限管理模块(900)用于接收来自管理员的操作请求,对用户权限,文档权限进行相应的管理,并与数据库(100)进行交互;此外,权限管理模块(900)将管理员的操作记入数据库(100)中。2、根据权利要求1所述的分布式密文全文检索系统,其特征在于查 询模块(300)包括査询分词模块(310)、査询加密模块(320)、查询子模块(330)、 访问控制模块(340)、密文检索词哈希(350)、结果集合并模块(360)和结果 集排序模块(370);查询分词模块(310)接收来自用户的检索命令,采用中文分词策略对检 索命令进行分词,并将分词处理后的检索词发送给査询加密模块(320);査询分词模块(310)对用户的检索命令进行语言词法分析,适应不同语 言的文档源和不同形式的检索命令,它负责把一个输入流中的字符串转换 成一系列标记的集合,这些标记作为建立索引的基本单位;查询加密模块(320)用于对经查询分词模块(310)处理后的检索词进行加密处理,并将加密处理后的检索词发送给查询子模块(330);查询子模块(330)将加密处理后的检索词进行哈希运算,分别映射到与 其对应的密文索引服务器上进行匹配,并利用访问控制模块(340)对匹配文 档信息进行筛选,从匹配的文档信息中选择满足访问控制要求的那部分文 档信息作为结果集;...
【专利技术属性】
技术研发人员:李瑞轩,左翠华,辜希武,文坤梅,宋伟,卢正鼎,吴炜,宋赛,高国强,
申请(专利权)人:李瑞轩,左翠华,辜希武,文坤梅,宋伟,卢正鼎,吴炜,宋赛,高国强,
类型:发明
国别省市:83
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。