当前位置: 首页 > 专利查询>李瑞轩专利>正文

分布式密文全文检索系统技术方案

技术编号:6587140 阅读:346 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供的一种分布式的密文全文检索系统,该系统包括数据库、 登录模块、查询模块、结果集显示模块、文档管理模块、索引模块、审计 管理模块、用户管理模块和权限管理模块;其中查询模块包括查询分词模 块、查询加密模块、查询子模块、访问控制模块、密文检索词哈希模块、 结果集合并模块和结果集排序模块,索引模块包括索引分词模块、索引加 密模块、构建分布式索引模块和密文索引词哈希模块。本发明专利技术对文档信息 进行加密处理并分布式地存储、对索引词加密并分发到不同的服务器上构 建分布式的密文索引库、将分级访问控制加入到索引库中提高全文检索的 安全性和有效性。本发明专利技术系统可以实现分布式环境下密文的全文信息检索, 保证了敏感数据的安全性检索,本发明专利技术系统具有安全性强、执行效率高、 可扩展性强的特点。

【技术实现步骤摘要】

本专利技术属于计算机检索
,具体涉及一种分布式环境下的密文 全文检索系统。
技术介绍
随着通信、计算机及信息技术的发展,在党政机关、企事业单位、财 政金融、国防军工等相关部门中,信息的保有量和交流量都达到了前所未 有的数量级,如何在这海量信息中快速地找到需要的信息已成为迫切的需 求。与此同时,很多商业组织和国家涉密机构需要在网络环境中存储和处 理大量涉密文档,尽管全文检索和加密技术都已相对成熟并且有较好的商 业产品出现,但是如何在分布式环境中高效地存储和检索这些涉密的非结 构化文本数据,已成为一个急待解决的研究课题。国外的全文检索技术已经发展得较为成熟,对于比较复杂的Internet, 已经有不少颇具影响的大型全文检索工具,如Google、 Yahoo等,这些系 统收集了 Internet上几百万至上亿的主页,对它们建立了全文检索索引库, 使用户能在Internet上快速查找到自己所需的信息。但对中文用户而言,国 外的全文检索技术有很多不适用的地方。中文全文检索技术在原理上同西 文全文检索是一致的,但汉字本身的特点使中文系统的实现比西文系统更 为复杂。因此,国外许多完善的全文检索系统很难应用于处理汉字信息。我国对全文检索技术的研究已经有一段时间了,也取得了一定的成果。 自主中文全文检索技术已经达到了较高水平,在传统市场也获得了很高的 占有率。主要集中在汉字全文检索、超文本全文检索、网络环境下的全文 检索技术等方面。中文全文检索技术的研发始于1987年左右,目前已经商 品化的软件有近10种。国内厂商自主开发的全文检索系统居于领先地位, 市场占有率超过90%以上,包括易宝北信的智能全文检索系统TRS、中国 科技信息所的QuickIMS、南辰电脑公司的南辰多媒体全文检索系统、浙江经济信息中心的天宇(CGRS)等。东方龙马公司开发的中文全文检索系统 Wisebase以及北京大学方正出版系统工程公司推出的方正渊博信息检索系 统等。基于WWW网的中文全文检索系统也有很多,典型的有百度(Baidu)、 谷歌(Google中文)等,其它如北京大学开发和维护的天网搜索以及 华南理工大学提供的木棉搜索,它们都能够对分布在中国教育科研网 的主要站点上的有关信息进行全文检索,不过这些网上全文检索应用目前 还都处于实验阶段,检索范围以及索引库维护等问题尚未得到很好解决。虽然目前全文检索的技术已经比较成熟,而且得到了广泛的应用,但 在安全性能上还远不能满足用户的实际需求。随着信息系统在办公和商用 领域的广泛应用和开展,虽然极大地提高了办公效率,但也给信息系统带 来了新的安全方面问题。信息安全一直是所有信息化系统建设中一个不可 回避而且十分紧迫、重要的问题。在国防、安全、公安、外交、商务、金 融等高涉密单位,文献信息资源的检索利用必须建立在高安全等级的基础 之上。而目前市场上并无基于密文的全文检索产品,开发分布式密文全文 检索系统正是在实施高安全等级环境下海量信息共享应用背景下提出的迫 切需求。虽然全文检索技术和加密算法都已经非常的成熟并且有很好的商 业产品出现,但是如何在分布式环境中实现密文全文检索,在国内外的相 关研究和产品领域内仍然还是空白。分布式环境下加密技术和全文索引的 结合有很多难点,首先,为了保证索引信息的安全可靠,对于索引项的信 息必须是经过加密处理的,而经过加密技术处理之后,密文信息就不能采 用明文状态下的匹配技术进行处理,因此经过加密技术处理之后的文本信 息是不能与现有全文检索机制直接结合而实现密文全文检索的。其次,现 有的全文检索系统往往是构建全文索引,从而索引的数据量往往很大,而 加密技术会进一步带来信息量的增大。因此将索引分布式地存储能有较解 决这一问题,但在分布式环境下构建密文全文检索的实用系统,把加密技 术引入全文检索系统中效率问题是必须予以考虑及高度重视的。
技术实现思路
本专利技术的目的在于提供一种分布式密文全文检索系统,该检索系统具有安全性强、执行效率高和可扩展性强的特点。本专利技术提供的分布式密文全文检索系统,其特征在于该系统包括数 据库、登录模块、查询模块、结果集显示模块、文档管理模块、索引模块、 审计管理模块、用户管理模块和权限管理模块;数据库用于存储用户及用户权限方面的信息;登录模块用于接收来自用户输入信息的服务请求,通过与数据库的信 息交互,对服务请求进行验证,验证成功则允许用户进入系统,并且在登 录模块获得该用户在数据库中的相关信息,保存在会话中;当用户以管理 员身份成功登录时,则进入后台管理首页的界面,并能够选择对审计管理 模块、用户管理模块和权限管理模块这三个模块进行管理;当用户以普通 用户身份成功登录时,则进入査询模块;如果验证失败,则拒绝用户进入 系统;不管用户是否成功登录系统,都需要把用户的登录操作信息加入数 据库中,以便日后追溯;查询模块用于接收用户输入的检索信息,将此检索信息记录到数据库 中,并对检索信息进行分词、加密得到密文检索词,然后将所有密文检索 词进行Hash运算,分别映射到相应的密文索引服务器中的密文索引库进行 査询匹配,这些密文索引库返回和检索词匹配并且用户有权访问的所有文 档信息(称为结果集),根据各检索词匹配返回的结果集进行合并处理后排 序,将排序后的结果集交给结果集显示模块处理;其中,密文索引服务器 是专门用来构建和存储密文索引的计算机,本系统中共有n台密文索引服 务器,n为正整数;结果集显示模块用于接收来自查询模块的结果集,并根据相应密文文 档库的信息来建立结果集的文摘信息和快照信息,并将用户査看快照信息 的记录存储于数据库中;文档管理模块对原始纯文本文件进行加密处理,通过对密文文档名进 行Hash处理,将这些密文文档映射到若干个密文文档服务器上存储,形成 分布式的密文文档库;此外,文档管理模块还为索引模块提供所有纯文本文件的内容和标题信息;其中,密文文档服务器是专门用来存储密文文档 的计算机,本系统中共有m台密文文档服务器,m为正整数;索引模块接收来自文档管理模块的纯文本文件的内容和标题信息,利 用分词策略对纯文本文件的内容和标题信息进行分词处理,得到索引词, 然后加密索引词,再将加密后的索引词进行Hash运算,映射到若干个密文 索引服务器上,并结合文档相关信息(如文档级别)建立分布式的密文索 引库;审计管理模块主要是对用户的所有操作提供查询功能,可以通过用户 IP地址、用户名和时间范围来对用户的操作进行查询,还可查询某个检索 内容被哪些用户查询过;审计管理模块接收来自用户输入的查询信息,通过与数据库的信息交互,获得满足査询条件的所有记录;这些记录主要涉 及前台用户的登录操作,检索信息和查看快照操作的记录,后台的用户和 级别的添加、删除、修改操作记录;用户管理模块用于接收来自管理员的操作请求,对用户信息进行相应 的管理,并与数据库进行交互;分别实现了显示用户信息,添加用户信息, 删除用户信息,修改用户信息等功能,并将管理员的操作记入数据库中;权限管理模块用于接收来自管理员的操作请求,对用户权限,文档权 限进行相应的管理,并与数据库进行交互;其中用户权限管理实现了显示 用户权限信息,添加用户权限信息,删除用户权限信息,修改用户权限信 息功能;文本文档来自技高网
...

【技术保护点】
一种分布式密文全文检索系统,其特征在于:该系统包括数据库(100)、登录模块(200)、查询模块(300)、结果集显示模块(400)、文档管理模块(500)、索引模块(600)、审计管理模块(700)、用户管理模块(800)和权限管理模块(900); 数据库(100)用于存储用户及用户权限方面的信息; 登录模块(200)用于接收来自用户输入信息的服务请求,通过与数据库(100)的信息交互,对服务请求进行验证,验证成功则允许用户进入系统,并且在登录模块(200)获得该用户在数据库(100)中的相关信息,保存在会话中;当用户以管理员身份成功登录时,则进入后台管理首页的界面,并能够选择对审计管理模块(700)、用户管理模块(800)和权限管理模块(900)这三个模块进行管理;当用户以普通用户身份成功登录时,则进入查询模块(300);如果验证失败,则拒绝用户进入系统;不管用户是否成功登录系统,都将用户的登录操作信息加入数据库(100)中; 查询模块(300)用于接收用户输入的检索信息,将此检索信息记录到数据库(100)中,并对检索信息进行分词、加密得到密文检索词,然后将所有密文检索词进行哈希运算,分别映射到相应的密文索引服务器中的密文索引库进行查询匹配,这些密文索引库返回和检索词匹配并且用户有权访问的所有文档信息,根据各检索词匹配返回的结果集进行合并处理后排序,将排序后的结果集交给结果集显示模块(400)处理;其中,密文索引服务器是专门用来构建和存储密文索引的计算机,本系统中共有n台密文索引服务器,n为正整数; 结果集显示模块(400)用于接收来自查询模块(300)的结果集,并根据相应密文文档库的信息来建立结果集的文摘信息和快照信息,并将用户查看快照信息的记录存储于数据库(100)中; 文档管理模块(500)对原始纯文本文件进行加密处理,通过对密文文档名进行哈希处理,将这些密文文档映射到各个密文文档服务器上存储,形成分布式的密文文档库;此外,文档管理模块(500)还为索引模块(600)提供所有纯文本文件的内容和标题信息;其中,密文文档服务器是专门用来存储密文文档的计算机,本系统中共有m台密文文档服务器,m为正整数; 索引模块(600)接收来自文档管理模块(500)的纯文本文件的内容和标题信息,利用分词策略对纯文本文件的内容和标题信息进行分词处理,得到索引词,然后加密索引词,再将加密后的索引词进行哈希运算,映射到若干个密文索引服务器上,并结合文档相关信息建立分布式的密文索引库; 审计管理模块(700)用于对用户的所有操作提供查询功能,通过用户IP地址、用户名、时间范围以及它们的逻辑组合来对用户的操作进行查询,还用于查询检索内容被哪些用户查询过;审计管理模块(700)接收来自用户输入的查询信息,通过与数据库(100)的信息交互,获得满足查询条件的所有记录; 用户管理模块(800)用于接收来自管理员的操作请求,对用户信息进行相应的管理,并与数据库(100)进行交互; 权限管理模块(900)用于接收来自管理员的操作请求,对用户权限,文档权限进行相应的管理,并与数据库(100)进行交互;此外,权限管理模块(900)将管理员的操作记入数据库(100)中。...

【技术特征摘要】
1、一种分布式密文全文检索系统,其特征在于该系统包括数据库(100)、登录模块(200)、查询模块(300)、结果集显示模块(400)、文档管理模块(500)、索引模块(600)、审计管理模块(700)、用户管理模块(800)和权限管理模块(900);数据库(100)用于存储用户及用户权限方面的信息;登录模块(200)用于接收来自用户输入信息的服务请求,通过与数据库(100)的信息交互,对服务请求进行验证,验证成功则允许用户进入系统,并且在登录模块(200)获得该用户在数据库(100)中的相关信息,保存在会话中;当用户以管理员身份成功登录时,则进入后台管理首页的界面,并能够选择对审计管理模块(700)、用户管理模块(800)和权限管理模块(900)这三个模块进行管理;当用户以普通用户身份成功登录时,则进入查询模块(300);如果验证失败,则拒绝用户进入系统;不管用户是否成功登录系统,都将用户的登录操作信息加入数据库(100)中;查询模块(300)用于接收用户输入的检索信息,将此检索信息记录到数据库(100)中,并对检索信息进行分词、加密得到密文检索词,然后将所有密文检索词进行哈希运算,分别映射到相应的密文索引服务器中的密文索引库进行查询匹配,这些密文索引库返回和检索词匹配并且用户有权访问的所有文档信息,根据各检索词匹配返回的结果集进行合并处理后排序,将排序后的结果集交给结果集显示模块(400)处理;其中,密文索引服务器是专门用来构建和存储密文索引的计算机,本系统中共有n台密文索引服务器,n为正整数;结果集显示模块(400)用于接收来自查询模块(300)的结果集,并根据相应密文文档库的信息来建立结果集的文摘信息和快照信息,并将用户查看快照信息的记录存储于数据库(100)中;文档管理模块(500)对原始纯文本文件进行加密处理,通过对密文文档名进行哈希处理,将这些密文文档映射到各个密文文档服务器上存储,形成分布式的密文文档库;此外,文档管理模块(500)还为索引模块(600)提供所有纯文本文件的内容和标题信息;其中,密文文档服务器是专门用来存储密文文档的计算机,本系统中共有m台密文文档服务器,m为正整数;索引模块(600)接收来自文档管理模块(500)的纯文本文件的内容和标题信息,利用分词策略对纯文本文件的内容和标题信息进行分词处理,得到索引词,然后加密索引词,再将加密后的索引词进行哈希运算,映射到若干个密文索引服务器上,并结合文档相关信息建立分布式的密文索引库;审计管理模块(700)用于对用户的所有操作提供查询功能,通过用户IP地址、用户名、时间范围以及它们的逻辑组合来对用户的操作进行查询,还用于查询检索内容被哪些用户查询过;审计管理模块(700)接收来自用户输入的查询信息,通过与数据库(100)的信息交互,获得满足查询条件的所有记录;用户管理模块(800)用于接收来自管理员的操作请求,对用户信息进行相应的管理,并与数据库(100)进行交互;权限管理模块(900)用于接收来自管理员的操作请求,对用户权限,文档权限进行相应的管理,并与数据库(100)进行交互;此外,权限管理模块(900)将管理员的操作记入数据库(100)中。2、根据权利要求1所述的分布式密文全文检索系统,其特征在于查 询模块(300)包括査询分词模块(310)、査询加密模块(320)、查询子模块(330)、 访问控制模块(340)、密文检索词哈希(350)、结果集合并模块(360)和结果 集排序模块(370);查询分词模块(310)接收来自用户的检索命令,采用中文分词策略对检 索命令进行分词,并将分词处理后的检索词发送给査询加密模块(320);査询分词模块(310)对用户的检索命令进行语言词法分析,适应不同语 言的文档源和不同形式的检索命令,它负责把一个输入流中的字符串转换 成一系列标记的集合,这些标记作为建立索引的基本单位;查询加密模块(320)用于对经查询分词模块(310)处理后的检索词进行加密处理,并将加密处理后的检索词发送给查询子模块(330);查询子模块(330)将加密处理后的检索词进行哈希运算,分别映射到与 其对应的密文索引服务器上进行匹配,并利用访问控制模块(340)对匹配文 档信息进行筛选,从匹配的文档信息中选择满足访问控制要求的那部分文 档信息作为结果集;...

【专利技术属性】
技术研发人员:李瑞轩左翠华辜希武文坤梅宋伟卢正鼎吴炜宋赛高国强
申请(专利权)人:李瑞轩左翠华辜希武文坤梅宋伟卢正鼎吴炜宋赛高国强
类型:发明
国别省市:83

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1