当前位置: 首页 > 专利查询>任锦华专利>正文

一种安全全文检索的方法及装置制造方法及图纸

技术编号:26762634 阅读:16 留言:0更新日期:2020-12-18 23:14
本发明专利技术公开了一种安全全文检索的方法及装置,该方法包括:采用文档档案、词典和内容索引组成索引文件;从内容索引中读取频度流,采用频度流构建流束;依据词典获取频度信息队列,利用流束填充频度信息队列;判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;依据命名文档号查找对应的文档内容。该方法实现提高索引安全性。

【技术实现步骤摘要】
一种安全全文检索的方法及装置
本专利技术涉及检索
,特别是涉及一种安全全文检索的方法及装置。
技术介绍
人类进入信息技术时代以来,文件信息便捷获取和安全保障一直是文件利用的两面,多种信息技术改进都是在这两个目标之间求得平衡。文件检索服务在党政机关企事业单位内部得到广泛应用,为用户提供了便捷高效的信息获取手段。但传统的全文检索仍存在非常大的安全隐患,索引文件中包含了大量原文信息,甚至某些全文检索产品的索引文件中直接包含原文全文,在这种情况下,即使对网络环境、服务器、数据库、应用等层面做了层层安全处理,搜索引擎仍可能越过企业原有安全架构,泄露企业机密,而且即使为数据定义了文档级和数据库级的双重安全保障,搜索引擎的还能透过授权的索引文档来搜索它们,存在较大的安全风险。同时,对内部人员而言,全文检索服务器上的内容更是重大的泄露源,普通技术缺乏对内部人员非法获取的安全防范机制。由于索引文件中包含了大量原文信息,导致检索安全性较低,所以,如何提高检索安全性是亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种安全全文检索的方法及装置,以实现提高索引安全性。为解决上述技术问题,本专利技术提供一种安全全文检索的方法,包括:采用文档档案、词典和内容索引组成索引文件;从内容索引中读取频度流,采用频度流构建流束;依据词典获取频度信息队列,利用流束填充频度信息队列;判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;依据命名文档号查找对应的文档内容。优选的,所述利用流束填充频度信息队列之后,还包括:判断频度信息队列是否为空,若是,跳出频度信息队列对应的域中的查找循环。优选的,所述判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等之前,还包括:利用文档档案排除频度信息队列中的不合格文档。优选的,所述利用文档档案排除频度信息队列中的不合格文档之后,还包括:利用词典判断是否还有下一个词,若是,新建下一个词对应的频度信息队列,加入文档对比循环。优选的,所述依据词典获取频度信息队列,包括:在词典中查找句子中的所有词,获取每个词对应的频度文件指针,将频度文件指针构成集合;从集合中选择一个域,新建该域对应的频度信息队列。优选的,所述将频度文件指针构成集合之后,还包括:确定句子中词块的块号。优选的,当利用词典判断没有下一个词时,将频度信息队列队首的文档作为命中文档。本专利技术还提供一种安全全文检索的装置,用于实现上述方法,包括:组成模块,用于采用文档档案、词典和内容索引组成索引文件;读取模块,用于从内容索引中读取频度流,采用频度流构建流束;填充模块,用于依据词典获取频度信息队列,利用流束填充频度信息队列;判断模块,用于判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;查找模块,用于依据命名文档号查找对应的文档信息。本专利技术所提供的一种安全全文检索的方法及装置,采用文档档案、词典和内容索引组成索引文件;从内容索引中读取频度流,采用频度流构建流束;依据词典获取频度信息队列,利用流束填充频度信息队列;判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;依据命名文档号查找对应的文档内容。可见,由于索引文件由文档档案、词典和内容索引组成,索引文件的安全性集中在确保在只拿到内容索引的情况下,不能分析出原文,提高索引安全性。而内容索引文件中不含有任何文档信息和词的信息,可以保障检索系统的安全,在不影响检索的性能和准确性的情况下,确保索引安全,保障文件全生命周期和全环节安全。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术所提供的一种安全全文检索的方法的流程图;图2为本专利技术所提供的一种安全全文检索的装置结构示意图。具体实施方式本专利技术的核心是提供一种安全全文检索的方法及装置,以实现提高索引安全性。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术所提供的一种安全全文检索的方法的流程图,该方法包括以下步骤:S101:采用文档档案、词典和内容索引组成索引文件;S102:从内容索引中读取频度流,采用频度流构建流束;S103:依据词典获取频度信息队列,利用流束填充频度信息队列;S104:判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;S105:依据命名文档号查找对应的文档内容。可见,该方法中,由于索引文件由文档档案、词典和内容索引组成,索引文件的安全性集中在确保在只拿到内容索引的情况下,不能分析出原文,提高索引安全性。而内容索引文件中不含有任何文档信息和词的信息,可以保障检索系统的安全,在不影响检索的性能和准确性的情况下,确保索引安全,保障文件全生命周期和全环节安全。基于上述方法,详细的,步骤S103中,所述利用流束填充频度信息队列之后,还包括以下步骤:S201:判断频度信息队列是否为空,若是,跳出频度信息队列对应的域中的查找循环。进一步的,步骤S104之前,还包括以下步骤:S301:利用文档档案排除频度信息队列中的不合格文档。其中,步骤S301之后,利用词典判断是否还有下一个词,若是,新建下一个词对应的频度信息队列,加入文档对比循环。进一步的,当利用词典判断没有下一个词时,将频度信息队列队首的文档作为命中文档。进一步的,步骤S103中,所述依据词典获取频度信息队列的过程具体包括以下步骤:S401:在词典中查找句子中的所有词,获取每个词对应的频度文件指针,将频度文件指针构成集合;其中,所述将频度文件指针构成集合之后,确定句子中词块的块号;S402:从集合中选择一个域,新建该域对应的频度信息队列。本方法采用倒排文件的基础原理来构建索引,通过自然语言处理引擎对检索源文本分析,构建三种不同类型索引,通过对不同类型索引的内容分割,以及针对不同类型索引文件的安全方案,来加强全文检索的安全性。另外,为提高索引效率,降低I/O操作,索引数据膨胀率,有必要在全文检索方法中引入索引压缩算法。在对索引进行压缩本文档来自技高网
...

【技术保护点】
1.一种安全全文检索的方法,其特征在于,包括:/n采用文档档案、词典和内容索引组成索引文件;/n从内容索引中读取频度流,采用频度流构建流束;/n依据词典获取频度信息队列,利用流束填充频度信息队列;/n判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;/n依据命名文档号查找对应的文档内容。/n

【技术特征摘要】
1.一种安全全文检索的方法,其特征在于,包括:
采用文档档案、词典和内容索引组成索引文件;
从内容索引中读取频度流,采用频度流构建流束;
依据词典获取频度信息队列,利用流束填充频度信息队列;
判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;
依据命名文档号查找对应的文档内容。


2.如权利要求1所述的方法,其特征在于,所述利用流束填充频度信息队列之后,还包括:
判断频度信息队列是否为空,若是,跳出频度信息队列对应的域中的查找循环。


3.如权利要求1所述的方法,其特征在于,所述判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等之前,还包括:
利用文档档案排除频度信息队列中的不合格文档。


4.如权利要求3所述的方法,其特征在于,所述利用文档档案排除频度信息队列中的不合格文档之后,还包括:
利用词典判断是否还有下一个词,若是,新建下一个词对应的频度信息队列,加入文档对比循环。


5...

【专利技术属性】
技术研发人员:任锦华刘丹王少康
申请(专利权)人:任锦华刘丹王少康
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1