一种索引文件的录入和基于该索引文件的检索方法技术

技术编号:11083392 阅读:97 留言:0更新日期:2015-02-26 09:56
本发明专利技术所提供的一种索引文件的录入方法,包括步骤:A、解析出目标文档的内容,对解析出的内容进行分词处理,生成不同的各个词语;B、解析出目标文档的权限信息,对解析出的权限信息进行分词处理,生成具有权限信息唯一性的格式;C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识,并存储至索引文件。对应还提供一种基于上述方法录入的索引文件的检索方法,采用对权限信息的分词确保其唯一性,在检索过程中不用拆分检索请求,也无需进行二次检索,便同时满足文档检索结果与权限检索结果,避免在文档还原过程中因全文检索命中率的问题至权限不可用,提高检索文档检索命中率。

【技术实现步骤摘要】
—种索引文件的录入和基于该索引文件的检索方法
本专利技术涉及信息安全
,特别涉及。
技术介绍
现有基于权限的索引技术通常采用的技术为将权限信息存入数据库或索引文件,将所接收的权限与在先存入的进行比较。其中,常用方法包括:完全解偶的二次权限数据筛选,与三次库表检索结果与摘要的合并。具体包括以下步骤:带权限的全文检索请求;把检索请求拆分成两部分:全文检索、库表权限检索;合并全文检索结果与库表权限检索;返回全文检索请求的结果集。采用上述方法的不足在于:三次数据的处理,导致时间的大幅度延长。 另外,还可采用在库表中首次权限检索,利用库表中预绑定的全文检索引擎文档唯一标识与要查询的关键词进行二次检索。具体包括以下步骤:在全文中新建文档时把文档在全文检索引擎中的ID记录到数据库中;收到带权限的全文检索请求;把检索请求拆分成两部分:库表权限检索、全文检索;利用库表权限检索结果与要检索的关键字进行全文检索;返回全文检索请求的结果集。采用上述方法的不足在于:两次检索提高了检索效率,但是还是进行了二次检索;并且全文检索引擎中的ID发生变化时要追加到数据库表中,而全文检索引擎中的ID会经常发生变动,追加的数据分析会延长文档加入全文检索引擎的时间,而且检索时对文档ID进行了预分析。
技术实现思路
有鉴于此,本专利技术的主要目的在于,提供,采用对权限信息的进行分词,在检索过程中实现100%命中权限信息。 其中,索引文件的录入方法包括步骤: A、解析出目标文档的内容,对解析出的内容进行分词处理,生成不同的各个词语; B、解析出目标文档的权限信息,对解析出的权限信息进行分词处理,生成具有权限信息唯一性的格式; C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识,并存储至索引文件。 由上,采用对权限信息的分词确保其唯一性,在检索过程中实现100%命中权限信息。并且,无需索引文件绑定到数据库,当索引文件变化时数据库不会做任何变化,当数据库发生变化时只要把原数据同步到新数据库就能做到恢复。同时不用因检索引擎的同一文件ID的变化至数据库中表数据量的增加。 可选的,步骤A所述解析前还包括: 依据目标文档实体的后缀名选择对应的文档解析器。 由上,实现对于文档内容的正确分词。 可选的,步骤A还包括:判断所生成的词语在句子中是否属于最大单元,若否则将以最大单元进行分词,所述最大单元包括组成单一词组的最长字符。 由上,实现对于分词的正确性,避免遗漏关键词。 可选的,所述目标文档权限信息包括通用唯一识别码、全局唯一标识符和/或特定字符串。 由上,确保权限信息的唯一性。 可选的,步骤B所述分词处理的步骤包括: B1、以一定字符长度且以分隔符结尾为分词依据,判断所述权限信息在所述字符长度内具有权限信息唯一性的格式时,以所述字符长度对权限信息进行分词。 由上,首先以一定字符长度且以分隔符结尾为分词依据可以避免对于不定长度的权限信息的限制,其次,在规定长度内,判断出唯一性格式即可分词,快速高效。 可选的,步骤B还包括:判断所述权限信息在所述字符长度内不具有权限信息唯一性的格式时,将所述字符长度增加一字符长度,返回步骤B所述分词处理的步骤。 由上,实现对于文档权限信息的正确分词,由于字符长度以及非特殊字符的标点符号可调,因此,采用相同规则对权限信息进行分词后,保证各文档权限信息的唯一性,在后续检索过程中,便可以实现权限的100%命中。 可选的,所述分隔符包括非字符的标点符号。 可选的,步骤C之后还包括步骤:将目标文档的至少下述一元数据信息加载所述代表其属于所述目标文档的标识,并存储至索引文件: 目标文档的创建时间、大小、类型。 对应的,本专利技术还提供一种基于上述方法录入的索引文件的检索方法包括步骤: A、解析出用户的权限信息,对解析出的权限信息进行分词处理; B、解析出用户所录入的内容,对解析出的内容进行分词处理,生成不同的各个词语; C、将步骤A和步骤B的分词结果采用并且的逻辑关系运算,以索引文件中已存的信息中是否与步骤A和步骤B分词处理的结果相同为依据,进行检索。 由上,不用拆分检索请求,也无需进行二次检索,便同时满足文档检索结果与权限检索结果,避免在文档还原过程中因全文检索命中率的问题至权限不可用,提高检索文档检索命中率。 【附图说明】 图1为索引文件录入的流程图; 图2为对目标文档的文档内容进行分词化处理的流程图; 图3为对目标文档的权限进行分词处理的流程图; 图4为基于所录入索引文件的检索方法的流程图。 【具体实施方式】 本专利技术所提供的索引文件的录入和基于该索引文件的检索方法,将权限信息进行分词处理,使其分词结果符合权限信息的唯一性,以实现在检索过程中实现100%命中权限信息,避免在文档还原过程中因全文检索命中率的问题至权限不可用。 如图1所示,索引文件的录入具体包括以下步骤: 步骤SlO:对目标文档的文档内容进行分词及解析处理,并将解析结果与目标文档进行关联后,存储至索引文件。 如图2所示,具体的,本步骤包括以下步骤: 步骤SlOl:对目标文档进行解析,以获取目标文档的全部内容。 首先获取目标文档实体,依据目标文档实体的后缀名(例如*.doc、*.txt、*.ppt、xls)获取文档解析器,利用文档解析器获取出文档的全部文字内容。 当无法获取后缀名或后缀名为空字符时,直接结束步骤S10。 步骤S102:对所获取的目标文档的内容进行分词。 利用分词器对所获取的目标文档内容进行分词,所述分词器利用词典的原理将全文分成词汇表。其中,分词器是成熟的技术,本专利技术采用现有的分词器。预先设定不同词库,例如名词库,语句库,等价词库,否定词库,停止词库等。所述等价词库例如PC等缩写词等价于个人计算机等标准词,否定词库包括有敏感词等,停止词库包括“啊、吧、的”等常用于结尾的词。 针对一句话,首先依据停止词库拆分为不同词或短句,其次判断拆分后词或短句是否还有敏感词,若含有敏感词则将其进行隐藏,而后依照等价词库将拆分后词或短句进行标准化,最终依据名词库,语句库进行最终分词。 进一步的,分词之后,判断所分词语在句子中是否属于最大单元,若是则不再处理,否则按最大单元进行分词。所述最大单元指组成单一词组的最长字符。举例来说,目标文档中包含本文第一句话“本专利技术所提供的基于权限信息的录入和检索方法”,句中“本”、“专利技术”均作为一单独词被分开,分词后,判断“本”在句子中是否属于最大单元,其判断方法为判断将“本”和“专利技术”连在一起是否构成一个词,若构成一个词,则“本专利技术”在句子中属于最大单元。 步骤S103:将分词结果与目标文档进行关联,存储至索引文件。 若一篇目标文档分词分出100个不同的词,本步骤分别将上述100词依据各个词在文中的位置顺序加载一特定标识,存储至索引文件。所述索引文件可以是一数据库或服务器等存储装置或存储区域。进一步的,还将后文所述的目标文档的标题、权限信息以及其他信息(目标文档的创建时间、大小、类型等元数据信息)加载所述特定标识,即同一篇文档的文档内容、标题、权限信息以及其他信息等绑定在一起,共同录入索引文件,由本文档来自技高网...

【技术保护点】
一种索引文件的录入方法,其特征在于,包括步骤:A、解析出目标文档的内容,对解析出的内容进行分词处理,生成不同的各个词语;B、解析出目标文档的权限信息,对解析出的权限信息进行分词处理,生成具有权限信息唯一性的格式;C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识,并存储至索引文件。

【技术特征摘要】
1.一种索引文件的录入方法,其特征在于,包括步骤: A、解析出目标文档的内容,对解析出的内容进行分词处理,生成不同的各个词语; B、解析出目标文档的权限信息,对解析出的权限信息进行分词处理,生成具有权限信息唯一'I生的格式; C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识,并存储至索引文件。2.根据权利要求1所述的方法,其特征在于,步骤A所述解析前还包括: 依据目标文档实体的后缀名选择对应的文档解析器。3.根据权利要求1所述的方法,其特征在于,步骤A还包括:判断所生成的词语在句子中是否属于最大单元,若否则将以最大单元进行分词,所述最大单元包括组成单一词组的最长字符。4.根据权利要求1所述的方法,其特征在于,所述目标文档权限信息包括通用唯一识别码、全局唯一标识符和/或特定字符串。5.根据权利要求1或4所述的方法,其特征在于,步骤B所述分词处理的步骤包括: B1、以一定字符长度且以分隔符结尾为分词依据,判断所述权限信息在所述字符长...

【专利技术属性】
技术研发人员:管延军蒋红宇蔡景彪
申请(专利权)人:北京海泰方圆科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1