一种索引文件的录入和基于该索引文件的检索方法技术

技术编号：11083392 阅读：97 留言：0更新日期：2015-02-26 09:56

本发明专利技术所提供的一种索引文件的录入方法，包括步骤：A、解析出目标文档的内容，对解析出的内容进行分词处理，生成不同的各个词语；B、解析出目标文档的权限信息，对解析出的权限信息进行分词处理，生成具有权限信息唯一性的格式；C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识，并存储至索引文件。对应还提供一种基于上述方法录入的索引文件的检索方法，采用对权限信息的分词确保其唯一性，在检索过程中不用拆分检索请求，也无需进行二次检索，便同时满足文档检索结果与权限检索结果，避免在文档还原过程中因全文检索命中率的问题至权限不可用，提高检索文档检索命中率。

全部详细技术资料下载

【技术实现步骤摘要】
—种索引文件的录入和基于该索引文件的检索方法
本专利技术涉及信息安全
，特别涉及。
技术介绍
现有基于权限的索引技术通常采用的技术为将权限信息存入数据库或索引文件，将所接收的权限与在先存入的进行比较。其中，常用方法包括:完全解偶的二次权限数据筛选，与三次库表检索结果与摘要的合并。具体包括以下步骤:带权限的全文检索请求；把检索请求拆分成两部分:全文检索、库表权限检索；合并全文检索结果与库表权限检索；返回全文检索请求的结果集。采用上述方法的不足在于:三次数据的处理，导致时间的大幅度延长。另外，还可采用在库表中首次权限检索，利用库表中预绑定的全文检索引擎文档唯一标识与要查询的关键词进行二次检索。具体包括以下步骤:在全文中新建文档时把文档在全文检索引擎中的ID记录到数据库中；收到带权限的全文检索请求；把检索请求拆分成两部分:库表权限检索、全文检索；利用库表权限检索结果与要检索的关键字进行全文检索；返回全文检索请求的结果集。采用上述方法的不足在于:两次检索提高了检索效率，但是还是进行了二次检索；并且全文检索引擎中的ID发生变化时要追加到数据库表中，而全文检索引擎中的ID会经常发生变动，追加的数据分析会延长文档加入全文检索引擎的时间，而且检索时对文档ID进行了预分析。
技术实现思路
有鉴于此，本专利技术的主要目的在于，提供，采用对权限信息的进行分词，在检索过程中实现100%命中权限信息。其中，索引文件的录入方法包括步骤: A、解析出目标文档的内容，对解析出的内容进行分词处理，生成不同的各个词语； B、解析出目标文档...

【技术保护点】
一种索引文件的录入方法，其特征在于，包括步骤：A、解析出目标文档的内容，对解析出的内容进行分词处理，生成不同的各个词语；B、解析出目标文档的权限信息，对解析出的权限信息进行分词处理，生成具有权限信息唯一性的格式；C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识，并存储至索引文件。

【技术特征摘要】
1.一种索引文件的录入方法，其特征在于，包括步骤: A、解析出目标文档的内容，对解析出的内容进行分词处理，生成不同的各个词语； B、解析出目标文档的权限信息，对解析出的权限信息进行分词处理，生成具有权限信息唯一'I生的格式； C、分别将步骤A和步骤B的分词结果加载一代表其属于所述目标文档的标识，并存储至索引文件。2.根据权利要求1所述的方法，其特征在于，步骤A所述解析前还包括: 依据目标文档实体的后缀名选择对应的文档解析器。3.根据权利要求1所述的方法，其特征在于，步骤A还包括:判断所生成的词语在句子中是否属于最大单元，若否则将以最大单元进行分词，所述最大单元包括组成单一词组的最长字符。4.根据权利要求1所述的方法，其特征在于，所述目标文档权限信息包括通用唯一识别码、全局唯一标识符和/或特定字符串。5.根据权利要求1或4所述的方法，其特征在于，步骤B所述分词处理的步骤包括: B1、以一定字符长度且以分隔符结尾为分词依据，判断所述权限信息在所述字符长...

【专利技术属性】
技术研发人员：管延军，蒋红宇，蔡景彪，
申请(专利权)人：北京海泰方圆科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人