【技术实现步骤摘要】
一种融合正排与倒排索引的电子文档管理方法
[0001]本专利技术涉及计算机软件领域,具体涉及一种融合正排与倒排索引的电子文档管理方法。
技术介绍
[0002]随着信息科技的发展,电子文档管理系统正在逐步地被越来越多的企业作为文档的主要管理方案。然而,现在的电子文档管理系统的主要功能偏向于管理,很少注重对海量文本内容的高效检索。即便很多电子文档管理系统具有检索功能,受限于管理系统普遍采用关系型结构化数据库(其使用正排索引搜索引擎)的限制,还是很难在海量文本中进行高效的检索。而单纯的以倒排索引数据库为底层的管理系统可以对海量文本进行高效检索,却很难对文档进行有效结构化管理。
技术实现思路
[0003]本专利技术的目的在于提出一种融合正排与倒排索引的电子文档管理方法。
[0004]实现本专利技术目的的技术解决方案为:一种融合正排与倒排索引的电子文档管理方法,包括以下步骤:
[0005]步骤1,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,编码设计统一的访问接口,支持对两种数据库的统 ...
【技术保护点】
【技术特征摘要】
1.一种融合正排与倒排索引的电子文档管理方法,其特征在于,包括以下步骤:步骤1,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,并封装统一的数据库API对两种数据库进行融合引接;步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联;步骤3,当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。2.根据权利要求1所述的融合正排与倒排索引的电子文档管理方法,其特征在于,步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联,具体方法为:(1)在录入数据之前,初始化搜索引擎为正排索引的数据库的表结构,包括目录表及电子文档表,其中目录表为自关联表,它的父级目录属性引用了该表的主键;电子文档表的父目录属性是一个外键,其引用了目录表的主键;(2)确定待存储文档的类别,包括一级目录、二级目录、自身名称,上传并解析文件,获取标题及全文内容,为该文档生成一个全局ID;(3)查询出文档的直接父目录在目录表的ID,如果不存在,去目录表中建立相关目录数据,将本文档的ID、标题及父目录的ID录入正...
【专利技术属性】
技术研发人员:任岩,顾爽,潘月浩,张露,徐夏,陶昊然,金晨,蒙森荣,
申请(专利权)人:苏州空天信息研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。