一种融合正排与倒排索引的电子文档管理方法技术

技术编号:37701339 阅读:26 留言:0更新日期:2023-06-01 23:46
本发明专利技术提出了一种融合正排与倒排索引的电子文档管理方法,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,并封装统一的数据库API对两种数据库进行融合引接;电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联;当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。本发明专利技术既满足了电子文档管理的结构化管理及存储功能,又实现了海量文本内容的高效检索功能。内容的高效检索功能。内容的高效检索功能。

【技术实现步骤摘要】
一种融合正排与倒排索引的电子文档管理方法


[0001]本专利技术涉及计算机软件领域,具体涉及一种融合正排与倒排索引的电子文档管理方法。

技术介绍

[0002]随着信息科技的发展,电子文档管理系统正在逐步地被越来越多的企业作为文档的主要管理方案。然而,现在的电子文档管理系统的主要功能偏向于管理,很少注重对海量文本内容的高效检索。即便很多电子文档管理系统具有检索功能,受限于管理系统普遍采用关系型结构化数据库(其使用正排索引搜索引擎)的限制,还是很难在海量文本中进行高效的检索。而单纯的以倒排索引数据库为底层的管理系统可以对海量文本进行高效检索,却很难对文档进行有效结构化管理。

技术实现思路

[0003]本专利技术的目的在于提出一种融合正排与倒排索引的电子文档管理方法。
[0004]实现本专利技术目的的技术解决方案为:一种融合正排与倒排索引的电子文档管理方法,包括以下步骤:
[0005]步骤1,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,编码设计统一的访问接口,支持对两种数据库的统一访问操作,实现对两种数据库进行融合引接;
[0006]步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联;
[0007]步骤3,当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。
[0008]进一步的,步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联,具体方法为:
[0009](1)在录入数据之前,初始化搜索引擎为正排索引的数据库的表结构,包括目录表及电子文档表,其中目录表为自关联表,它的父级目录属性引用了该表的主键;电子文档表的父目录属性是一个外键,其引用了目录表的主键;
[0010](4)确定待存储文档的类别,包括一级目录、二级目录、自身名称,上传并解析文件,获取标题及全文内容,为该文档生成一个全局ID;
[0011](5)查询出文档的直接父目录在目录表的ID,如果不存在,去目录表中建立相关目录数据,将本文档的ID、标题及父目录的ID录入正排索引数据库;将本文档的ID、标题及全文内容经分词后录入到倒排索引数据库,这样,两种类型的数据库里的数据便通过电子文档的ID实现了相互关联。
[0012]进一步的,步骤3,当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索,具体方法为:
[0013](1)如果确定文件的具体名称及类别信息,那么通过它的类别一级一级的找到该份文档,即在正排索引数据库中查找;
[0014](2)如果不确定文档的具体名称及类别信息,那么依据文档内的某个关键词,通过倒排索引数据库检索文档;
[0015]一种融合正排与倒排索引的电子文档管理系统,其特征在于,基于所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。
[0016]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。
[0017]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的融合正排与倒排索引的电子文档管理方法,实现融合正排与倒排索引的电子文档管理。
[0018]本专利技术与现有技术相比,其显著优点为:既满足了电子文档管理的结构化管理及存储功能,又实现了海量文本内容的高效检索功能。
附图说明
[0019]图1是正排索引原理图。
[0020]图2是倒排索引原理图。
[0021]图3是融合正排与倒排索引的电子文档管理方法的原理图;
[0022]图4是融合正排与倒排索引的电子文档管理方法的流程图。
具体实施方式
[0023]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0024]正排索引是通过key找value,如图1所示。当添加新的文档时,为其新建一个块空间,接在原来索引文件的后面即可;当删除文档时,直接找到该文档对应的索引信息,将其删除。传统的关系型数据库的搜索引擎一般采用正排索引。倒排索引是通过value找key,即通过属性值找文档,如图2所示。通过倒排索引可以以关键词快速获取包含这个词的文档。
[0025]据此,本专利技术提出一种融合正排与倒排索引的电子文档管理方法,如图3所示,包括如下步骤:
[0026]步骤1,分别选择一种采用正排索引搜索引擎的数据库(可理解为传统的关系型数据库)及一种采用倒排索引搜索引擎的数据库。对数据库的调用进行封装,实现同一个应用系统连接两种类型的数据库。
[0027]步骤2,当存储文件时,对需要录入的数据进行划分,根据需要将不同类型的数据录入到对应的数据库。包括以下过程:
[0028](1)在录入数据之前,首先要确认是否已初始化搜索引擎为正排索引的数据库即关系型数据库的表结构。主要是一张目录表及一张电子文档表。如果没有,需要先建立表。其中目录表为自关联表,它的父级目录属性引用了该表的主键;电子文档表的父目录属性是一个外键,其引用了目录表的主键。
[0029](6)确定待存储文档的类别,包括一级目录、二级目录、自身名称等。上传并解析文件,获取标题及全文内容。为该文档生成一个全局ID。
[0030](7)查询出文档的直接父目录在目录表的ID,如果不存在,去目录表中建立相关目录数据。将本文档的ID、标题及父目录的ID录入正排索引数据库;将本文档的ID、标题及全文内容经分词后录入到倒排索引数据库。这样,两种类型的数据库里的数据便可通过电子文档的ID相互关联。
[0031]步骤3,当查找文档时,根据不同的需求,可以通过文档的结构信息在正排索引数据库中进行查找;也可通过文中关键词在倒排索引数据库中实现文档全文高效检索。包括以下方面:
[0032](1)如果知道文件的概要信息,那么通过它的类别可以一级一级得很方便地找到该份文档,这是在正排索引数据库中查找的。
[0033](2)如果不知道文档的具体名称及类别信息,那么依据文档内的某个关键词,也可以通过基于倒排索引的数据库很迅速地检索出文档。
[0034](3)倒排索引检索的一个更典型的应用是当你想在该系统中找出所有含有某关键词的文档时,输入该关键词,你可以很迅速地在海量文本中检索出所有相关文档。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合正排与倒排索引的电子文档管理方法,其特征在于,包括以下步骤:步骤1,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,并封装统一的数据库API对两种数据库进行融合引接;步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联;步骤3,当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。2.根据权利要求1所述的融合正排与倒排索引的电子文档管理方法,其特征在于,步骤2,电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联,具体方法为:(1)在录入数据之前,初始化搜索引擎为正排索引的数据库的表结构,包括目录表及电子文档表,其中目录表为自关联表,它的父级目录属性引用了该表的主键;电子文档表的父目录属性是一个外键,其引用了目录表的主键;(2)确定待存储文档的类别,包括一级目录、二级目录、自身名称,上传并解析文件,获取标题及全文内容,为该文档生成一个全局ID;(3)查询出文档的直接父目录在目录表的ID,如果不存在,去目录表中建立相关目录数据,将本文档的ID、标题及父目录的ID录入正...

【专利技术属性】
技术研发人员:任岩顾爽潘月浩张露徐夏陶昊然金晨蒙森荣
申请(专利权)人:苏州空天信息研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1