一种全文检索文档数据库的方法及装置制造方法及图纸

技术编号:6960353 阅读:224 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种全文检索文档数据库的方法及装置,包括:查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;按照业务分类文档数据库中的文档,生成文档数据子库;为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。应用本发明专利技术,可以提高全文检索的查询效率。

【技术实现步骤摘要】

本专利技术涉及检索技术,特别涉及一种全文检索文档数据库的方法及装置
技术介绍
当前运营商在信息化支撑领域的发展方向是以企业用户为中心,加强组织、流程、 人员的协作。其中,办公自动化系统(OA,Office Automation)、知识管理系统作为企业信息化的不可或缺核心系统,其中涉及的知识文档、公文文档一般采用文档数据库进行管理并提供搜索引擎,用户可以通过输入关键字词的方式进行检索获取需要的文档信息。文档数据库属于数据库范畴,可以共享相同的数据,具有数据的物理独立性和逻辑独立性,数据和程序分离,允许创建许多不同类型的非结构化的或任意格式的字段,提供非结构化数据处理,不提供对参数完整性和分布事务的支持,关于文档数据库的其它相关内容,可参见相关的技术文献,在此不再赘述。文档数据库的产品,例如,Lotus Domino/Notes,目前应用十分广泛,企业能够充分利用文档数据库集成的开发环境的优势,即文档数据库的文档和表单驱动的应用开发模式,可以有效地缩短开发周期。由于在文档数据库中,可以任意为记录添加字段,可以添加列表型的字段,可以处理富文本格式(RTF,Rich Text Format)域、附件这样的大对象。因而,提供了灵活的数据处理方式。文档数据库以文档(文件)的形式存储特定的业务数据的内容,因而,在使用过程中存在的最大问题就是面对海量的知识文档和办公自动化系统附件,如何能够帮助用户尽快定位其需要的知识和办公自动化系统附件。现有技术中一般通过文档数据库自身提供的全文检索去查询文档数据库中的文档,这样,在文档数量较大时,全文检索往往会得到一个较大的结果集,用户面对的还是一个海量的数据结果,无法满足用户的查询要求。具体来说,首先,全文检索查询效率低,例如在工作流自动化应用方面,随着公文文档数量增加,文档数据库容量日益增大,由于数据库容量的增长,文档数据库对数据处理的能力大大降低, 尤其在数据查询检索方面,使得查询检索所需时间大大增加、查询效率显著下降。其次,查询结果不精确,由于文档数据库内嵌的搜索引擎对全文检索支持较差,例如,文档中可能包含不同格式的附件,举例来说,一个文档中可以包含WORD附件、PDF附件等,因此,在进行全文检索时,需要文档数据库提供针对不同格式的附件的解析器以便进行检索并读取附件中的内容,而文档数据库内嵌的搜索引擎不具有解析器,因而,在文档中存在不同格式的附件时,可能导致用户无法查找到需要的文档或返回一个完全不相关的文档集合。
技术实现思路
有鉴于此,本专利技术的主要目的在于提出一种全文检索文档数据库的方法,提高全文检索的查询效率。本专利技术的另一目的在于提出一种全文检索文档数据库的装置,提高全文检索的查询效率。为达到上述目的,本专利技术提供了一种全文检索文档数据库的方法,该方法包括查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;按照业务分类文档数据库中的文档,生成文档数据子库;为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。进行文档转换后的文档结构为可扩展标记语言文档结构。所述接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档具体包括数据库中的文档文档数据库中的搜索程序接收用户输入的搜索关键字词,根据搜索关键字词搜索关系数据库中的全文索引目录,查找与搜索关键字词匹配的全文索引目录,然后根据查找得到的全文索引目录,定位该全文索引目录对应的文档数据库中的文档,并将得到的文档信息返回给搜索用户。在所述接收用户输入的搜索关键字词的步骤之后,匹配关系数据库中的全文索引目录的步骤之前,进一步包括对用户输入的搜索关键字词进行分词处理。在所述匹配关系数据库中的全文索引目录的步骤之后,获取匹配的全文索引目录对应的文档数据库中的文档的步骤之前,进一步包括将匹配的全文索引目录信息作为初次搜索结果信息向用户显示,根据用户从初次搜索结果信息中选择的全文索引目录信息, 执行所述获取匹配的全文索引目录对应的文档数据库中的文档的步骤。进一步包括判断文档修改日志是否发生变化,如果是,读取文档修改日志,并与全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据。所述判断文档修改日志是否发生变化,如果是,读取文档修改日志,并与全文索引目录中的索引进行对比,获取需要同步的文档数据,修改索引中的相应数据具体包括在检测到文档数据库中的文档被修改时,触发索引程序,索引程序读取文档的修改日志,并与全文索引目录中的索引进行对比,发现该文档的数据发生了变化,确认需要同步修改索引中的相关数据,启用索引同步程序对该文档的索引进行更新。一种全文检索文档数据库的装置,该装置包括文档数据库模块、文档转换模块、 关系数据库模块以及搜索引擎模块,其中,文档数据库模块,用于按照业务分类文档数据库中的文档,生成文档数据子库;文档转换模块,用于查询文档数据子库文档中的附件并对查询得到的附件进行文档转换;关系数据库模块,用于为生成的文档数据子库建立全文索引目录;搜索引擎模块,用于接收用户输入的搜索关键字词,匹配关系数据库模块中的全文索引目录,获取匹配的全文索引目录,从文档数据库模块中获取匹配的全文索引目录对应的文档。进一步包括分词模块,用于接收用户输入的搜索关键字词,根据预先设定的规则判断是否对搜索关键字词进行分词,如果是,将分词后的搜索关键字词输入搜索引擎模块,否则,直接将搜索关键字词输入搜索引擎模块。所述文档数据库模块进一步用于存储文档修改日志,所述装置进一步包括全文索引目录更新模块,用于判断文档数据库模块中的文档修改日志是否发生变化,如果是,读取文档修改日志,并与关系数据库模块中全文索引目录中的索引进行对比, 获取需要同步的文档数据,修改索引中的相应数据。由上述的技术方案可见,本专利技术提供的一种全文检索文档数据库的方法及装置, 查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;按照业务分类文档数据库中的文档,生成文档数据子库;为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。这样,通过对文档数据库建立分布式的索引目录,并通过文档转换技术实现不同类型文档附件的全文索引,可以提高全文检索的查询效率以及查询结果的精确度。附图说明图1为本专利技术实施例全文检索文档数据库的方法流程示意图。图2为本专利技术实施例进行文档转换以及生成全文索引的示意图。图3为本专利技术实施例通过增量索引机制进行全文检索的方法流程示意图。图4为本专利技术实施例全文检索文档数据库的装置结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术作进一步地详细描述。现有技术中,文档数据库以文档的形式存储特定的业务数据的内容,其基于业务数据的内容与用户输入的搜索关键字词进行匹配,使得查询效率低,因而,本专利技术实施例中,考虑引入高度结构化的关系数据库,并通过文档转换技术实现不同类型文档附件的全文索引,用以提供对参数完整性和分本文档来自技高网
...

【技术保护点】
1.一种全文检索文档数据库的方法,其特征在于,该方法包括:查询文档中的附件并对查询得到的附件按照预先设置的策略进行文档转换;按照业务分类文档数据库中的文档,生成文档数据子库;为生成的文档数据子库建立全文索引目录,并存储在预先设置的关系数据库中;接收用户输入的搜索关键字词,匹配关系数据库中的全文索引目录,获取匹配的全文索引目录对应的文档数据库中的文档。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐锐陈旭毅吴青发
申请(专利权)人:中国移动通信集团贵州有限公司
类型:发明
国别省市:52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1