一种全文检索系统中索引信息的更新方法以及装置制造方法及图纸

技术编号:8883252 阅读:195 留言:0更新日期:2013-07-04 02:04
本发明专利技术公开了一种全文检索系统中索引信息的更新方法以及装置,包括:该全文检索系统中索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,第一索引信息为针对文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,第二索引信息为针对文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息。全文检索系统对动态更新属性的数据域对应的数据进行监控,在监控到动态更新属性的数据域对应的数据存在新的数据后,对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息。采用本技术方案,能够提高全文检索系统中索引信息的更新效率。

【技术实现步骤摘要】

本专利技术涉及信息检索
,尤其涉及一种全文检索系统中索引信息的更新方法以及装置
技术介绍
全文检索系统是目前应用非常普及的一种检索系统,该检索系统主要根据预先建立的倒排索引文件确定出与用户终端提交的检索词匹配的文档,该文档一般为包括用户终端提交的各检索词的文档。随着信息技术的发展以及检索需求的增加,在全文检索系统中,可能需要更新保存的文档中的部分数据域以实时反映保存的数据的状态,从而保证检索获取的信息的有效性。例如,在索引库中文档的主要内容不变的情况下,需要对该文档包括的部分数据域进行更新,如更新图书对应文档中包括的购买次数、点击量等数据域的数据,由于此类数据域的数据会随着用户的使用而不断更新,因此,数据更新成为全文检索系统处理数据的一个重要方面。全文检索系统一般都采用倒排索引标识索引库中保存的文档,根据倒排索引文件格式的设计特点,一个文档的信息会散布在索引文件的多处位置,文档的标记会被包含在该文档的所有词项的对应文档列表中,从而使得倒排索引系统无法通过在现有索引上简单地修改某些数据项来实现索引的更新。目前,在更新数据的实际操作中,一般是对文档中的部分数据进行更新,将该更新后的新文档保存至全文检索系统的索引库中,并删除旧文档。这种方式需要将整个文档的内容再次提交到全文检索系统,这在只需要更新文档中部分数据域的数据的情况下,由于需要对文档中未更新的数据域中的数据重新创建索引,从而会消耗大量的时间,更新的效率很低,尤其在高频率更新的情况下,对全文检索系统的更新效率的影响会更加严重,甚至会影响检索的性能。综上所述,现有全文检索系统对应只有部分数据域的数据更新的文档,会针对该文档中的全部数据重新建立索引信息,从而降低了全文检索系统中索引信息的更新效率。
技术实现思路
有鉴于此,本专利技术实施例提供一种全文检索系统中索引信息的更新方法以及装置,采用该技术方案,能够提高全文检索系统中索引信息的更新效率。本专利技术实施例通过如下技术方案实现:根据本专利技术实施例的一个方面,提供了一种全文检索系统中索引信息的更新方法,所述索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,所述第一索引信息为针对所述文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,所述第二索引信息为针对所述文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;所述更新方法,包括:全文检索系统对所述动态更新属性的数据域对应的数据进行监控;在监控到所述动态更新属性的数据域对应的数据存在新的数据后,对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息。根据本专利技术实施例的另一个方面,还提供了一种全文检索系统中索引信息的更新装置,包括:索引信息建立单元,用于建立索引信息,所述索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,所述第一索引信息为针对所述文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,所述第二索引信息为针对所述文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;监控单元,用于对所述索引信息建立单元建立的第一索引信息对应的所述动态更新属性的数据域对应的数据进行监控;索引信息更新单元,用于在所述监控单元监控到所述动态更新属性的数据域对应的数据存在新的数据后,对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息。通过本专利技术实施例提供的上述至少一个技术方案,全文检索系统在建立索引信息时,将索引信息分成两个索引信息,即包括对应同一文档标识的第一索引信息以及第二索引信息,其中,第一索引信息为针对文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,第二索引信息为针对文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息。基于该索引信息,全文检索系统在监控到动态更新属性的数据域对应的数据存在新的数据后,只需要对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息。本技术方案与现有技术相比,全文检索系统在监控到索引信息包括的第一索引信息对应的动态更新属性的数据域中的数据存在新的数据后,只需对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息,而无需针对整个文档重新建立索引,从而与现有技术相比,提高了全文检索系统中索引信息的更新效率。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例一提供的一种全文检索系统中索引信息的更新的流程示意图;图2为本专利技术实施例一提供的全文检索系统查询文档的流程示意图;图3为本专利技术实施例一提供的全文检索系统建立上述存储位置与第二标识的对应关系的流程示意图;图4为本专利技术实施例一提供的全文检索系统根据检索请求进行检索的流程示意图5为本专利技术实施例二提供的建立全文检索系统中索引信息的流程示意图;图6为本专利技术实施例二提供的全文检索系统中索引信息的更新的流程示意图;图7为本专利技术实施例三提供的全文检索系统根据检索请求进行检索的流程示意图;图8为本专利技术实施例四提供的一种全文检索系统中索引信息的更新装置的结构示意图;图9为本专利技术实施例四提供的一种全文检索系统中索引信息的更新装置的又一结构示意图;图10为本专利技术实施例四提供的一种全文检索系统中索引信息的更新装置的又一结构示意图。具体实施例方式为了给出提高全文检索系统中索引信息的更新效率的实现方案,本专利技术实施例提供了一种全文检索系统中索引信息的更新方法以及装置,以下结合说明书附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术提供的技术方案中,全文检索系统在最初建立索弓I信息时,会确定出文档的文档标识,例如,该文档标识可以为设定关键字段(KeyField)的值,也可以为能表征文档特征的值,此处不再一一例举,并根据数据是否存在更新的需求确定该数据的属性,具体地,将文档中有更新需求的数据设置为动态更新属性的数据,相应的将保存该动态更新属性的数据的数据域称为动态更新属性的数据域;将文档中除动态更新属性的数据之外的数据标识为非动态更新属性,相应的,将保存该非动态更新属性的数据的数据域称为非动态更新属性的数据域。针对上述动态更新属性的数据域中的数据,全文检索系统将对应确定出的文档标识建立动态索引信息,本技术方案以下统称第一索引信息,对应上述非动态更新属性的数据域中的数据,全文检索系统将对应确定出的文档标识建立非动态索引信息,本技术方案以下统称第二索引信息。实施例一该实施例一提供了一种全文检索系统中索引信息的更新方法,该方法能够应用在全文检索系统中,通过在全文检索系统中应用本技术方案,能够克服现有技术中全文检索系统对应只有部分数据域的数据更新的文档,会本文档来自技高网
...

【技术保护点】
一种全文检索系统中索引信息的更新方法,其特征在于,所述索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,所述第一索引信息为针对所述文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,所述第二索引信息为针对所述文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;所述更新方法,包括:全文检索系统对所述动态更新属性的数据域对应的数据进行监控;在监控到所述动态更新属性的数据域对应的数据存在新的数据后,对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐剑波童征宇闫进兵
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1