全文检索方法和全文检索装置制造方法及图纸

技术编号:19778336 阅读:37 留言:0更新日期:2018-12-15 11:19
本发明专利技术提供了一种全文检索方法和全文检索装置,其中,全文检索方法包括:在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。通过本发明专利技术技术方案,在全文检索时,缓解了系统的内存压力,节省了系统资源,提高了索引更新速度,降低了程序设计的复杂度,增强了系统的可扩展性。

【技术实现步骤摘要】
全文检索方法和全文检索装置
本专利技术涉及全文检索
,具体而言,涉及一种全文检索方法和一种全文检索装置。
技术介绍
相关技术中,信息数据中海量的非机构化数据进行处理时,需要使用全文检索技术,该技术首先对非结构化数据进行处理,使其变得有一定结构并对其保存,搜索过程类似字典查字过程,针对关键词进行查找。全文检索支持的常用功能有单库检索、多库检索、统计检索、排序检索、消重检索、精确检索等。全文检索系统的按域统计和按域排序功能,依赖文档对应域的域值信息,为了保证速度,避免频繁的读取磁盘文件,全文检索系统通常将过程中使用到的数据预加载至系统内存中,若要对多个域支持按域统计或排序,需要将每一个域的数据均预加载至全文检索系统内存中,上述技术方案存在以下弊端:(1)随着支持的域的个数的增加,全文检索的内存消耗不断上涨,增加系统压力。(2)对于有更新需求的域,由于全文检索基于倒排索引的检索结构,需标记旧数据并删除,然后为待更新数据新建索引,进而导致更新速度慢;每一次更新往往只涉及数据当中的有限部分,并不需要重建索引,系统资源浪费严重;索引更新过程需要复杂的线程同步策略,使得程序设计复杂化。(3)需要增加或删除对特定域的按域统计或排序支持时,必须删除所有索引重建,浪费系统资源,系统可扩展性差。
技术实现思路
本专利技术正是基于上述技术问题至少之一,提出了一种新的全文检索技术方案,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中,缓解了系统的内存压力,节省了系统资源,提高了索引更新速度,降低了程序设计的复杂度,增强了系统的可扩展性。有鉴于此,本专利技术提出了一种全文检索方法,包括:在将存储域的数据导入至各个内存的内存数据库时,每个内存数据库对应的一个索引库;将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。在该技术方案中,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,不再需要反复的索引重建,增强了全文检索系统的可扩展性;当存储域的数据需要更新时,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当执行按域统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的按域统计和排序功能。其中,索引库中存储有数据的索引,并且索引与存储域的数据具有一一对应关系,存储域的数据更新的实现一般由删除和增加操作联合完成,存储域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求。在上述技术方案中,优选地,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;对文档文件创建索引,并解析文档文件的标识信息;判断文档文件的标识信息是否与索引库中的任一预存标识信息匹配;在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,将文档文件的标识信息写入对应的索引库。在该技术方案中,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取存储域的数据对应的文档文件,并对文档文件创建索引,同时解析文档文件的包含有导入记录信息的标识信息,为避免在索引库重复写入,需要对文档文件的标识信息与索引库中的任一预存标识信息进行匹配,在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,再将文档文件的标识信息写入对应的索引库,提高了全文索引的准确性。在上述任一项技术方案中,优选地,还包括:在将存储域的数据导入至内存数据库时,若检测到索引的数量大于预设数量,则创建导入任务进程以批量导入存储域的数据。在该技术方案中,在将存储域的数据导入至内存数据库时,通过检测索引的数量与预设数量匹配,在判定索引的数量大于预设数量时,需要导入和新写入索引对应的存储域的数据,创建导入任务进程,调用内存数据库的接口,以批量导入存储域的数据,实现了存储域的数据的批量增加,不需要反复的重建索引,节省了全文检索系统的系统资源且降低了程序设计的复杂程度。在上述任一项技术方案中,优选地,还包括:在检测到任一索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。在该技术方案中,通过遍历索引库中的索引,当检测到任一索引被删除时,创建删除任务进程,调用内存数据库的接口,以将被删除索引对应的已导入数据删除,实现了同步删除存储域的数据,且仅在内存数据库中进行操作,也不再需要反复的索引重建,增强了全文检索系统的可扩展性。在上述任一项技术方案中,优选地,还包括:在根据标识信息确定存储域的数据为初次导入时,不对已导入数据的执行上载操作。在该技术方案中,考虑到在全文检索服务器启动时,需要将存储域的数据导入内存数据库中,该过程需要一定时间且会创建大量任务包在任务队列中,为减轻系统压力,通过对包含有导入记录信息的标识信息进行检测,确定存储域的数据为初次导入时系统不同时上载数据。根据本专利技术第二方面,还提出了一种全文检索装置,包括:生成单元,用于在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;写入单元,用于将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。在该技术方案中,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,不再需要反复的索引重建,增强了全文检索系统的可扩展性;当存储域的数据需要更新时,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当执行按域统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的按域统计和排序功能。其中,索引库中存储有数据的索引,并且索引与存储域的数据具有一一对应关系,存储域的数据更新的实现一般由删除和增加操作联合完成,存储域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求。在上述技术方案中,优选地,生成单元还包括:上载子单元,用于在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;创建子单元,用于对文档文件创建索引,并解析文档文件的标识信息;判断子单元,用于判断文档文件的标识信息是否与索引库中的任一预存标识信息匹配;写入单元还用于:在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,将文档文件的标识信息写入对应的索引库。在该技术方案中,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取存储域的数据对应的文档文件,并对文档文件创建索引,同时解析文档文件的包含有导入记录信息的标识信息,为避免在索引库重复写入,需要对文档文件的标识信息与索引库中的任一预存标识信息进行匹配,在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,再将文档文件的标识信息写入对应的索引库,提高了全文索引的准确性。在上述任一项技术方案中,优选地,创建子单元还用于:在将存储域的数据导入至内存数据库时,若检测本文档来自技高网...

【技术保护点】
1.一种全文检索方法,其特征在于,包括:在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;将每个所述内存数据库中导入数据的存储域写入对应的索引库,其中,所述索引库中存储有所述数据的索引。

【技术特征摘要】
1.一种全文检索方法,其特征在于,包括:在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;将每个所述内存数据库中导入数据的存储域写入对应的索引库,其中,所述索引库中存储有所述数据的索引。2.根据权利要求1所述的全文检索方法,其特征在于,在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库,具体包括:在将所述存储域的数据导入至所述内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;对所述文档文件创建索引,并解析所述文档文件的标识信息;判断所述文档文件的标识信息是否与所述索引库中的任一预存标识信息匹配;在判定所述文档文件的标识信息不与所述索引库中的任一预存标识信息匹配时,将所述文档文件的标识信息写入对应的索引库。3.根据权利要求2所述的全文检索方法,其特征在于,还包括:在将所述存储域的数据导入至所述内存数据库时,若检测到所述索引的数量大于预设数量,则创建导入任务进程以批量导入所述存储域的数据。4.根据权利要求2或3所述的全文检索方法,其特征在于,还包括:在检测到任一所述索引被删除时,创建删除任务进程,以将被删除索引对应的已导入数据删除。5.根据权利要求2或3所述的全文检索方法,其特征在于,还包括:在根据所述标识信息确定所述存储域的数据为初次导入时,不对所述已导入数据的执行所述上载操作。6.一种全文检索装置,其特征在于,包括...

【专利技术属性】
技术研发人员:师光强张丹于晓明王卿
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1