一种优化搜索引擎的方法及系统技术方案

技术编号:17879000 阅读:39 留言:0更新日期:2018-05-06 00:47
本发明专利技术实施例公开了一种优化搜索引擎的方法及系统,其中所述方法包括:定期获取倒排索引库中的高频词项,检查所述高频词项是否在预先建立的搜索词库中,其中,所述搜索词库中保存有用户输入的搜索词;如果所述高频词项不在所述搜索词库中,则在所述倒排索引库中删除所述高频词项及其索引,并把所述高频词项添加到不建索引词项库中。本发明专利技术实施例通过减少倒排索引库的规模,从而降低搜索引擎的存储空间和提升搜索引擎的搜索效率。

A method and system for optimizing the search engine

An embodiment of the invention discloses a method and system for optimizing a search engine, in which the method includes: regularly obtaining high frequency terms in the inverted index library, checking whether the high frequency term is in a pre established search word library, where the search word is saved by the useful user in the search word library, and if the high frequency is high frequency. The word item is not in the search word library, and the high frequency word item and its index are deleted in the inverted index library, and the high frequency word item is added to the non indexed term library. The embodiment of the invention reduces the storage size of the search engine and improves the search efficiency of the search engine by reducing the scale of the inverted index library.

【技术实现步骤摘要】
一种优化搜索引擎的方法及系统
本专利技术涉及全文检索领域,尤其涉及一种优化搜索引擎的方法及系统。
技术介绍
随着互联网技术的快速发展,网络上的信息量每天都在飞速增加,网民主要通过搜索引擎筛选获取自己所需要的信息。搜索引擎从互联网上搜集网页信息,利用分词技术和网页排名算法构建词项的倒排索引库,网民输入搜索词,搜索引擎从倒排索引库中查找该搜索词,找到搜索词对应的网页并展现给网民。由于网民要搜索的关键词是不可预期的,搜索引擎通过建立全量的分词倒排索引库以满足用户的搜索需求。但是这种方法仍存在如下问题:倒排索引库中大量的关键词从来不会被用户搜索,造成倒排索引库的存储空间的浪费,降低了搜索引擎的搜索效率。
技术实现思路
本专利技术实施例提供了一种优化搜索引擎的方法及系统,以实现降低搜索引擎的存储空间,提升搜索引擎的搜索效率。第一方面,本专利技术实施例提供了一种优化搜索引擎的方法,包括:定期获取倒排索引库中的高频词项,检查所述高频词项是否在预先建立的搜索词库中,其中,所述搜索词库中保存有用户输入的搜索词;如果所述高频词项不在所述搜索词库中,则在所述倒排索引库中删除所述高频词项及其索引,并把所述高频词项添加到不建索引词项库中。第二方面,本专利技术实施例还提供了一种优化搜索引擎的系统,包括:获取检查模块,用于定期获取倒排索引库中的高频词项,检查所述高频词项是否在预先建立的搜索词库中,其中,所述搜索词库中保存有用户输入的搜索词;处理模块,用于如果所述高频词项不在所述搜索词库中,则在所述倒排索引库中删除所述高频词项及其索引,并把所述高频词项添加到不建索引词项库中。本专利技术实施例提供的一种优化搜索引擎的方法及系统,通过将倒排索引库中的高频词项与搜索词库中的搜索词进行比对,删除倒排索引库中的用户从不检索的高频词项,有效消减倒排索引库的规模,降低搜索引擎的存储空间,提升搜索引擎的搜索效率。附图说明图1是本专利技术实施例一提供的一种优化搜索引擎的方法的流程示意图;图2是本专利技术实施例二提供的一种优化搜索引擎的方法的流程示意图;图3是本专利技术实施例三提供的一种优化搜索引擎的系统的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种优化搜索引擎的方法的流程图,本实施例可适用于对搜索引擎进行优化的情况,该方法可以由优化搜索引擎的系统来执行,具体包括如下步骤:步骤110、定期获取倒排索引库中的高频词项,检查所述高频词项是否在预先建立的搜索词库中。倒排索引是一种索引方法,用于存储在全文搜索下某个关键词在一个文档或者一组文档中的存储位置的映射,即关键词到文档ID的映射,每个关键词都对应着一系列的文档,这些文档中都出现这个关键词。通过倒排索引,可以根据关键词快速获取包含这个关键词的文档列表。表1示出了倒排索引库的一种示例,如下:表1关键词文档ID词频技术1、14、26、123、267、2637、……92345贝叶斯3、26、28783、……123北京23、21、123、3214、43232、3244、……71234说明56、323、4433、343、244、2323、……9874动手2、23、45、678、1234、743998、……1234如表1所示,倒排索引库主要包括关键词、关键词对应的文档ID以及关键词的词频,其中,可以根据关键词的词频由大到小对关键词进行排序,筛选出词频排在前N项的关键词作为高频词项,示例性的,表1所示的倒排索引库中,关键词“技术”、“北京”、“说明”的词频最高,根据相应的词频排序后,可将它们作为高频词项。搜索词库用于保存有用户输入的搜索词,优选的,还保存搜索词的词频与搜索日期,表2示出了搜索词库的一种示例,如下:表2搜索词最近搜索日期词频贝叶斯2017-09-21132万达评级下调2017-09-1923日本解散众议院2017-09-231244红黄蓝上市2017-08-123244倒排索引2017-05-0922422具体的,把用户输入的搜索词保存在搜索词库之前,还需判断该搜索词是否在搜索词库中,如果该搜索词不在搜索词库中,新增该搜索词并初始化该搜索词的词频为1,同时初始化该搜索词最近搜索日期为当日,如果该搜索词在搜索词库中已存在则该搜索词的词频加1,并更新最近搜索日期。在本实施例中,优选的可根据搜索词的词频由高到低对搜索词进行排序,倒排索引词库中的每一个高频词项从搜索词词频最高的搜索词开始一一进行比对,检查高频词项是否在搜索词库中,如果高频词项在搜索词库中,循环检查下一个词项。由此提升比对的效率。同时结合搜索日期可统计用户在某段时间内的检索规律,为以后优化搜索引擎提供一定参考。系统定期获取倒排索引库中的高频词项,具体的,系统依据配置文件定期获取倒排索引库中的高频词项,其中,所述配置文件中设置有获取倒排索引库中的高频词项的周期和数目。步骤120、如果所述高频词项不在所述搜索词库中,则在所述倒排索引库中删除所述高频词项及其索引,并把所述高频词项添加到不建索引词项库中。如果系统定期获取的高频词项不在所述搜索词库中,即是该高频词项从来没有被用户搜索过,因此将该高频词项从倒排索引库中删除,并添加到不建索引词项库中,以减少倒排索引库的规模。在本实施例中,通过将倒排索引库中的高频词项与搜索词库中的搜索词进行比对,删除倒排索引库中的用户从不检索的高频词项,有效消减倒排索引库的规模,降低搜索引擎的存储空间,提升搜索引擎的搜索效率。实施例二图2为本专利技术实施例二提供的一种优化搜索引擎的方法的流程示意图。本实施例在上述实施例的基础上进行优化,把所述高频词项添加到不建索引词项库中之后增加了以下步骤:对获取的网页进行分词处理,检查每个分词是否在所述不建索引词项库中;对于在所述不建索引词项库中的分词,则不需建立其倒排索引;对于不在所述不建索引词项库中的分词,则在倒排索引库中构建其倒排索引。由此,在向不建索引词项库添加词项之后,搜索引擎对新获取的网页进行分词,检查分词是否在不建索引词项库中,以决定是否构建该分词的倒排索引。相应的,本实施例的方法包括以下步骤:步骤210、定期获取倒排索引库中的高频词项,检查所述高频词项是否在预先建立的搜索词库中。步骤220、如果所述高频词项不在所述搜索词库中,则在所述倒排索引库中删除所述高频词项及其索引,并把所述高频词项添加到不建索引词项库中。步骤230、对获取的网页进行分词处理,检查每个分词是否在所述不建索引词项库中,对于在所述不建索引词项库中的分词执行步骤240,反之执行步骤250。对网页进行分词处理,优选的可以通过分词词库对网页文本内容进行分词,可将网页文本内容与分词词库中的词汇进行匹配,筛选出匹配成功的分词。筛选出的分词与不建索引词项库中的词项进行比对,检查筛选出的分词是否在不建索引词项库中。步骤240、对于在所述不建索引词项库中的分词,则不需建立其倒排索引。如果分词在不建索引词项库中,则说明该分词是用户从不进行检索的词项,为节省倒排索引库的空间,可不对该分词建立倒排索引。步骤250、对于不在所述不建索引词项库本文档来自技高网...
一种优化搜索引擎的方法及系统

【技术保护点】
一种优化搜索引擎的方法,其特征在于,包括:定期获取倒排索引库中的高频词项,检查所述高频词项是否在预先建立的搜索词库中,其中,所述搜索词库中保存有用户输入的搜索词;如果所述高频词项不在所述搜索词库中,则在所述倒排索引库中删除所述高频词项及其索引,并把所述高频词项添加到不建索引词项库中。

【技术特征摘要】
1.一种优化搜索引擎的方法,其特征在于,包括:定期获取倒排索引库中的高频词项,检查所述高频词项是否在预先建立的搜索词库中,其中,所述搜索词库中保存有用户输入的搜索词;如果所述高频词项不在所述搜索词库中,则在所述倒排索引库中删除所述高频词项及其索引,并把所述高频词项添加到不建索引词项库中。2.根据权利要求1所述的方法,其特征在于,在把所述高频词项添加到不建索引词项库中之后,所述方法还包括:对获取的网页进行分词处理,检查每个分词是否在所述不建索引词项库中;对于在所述不建索引词项库中的分词,则不需建立其倒排索引;对于不在所述不建索引词项库中的分词,则在倒排索引库中构建其倒排索引。3.根据权利要求1所述的方法,其特征在于,所述定期获取倒排索引库中的高频词项包括:依据配置文件定期获取倒排索引库中的高频词项,其中,所述配置文件中设置有获取倒排索引库中的高频词项的周期和数...

【专利技术属性】
技术研发人员:谢永恒于吉胜火一莽万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1