一种搜索方法和搜索引擎技术

技术编号:15191445 阅读:110 留言:0更新日期:2017-04-20 09:08
本发明专利技术提供了一种搜索方法和搜索引擎,该方法通过预先设置关键词组词库,获取用户输入的搜索词,将搜索词进行分词处理,得到至少两个分词结果,根据关键词组词库,对至少两个分词结果进行筛选,针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果。该方法利用关键词组词库对分词结果进行筛选,剔除无效的分词结果,提高搜索效率。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别涉及一种搜索方法和搜索引擎。
技术介绍
随着信息化时代的到来,通过搜索引擎获取信息,已经成为当前人们获取信息的一个重要方式。目前的搜索方式主要包括:获取用户输入的搜索词,利用分词器对搜索词进行分词处理,并利用分词处理后的每一个分词结果在数据库中进行分别搜索,以得到搜索结果。然而,现有的搜索方式中,由于分词处理后可能包括无效的分词结果,因此,利用无效的分词结果在数据库中进行搜索,提高了搜索工作量,从而影响搜索效率。
技术实现思路
本专利技术实施例提供了一种搜索方法和搜索引擎,可以提高搜索效率。一种搜索方法,预先设置关键词组词库,还包括:获取用户输入的搜索词;将所述搜索词进行分词处理,得到至少两个分词结果;根据所述关键词组词库,对所述至少两个分词结果进行筛选;针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果。优选地,所述关键词组词库中包括:多个关键词组;所述根据所述关键词组词库,对所述至少两个分词结果进行筛选,包括:针对所述至少两个分词结果中的每一个分词结果,分别与所述关键词组词库中包括的每一个关键词组进行匹配,将匹配未成功的分词结果从所述至少两个分词结果中删除,将匹配成功的分词结果添加到筛选后的分词结果中。优选地,所述关键词组词库中包括:多个关键词组以及与每一个关键词组对应的同义词组;所述根据所述关键词组词库,对所述至少两个分词结果进行筛选,包括:针对所述至少两个分词结果中的每一个分词结果,分别与所述关键词组词库中包括的每一个关键词组进行匹配,将匹配成功的分词结果添加到筛选后的分词结果中;将匹配未成功的分词结果与所述关键词组词库中包括的每一个同义词组进行匹配,将匹配未成功的分词结果删除,将匹配成功的分词结果所匹配到的同义词组对应的关键词组添加到筛选后的分词结果中。优选地,所述关键词组词库进一步包括:与每一个关键词组对应的参数值;在所述针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果之后,进一步包括:确定所述搜索结果中与筛选后的每一个分词结果分别对应的子结果;根据筛选后的每一个分词结果对应的关键词组,确定筛选后的每一个分词结果对应的参数值;根据筛选后的每一个分词结果对应的参数值,确定所述搜索结果中包括的各个子结果的参数值,并根据所述搜索结果中包括的各个子结果的参数值,对各个子结果进行排序,生成排序后的所述搜索结果。优选地,所述确定所述搜索结果中包括的各个子结果的参数值,包括:确定与每一个当前子结果对应的筛选后的分词结果;在当前子结果对应一个筛选后的分词结果时,将该对应的一个筛选后的分词结果对应的参数值,确定为该当前子结果的参数值;在当前子结果对应两个以上筛选后的分词结果时,将该对应的两个以上筛选后的分词结果分别对应的参数值的和,确定为该当前子结果的参数值;和/或;所述参数值包括:权重值或使用频率;进一步包括:在所述参数值包括使用频率时,将所述关键词组词库中通过筛选单元匹配成功的分词结果所对应关键词组的使用频率加1。一种搜索引擎,包括:设置单元,用于预先设置关键词组词库,获取单元,用于获取用户输入的搜索词;分词单元,用于将所述获取单元获取的所述搜索词进行分词处理,得到至少两个分词结果,并触发筛选单元;所述筛选单元,用于根据所述设置单元预先设置的所述关键词组词库,对所述至少两个分词结果进行筛选;搜索单元,用于针对所述筛选单元筛选出的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果。优选地,所述关键词组词库中包括:多个关键词组;所述筛选单元,进一步用于针对所述至少两个分词结果中的每一个分词结果,分别与所述关键词组词库中包括的每一个关键词组进行匹配,将匹配未成功的分词结果从所述至少两个分词结果中删除,将匹配成功的分词结果添加到筛选后的分词结果中。优选地,所述关键词组词库中包括:多个关键词组以及与每一个关键词组对应的同义词组;所述筛选单元,进一步用于针对所述至少两个分词结果中的每一个分词结果,分别与所述关键词组词库中包括的每一个关键词组进行匹配,将匹配成功的分词结果添加到筛选后的分词结果中;将匹配未成功的分词结果与所述关键词组词库中包括的每一个同义词组进行匹配,将匹配未成功的分词结果删除,将匹配成功的分词结果所匹配到的同义词组对应的关键词组添加到筛选后的分词结果中。优选地,所述关键词组词库进一步包括:与每一个关键词组对应的参数值;所述搜索单元,进一步用于确定所述搜索结果中与筛选后的每一个分词结果分别对应的子结果;根据筛选后的每一个分词结果对应的关键词组,确定筛选后的每一个分词结果对应的参数值;根据筛选后的每一个分词结果对应的参数值,确定所述搜索结果中包括的各个子结果的参数值,并根据所述搜索结果中包括的各个子结果的参数值,对各个子结果进行排序,生成排序后的所述搜索结果。优选地,所述搜索单元,进一步用于确定与每一个当前子结果对应的筛选后的分词结果;在当前子结果对应一个筛选后的分词结果时,将该对应的一个筛选后的分词结果对应的参数值,确定为该当前子结果的参数值;在当前子结果对应两个以上筛选后的分词结果时,将该对应的两个以上筛选后的分词结果分别对应的参数值的和,确定为该当前子结果的参数值;和/或;所述参数值包括:权重值或使用频率;进一步包括:更新单元,用于在所述参数值包括使用频率时,将所述关键词组词库中通过筛选单元匹配成功的分词结果所对应关键词组的使用频率加1。本专利技术实施例提供了一种搜索方法和搜索引擎,该方法预先设置关键词组词库,获取用户输入的搜索词,将搜索词进行分词处理,得到至少两个分词结果,根据关键词组词库,对至少两个分词结果进行筛选,针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果。该方法利用关键词组词库对分词结果进行筛选,剔除无效的分词结果,提高搜索效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种搜索方法流程图;图2是本专利技术一个实施例提供的另一种搜索方法流程图;图3是本专利技术一个实施例提供的一种搜索引擎结构示意图;图4是本专利技术一个实施例提供的另一种搜索引擎结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种搜索方法,该方法可以包括以下步骤:步骤101:预先设置关键词组词库;步骤102:获取用户输入的搜索词;步骤103:将搜索词进行分词处理,得到至少两个分词结果;步骤104:根据关键词组词库,对至少两个分词结果进行筛选;步骤105:针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果。本专利技术实施例提供了一种搜索方法和搜索引擎,该方法预先设置关键词组词库,获取用户输本文档来自技高网...
一种搜索方法和搜索引擎

【技术保护点】
一种搜索方法,其特征在于,预先设置关键词组词库,还包括:获取用户输入的搜索词;将所述搜索词进行分词处理,得到至少两个分词结果;根据所述关键词组词库,对所述至少两个分词结果进行筛选;针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果。

【技术特征摘要】
1.一种搜索方法,其特征在于,预先设置关键词组词库,还包括:获取用户输入的搜索词;将所述搜索词进行分词处理,得到至少两个分词结果;根据所述关键词组词库,对所述至少两个分词结果进行筛选;针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果。2.根据权利要求1所述的方法,其特征在于,所述关键词组词库中包括:多个关键词组;所述根据所述关键词组词库,对所述至少两个分词结果进行筛选,包括:针对所述至少两个分词结果中的每一个分词结果,分别与所述关键词组词库中包括的每一个关键词组进行匹配,将匹配未成功的分词结果从所述至少两个分词结果中删除,将匹配成功的分词结果添加到筛选后的分词结果中。3.根据权利要求1所述的方法,其特征在于,所述关键词组词库中包括:多个关键词组以及与每一个关键词组对应的同义词组;所述根据所述关键词组词库,对所述至少两个分词结果进行筛选,包括:针对所述至少两个分词结果中的每一个分词结果,分别与所述关键词组词库中包括的每一个关键词组进行匹配,将匹配成功的分词结果添加到筛选后的分词结果中;将匹配未成功的分词结果与所述关键词组词库中包括的每一个同义词组进行匹配,将匹配未成功的分词结果删除,将匹配成功的分词结果所匹配到的同义词组对应的关键词组添加到筛选后的分词结果中。4.根据权利要求2或3所述的方法,其特征在于,所述关键词组词库进一步包括:与每一个关键词组对应的参数值;在所述针对筛选后的每一个分词结果,在搜索内容库中进行搜索,得到搜索结果之后,进一步包括:确定所述搜索结果中与筛选后的每一个分词结果分别对应的子结果;根据筛选后的每一个分词结果对应的关键词组,确定筛选后的每一个分词结果对应的参数值;根据筛选后的每一个分词结果对应的参数值,确定所述搜索结果中包括的各个子结果的参数值,并根据所述搜索结果中包括的各个子结果的参数值,对各个子结果进行排序,生成排序后的所述搜索结果。5.根据权利要求4所述的方法,其特征在于,所述确定所述搜索结果中包括的各个子结果的参数值,包括:确定与每一个当前子结果对应的筛选后的分词结果;在当前子结果对应一个筛选后的分词结果时,将该对应的一个筛选后的分词结果对应的参数值,确定为该当前子结果的参数值;在当前子结果对应两个以上筛选后的分词结果时,将该对应的两个以上筛选后的分词结果分别对应的参数值的和,确定为该当前子结果的参数值;和/或;所述参数值包括:权重值或使用频率;进一步包括:在所述参数值包括使用频率时,将所述关键词组词库中通过筛选单元匹配成功的分词结果所对应关键词组的使用频率加1...

【专利技术属性】
技术研发人员:郭特宇杨培强
申请(专利权)人:山东浪潮商用系统有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1