一种搜索方法及装置,电子设备制造方法及图纸

技术编号:19177343 阅读:29 留言:0更新日期:2018-10-17 00:22
本申请提供了一种搜索方法,属于搜索技术领域,用于解决现有技术中对于具有多文本索引域的信息,无法获得准确的搜索结果的问题。所述方法包括:确定与查询文本匹配的至少一个第一搜索策略,其中,每个所述第一搜索策略对应至少一个文本索引域及所述文本索引域匹配的搜索权重;基于每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作;将上述所有搜索操作的搜索结果进行归并输出。通过本申请公开的方法避免了在不相关的文本索引域字面命中带来误召回,有效提升了结果的相关性;并且通过对不同文本域索引匹配相应的搜索权重,优化了搜索结果的排位,有效提高了搜索结果的准确率。

Search method and device, electronic equipment

The present application provides a search method belonging to the field of search technology for solving the problem that accurate search results cannot be obtained for information with multi-text indexing fields in the prior art. The method comprises determining at least one first search strategy matching the query text, wherein each first search strategy corresponds to a search weight matching at least one text index field and the text index field, and executing separately in each of the corresponding text index fields based on each of the first search strategies. The search operation of the query text is carried out, and the search results of all the search operations are merged and output. The method disclosed in this application avoids the false recall caused by literal hits in unrelated text index fields, and effectively improves the relevance of the results; and through matching the corresponding search weights of different text index fields, the ranking of search results is optimized, and the accuracy of search results is effectively improved.

【技术实现步骤摘要】
一种搜索方法及装置,电子设备
本申请涉及计算机
,特别是涉及一种搜索方法及装置,电子设备。
技术介绍
随着互联网技术的发展,互联网上的信息呈爆炸式的增长,越来越多的用户通过互联网的信息搜索沟通从海量信息中获取自己关注的内容。而现有技术中,基于用户输入的文本进行信息搜索的搜索引擎,通常是基于文本相关性执行搜索服务。搜索引擎发展伊始,网页也是传统互联网的主要信息载体,因而,现有技术中的搜索方法主要针对网页搜索,基本能够获得用户关注的内容。然而,随着移动互联网的发展,O2O(Online-to-Offline)平台提供的本地生活化服务,极大的方便了人们的生活,在O2O平台上的搜索需求也逐渐增多。与网页不同,O2O平台的信息描述载体往往都具有多个文本索引域,用于从不同的角度对平台服务进行具体的描述。比如:我们描述一个提供具体餐饮服务商家POI(PointofInterest),可能会从商家名称、商家注册公司名称、品牌名称、商家所处商圈、商家地址、商家主营菜品、商家营业时间等等角度来进行描述。通常,O2O平台上的描述性文本索引域有时多达五十个以上,并且,这些文本索引域描述的信息往往并不相关,利用传统网页搜索方法对所有文本索引域进行信息检索很难获得全面的、准确的用户关注的内容。可见,现有技术中的搜索方法至少存在以下缺陷:对于具有多文本索引域的信息,无法获得准确的搜索结果的问题。
技术实现思路
本申请提供一种搜索方法,解决现有技术中对于具有多文本索引域的信息,无法获得准确的搜索结果的问题。为了解决上述问题,第一方面,本申请实施例提供了一种搜索方法,包括:确定与查询文本匹配的至少一个第一搜索策略,其中,每个所述第一搜索策略对应至少一个文本索引域及所述文本索引域匹配的搜索权重;基于每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作;将上述所有搜索操作的搜索结果进行归并输出。第二方面,本申请实施例提供了一种搜索装置,包括:第一搜索策略确定模块,用于确定与查询文本匹配的至少一个第一搜索策略,其中,每个所述第一搜索策略对应至少一个文本索引域及所述文本索引域匹配的搜索权重;搜索模块,用于基于所述第一搜索策略确定模块确定的每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作;搜索结果输出模块,用于将上述所有搜索操作的搜索结果进行归并输出。第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例公开的所述的搜索方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的所述搜索方法的步骤。本申请实施例公开的搜索方法,通过确定与查询文本匹配的至少一个第一搜索策略,其中,每个所述第一搜索策略对应至少一个文本索引域以及所述文本索引域的匹配的搜索权重;然后,基于每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作;最后,将上述所有搜索操作的搜索结果进行归并输出,解决了现有技术中对于具有多文本索引域的信息,无法获得准确的搜索结果的问题。通过在与查询文本关联的文本索引域执行搜索操作,使得同一查询文本仅在其对应的文本索引域进行检索,不需要检索所有的文本索引域,从而避免了在不相关的文本索引域字面命中带来误召回,有效提升了结果的相关性;并且通过对不同文本域索引匹配相应的搜索权重,优化了搜索结果的排位,有效提高了搜索结果的准确率。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例一的搜索方法的流程图;图2是本申请实施例二的搜索方法的流程图;图3是本申请实施例三的搜索方法的流程图;图4是本申请实施例四的搜索装置的结构图之一;图5是本申请实施例四的搜索装置的结构图之二;图6是本申请实施例四的搜索装置的结构图之三;图7是本申请实施例四的搜索装置的结构图之四。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一本申请公开的一种搜索方法,如图1所示,该方法包括:步骤100至步骤120。本申请的搜索方法包括两类搜索策略,即:第一搜索策略、第二搜索策略。其中,第一搜索策略仅针对搜索物料的部分文本索引域执行搜索操作,第二搜索策略针对搜索物料的全部文本索引域执行搜索操作。步骤100,确定与查询文本匹配的至少一个第一搜索策略。其中,每个所述第一搜索策略对应至少一个文本索引域,以及所述文本索引域匹配的搜索权重。搜索策略用于限定所查询的检索物料的文本索引域以及所述文本索引域匹配的相应搜索权重。具体实施时,每个所述搜索策略对应至少一个文本索引域,每个所述文本索引域具有相同或不同的权重。每个所述搜索策略对应的文本索引域各自对应相同或不同的查询文本。文本索引域是用来建立索引的文本索引域,如倒排索引中,用来建立倒排索引的文本索引域,文本索引域的内容通常是有意义的文本,用来描述搜索物料的某一方面。以搜索物料为描述一个提供具体餐饮服务商家为例,搜索物料的兴趣点POI(PointofInterest),可能会有商家名称、商家注册公司名称、品牌名称、商家所处商圈、商家地址、商家主营菜品、商家营业时间等等字段,这些文本字段即是文本索引域。如搜索物料:金百万位于望京花园的分店,该搜索物料的poi_name为:金百万烤鸭店(望京花园点),其中,poi_name是系统中文本索引域的名称(如:商家名称),而后面的文本即是该文本索引域的内容,将被用来建立倒排索引。本专利技术的实施例中,所述文本索引域用于表示检索物料的字段,获取待搜索的查询文本之后,首先确定所述查询文本匹配的搜索策略。具体实施时,可以预先设置多个搜索策略,并设置与每个搜索策略对应的查询文本。例如,设置搜索策略包括:商家策略、地标策略、菜名策略等;然后,分别设置每个搜索策略对应的查询文本,如设置商家策略对应的查询文本包括:金百万、肯德基、全聚德等。具体实施时,所述待搜索的查询文本可以是用户在客户端的搜索栏中输入的查询文本,也可以是客户端根据用户的历史行为日志自动生成的查询文本。例如,客户端检测到某一女性用户进入化妆品销售页面后,根据用户的年龄信息给用户推动相关的搜索结果,此时,客户端首先根据用户的信息生成查询文本(如:中年女性),然后,调用搜索引擎对自动生成的查询文本执行搜索操作。当通过人工预先建立的查询文本与搜索策略的对应关系确定所述查询文本匹配的至少一个搜索策略时,首先需要建立查询文本与搜索策略的对应关系。如:设置查询文本“肯德基”、“金百万”对应商家策略。在设置查询文本与搜索策略的对应关系时,同时设置每个检索策略包含的文本索引域,以及每个文本本文档来自技高网...

【技术保护点】
1.一种搜索方法,其特征在于,包括:确定与查询文本匹配的至少一个第一搜索策略,其中,每个所述第一搜索策略对应至少一个文本索引域及所述文本索引域匹配的搜索权重;基于每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作;将上述所有搜索操作的搜索结果进行归并输出。

【技术特征摘要】
1.一种搜索方法,其特征在于,包括:确定与查询文本匹配的至少一个第一搜索策略,其中,每个所述第一搜索策略对应至少一个文本索引域及所述文本索引域匹配的搜索权重;基于每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作;将上述所有搜索操作的搜索结果进行归并输出。2.根据权利要求1所述的方法,其特征在于,所述确定与查询文本匹配的至少一个第一搜索策略的步骤,包括:根据预先设置的第一搜索策略和查询文本的对应关系,确定与查询文本匹配的至少一个第一搜索策略;或,通过预先训练的每个第一搜索策略的分类器对查询文本分别进行识别,确定与所述查询文本匹配的至少一个第一搜索策略。3.根据权利要求2所述的方法,其特征在于,若通过预先训练的每个第一搜索策略的分类器对查询文本分别进行识别,确定与所述查询文本匹配的至少一个第一搜索策略,则所述确定与查询文本匹配的至少一个第一搜索策略的步骤之前,还包括:基于搜索日志训练第一搜索策略的分类器。4.根据权利要求3所述的方法,其特征在于,所述基于搜索日志训练第一搜索策略的分类器的步骤,包括:对搜索日志进行聚类,生成搜索策略空间定义,所述搜索策略空间定义用于表示不同第一搜索策略和查询文本的映射关系;基于每个所述第一搜索策略对应的搜索日志,分别训练相应的第一搜索策略的分类器。5.根据权利要求2所述的方法,其特征在于,若通过预先训练的每个第一搜索策略的分类器对查询文本分别进行识别,确定与所述查询文本匹配的至少一个第一搜索策略,则所述确定与查询文本匹配的至少一个第一搜索策略的步骤之前,还包括:确定每个第一搜索策略对应的文本索引域,及每个文本索引域匹配的搜索权重。6.根据权利要求5所述的方法,其特征在于,所述确定每个第一搜索策略对应的文本索引域,及每个文本索引域匹配的搜索权重的步骤,包括:对于每个第一搜索策略,获取基于该第一搜索策略对应的查询文本执行所有文本索引域的搜索操作的搜索日志;根据所述搜索日志中查询文本在各文本索引域的命中得分,迭代计算各文本索引域的平均权重;根据各文本索引域的平均权重确定该第一搜索策略匹配的文本索引域以及各文本索引域匹配的搜索权重。7.根据权利要求1所述的方法,其特征在于,所述基于每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作的步骤,包括:根据搜索物料的相应文本索引域与所述查询文本的相关性执行物料召回;其中,所述相关性基于相应文本索引域的搜索权重确定。8.根据权利要求1所述的方法,其特征在于,所述基于每个所述第一搜索策略,在其对应的每个所述文本索引域分别执行所述查询文本的搜索操作的步骤之后,还包括:基于第二搜索策略对应的每个所述文本索引域,分别执行所述查询文本的搜索操作;其中,所述第二搜索策略对应搜索物料的全部文本索引域,且每个所述文本索引域的搜索权重相同。9.根据权利要求8所述的方法,其特征在于,所述将上述所有搜索操作的搜索结果进行归并输出的步骤之后,还包括:当满足预设条件时,基于所述第二搜索策略对应的搜索日志训练并更新所述第一搜索策略的分类器。10.根据权利要求9所述的方法,其特征在于,所述预设条件包括以下至少一项:达到预设更新周期、第一点击率与第二点击率的比值大于预设阈值;其中,所述第一点击率为对基于所述第二搜索策略执行搜索操作的搜索结果的点击率,所述第二点击率为对基于第一搜索策略执行搜索操作的搜索结果的点击率。11.一种搜索装置,其特征在于,包括:第一搜索策略确定模块,用于确定与查...

【专利技术属性】
技术研发人员:刘铭陈达遥庞盟盟冯涛曾之肇魏永超潘文彬
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1