搜索控制方法和系统技术方案

技术编号:15691016 阅读:28 留言:0更新日期:2017-06-24 03:52
本发明专利技术提出了一种搜索控制方法和系统。所述方法包括:获取与用户请求相对应的用户质量标签,用户质量标签是根据用户使用历史得到的;以及至少基于用户质量标签给出与用户请求相对应的搜索结果。由此,可以根据用户的质量等级返回相应等级的搜索结果。另外,还可以根据搜索系统的当前流量来调整针对部分或全部用户的搜索服务等级。

Search control method and system

The invention provides a search control method and system. The method comprises: acquiring user quality labels corresponding to the user request, the user quality label is used according to the user history; and at least based on the quality of the user label given with user request corresponding to the search results. As a result, the corresponding level of search results can be returned according to the quality grade of the user. In addition, the search service level for some or all of the users can also be adjusted according to the current traffic of the search system.

【技术实现步骤摘要】
搜索控制方法和系统
本专利技术涉及网络技术,尤其涉及一种搜索控制方法和系统。
技术介绍
搜索服务方需要夜以继日地为网络用户提供各种各类的搜索服务。搜索后台是一个复杂的系统,每一次查询都会涉及到数百个节点的服务,耗费大量的机器资源。为了保证提供优质的搜索服务,搜索服务方需要识别爬虫,将其剔除搜索系统以保护优质资源。在传统的搜索系统中,爬虫识别功能单一,通常是统计IP或者用户ID等信息的访问频率等。如果访问频率高于某个阈值则返回一个输入验证码的页面,只有当用户输入了正确的验证码时才能继续正常的访问服务。这样的策略过于简单,没有针对搜索业务的场景进行优化,也没有针对不同级别的用户提供有针对性的服务内容,并且频繁返回验证码页面会导致用户的体验下降。
技术实现思路
鉴于如上至少一个问题,本专利技术提出了一种新的搜索控制方案。该控制方案能够基于用户的使用历史对正常用户进行分级,并且能够在日常搜索场景中根据需要对不同级别的用户返回不同的搜索结果内容。在系统发生灾难时,能够有选择地保障高优用户的搜索体验。另外,本专利技术的搜索控制方案优化了各类服务器、存储器和运营维护之间的关系,从而提升了搜索系统抗风险和防爬取的能力。根据本专利技术的一个方面,提出了一种搜索控制方法,包括:获取与用户请求相对应的用户质量标签,所述用户质量标签是根据用户使用历史得到的;以及至少基于所述用户质量标签给出与所述用户请求相对应的搜索结果。这样,能够根据一个用户的使用历史对该用户进行标记,并且根据该标记决定要返回给该用户的搜索结果。优选地,用户质量标签可以是对离线日志中用户的历史使用记录进行行为特征分析得到的标签。由此,能够合理获取使用记录并加以分析,就能够得到更为准确的用户质量标签,从而能够提供更有针对性的服务。优选地,用户质量标签可以是根据用户使用历史对用户进行分级的标签,并且向用户返回的搜索结果的质量可由上述分级来决定。由此,确保搜索能力在不同级别用户之间更为合理的分配。优选地,返回的搜索结果可以包括与搜索请求相对应的具有不同质量级别的搜索结果,具有不同质量级别的搜索结果可以包括惩罚性搜索结果,而惩罚性搜索结果可以包括要求输入验证码或是拒绝搜索。由此,通过对搜索结果的分级,并且加入惩罚性结果,能够进一步对优质和恶意用户给出有针对性的反馈,从而提升系统效率。优选地,还可以根据用户请求确定如下的至少一项:用户位于白名单中,和发出用户请求的应用不属于搜索控制目标,以及基于如上确定的至少一项,避免对用户请求给出惩罚性搜索结果。通过为特定用户或特定应用发放白名单,能够确保一些重要用户和服务的照常进行。优选地。还可以根据用户请求确定如下的至少一项:所述用户请求包括爬虫标记,所述用户位于黑名单中,和所述用户未通过正常用户验证,以及基于如上确定的至少一项,对所述用户请求给出惩罚性搜索结果。由此,能够针对恶意用户给出惩罚性措施。优选地,基于所述用户质量标签和实时集群搜索状态给出与所述用户请求相对应的搜索结果。由此,能够根据搜索系统的整体状态调整返回的搜索结果。优选地,在实时集群搜索状态指示搜索服务故障或拥塞时,优先保证针对用户质量标签指示的高级别用户给出的搜索结果的质量等级。由此,实现在搜索资源受限时的合理资源分配。优选地,可以基于用户质量标签以及与用户请求相关的预定周期内的搜索频率给出与所述用户请求相对应的搜索结果,并且与用户请求相关的预定周期内的搜索频率包括如下的至少一项:所述用户的IP或cookie在预定周期内的搜索频率;送入所述用户请求的上层站点在预定周期内的搜索频率;和预定周期内特定搜索意图下的搜索频率。由此,除了常规的IP或cookie判断之外,还能够根据搜索渠道和意图进行搜索控制,从而提升了搜索控制所涉及的维度。根据本专利技术的另一个方面,提出了一种搜索控制系统,包括一个或多个核心服务器和数据存储系统,其中,所述一个或多个核心服务器用于:根据所述用户请求从所述数据存储系统获取用户质量标签,所述用户质量标签是根据用户使用历史得到的;至少基于所述用户质量标签给出与所述用户请求相对应的搜索结果。优选地,用户质量标签可以是所述核心服务器对所述数据存储系统存储的离线日志中用户的历史使用记录进行行为特征分析得到的标签。优选地,用户质量标签可以是根据用户使用历史对用户进行分级的标签,并且核心服务器可以给出向特定用户给出质量级别与其级别相匹配的搜索结果。优选地,本专利技术的搜索控制系统还可以包括一个或多个统计服务器,所述一个或多个统计服务器可以统计搜索系统的实时集群搜索状态,并且,所述一个或多个核心服务器可以基于从所述统计服务器获取的实时集群搜索状态决定返回给各个用户的各个搜索结果的质量级别。例如,一个或多个核心服务器可以在所述实时集群搜索状态指示搜索服务故障或拥塞时,优先保证针对用户质量标签指示的高级别用户给出的搜索结果的质量等级。优选地,本专利技术的搜索控制系统还可以包括还包括一个或多个统计服务器,所述一个或多个统计服务器统计与所述用户请求相关的预定周期内的搜索频率,所述搜索频率包括如下的至少一项:所述用户的IP或cookie在预定周期内的搜索频率;送入所述用户请求的上层站点在预定周期内的搜索频率;和预定周期内特定搜索意图下的搜索频率,并且所述一个或多个统计服务器将统计结果存入所述数据存储系统,并且针对特定项目在预定周期内的搜索频率由一个特定统计服务器统计,所述一个或多个核心服务器根据从所述统计服务器获取的所述搜索频率,给出与所述用户请求相对应的搜索结果,另外,一个或多个核心服务器也可以根据特定参数来决定使用或是避免使用惩罚。一个或多个核心服务器可以是个数可扩展的并行服务器。数据存储系统则可以包括数据存储路径存储部以及分布式的数据存储部。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了根据本专利技术一个实施例的搜索控制方法的流程图。图2示出了根据本专利技术一个实施例的搜索控制系统的示意图。图3示出了根据本专利技术原理的搜索控制系统的一个具体应用例的示意图。图4示出了图3所示搜索控制系统的一个具体应用流程的示意图。图5示出了命令行工具的一个例子。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。搜索服务方需要夜以继日地为网络用户提供各种各类的搜索服务。搜索后台是一个复杂的系统,每一次查询都会涉及到数百个节点的服务,耗费大量的机器资源。尤其对于全网搜索服务提供方而言,其搜索服务面对着复杂多样的用户环境。由于没有账号体系,搜索服务的使用几乎没有成本。一些恶意使用者能够轻易地监控搜索内容并抓取大量优质数据。为了保证提供优质的搜索服务,本专利技术提供了一种QoS(QualityofService)系统,其能够更为准确地识别爬虫,将其剔除搜索服务以保护优质资源。另外,本专利技术的系统和方案还会根据大数据对正常用户分级,让不同级别的用户获取到不同的内本文档来自技高网...
搜索控制方法和系统

【技术保护点】
一种搜索控制方法,包括:获取与用户请求相对应的用户质量标签,所述用户质量标签是根据用户使用历史得到的;以及至少基于所述用户质量标签给出与所述用户请求相对应的搜索结果。

【技术特征摘要】
1.一种搜索控制方法,包括:获取与用户请求相对应的用户质量标签,所述用户质量标签是根据用户使用历史得到的;以及至少基于所述用户质量标签给出与所述用户请求相对应的搜索结果。2.如权利要求1所述的方法,其中,所述用户质量标签是对离线日志中用户的历史使用记录进行行为特征分析得到的标签。3.如权利要求1所述的方法,其中,所述用户质量标签是根据用户使用历史对用户进行分级的标签,并且至少基于所述用户质量标签给出与所述用户请求相对应的搜索结果包括:给出与所述用户请求相对应的、具有与所述用户质量标签相匹配的质量级别的搜索结果。4.如权利要求1所述的方法,其中,所述搜索结果包括具有不同质量级别的搜索结果,所述具有不同质量级别的搜索结果包括惩罚性搜索结果,所述惩罚性搜索结果包括要求输入验证码或是拒绝搜索。5.如权利要求4所述的方法,还包括:根据所述用户请求确定如下的至少一项:所述用户位于白名单中,和发出所述用户请求的应用不属于搜索控制目标,以及基于如上确定的至少一项,避免对所述用户请求给出惩罚性搜索结果。6.如权利要求4所述的方法,还包括:根据所述用户请求确定如下的至少一项:所述用户请求包括爬虫标记,所述用户位于黑名单中,和所述用户未通过正常用户验证,以及基于如上确定的至少一项,对所述用户请求给出惩罚性搜索结果。7.如权利要求1所述的方法,其中,基于所述用户质量标签和实时集群搜索状态给出与所述用户请求相对应的搜索结果。8.如权利要求7所述的方法,其中,在所述实时集群搜索状态指示搜索服务故障或拥塞时,优先保证针对所述用户质量标签指示的高级别用户给出的搜索结果的质量等级。9.如权利要求1所述的方法,其中,基于所述用户质量标签以及与所述用户请求相关的预定周期内的搜索频率给出与所述用户请求相对应的搜索结果,并且与所述用户请求相关的预定周期内的搜索频率包括如下的至少一项:所述用户的IP或cookie在预定周期内的搜索频率;送入所述用户请求的上层站点在预定周期内的搜...

【专利技术属性】
技术研发人员:丁亦川张强张添翼
申请(专利权)人:广东神马搜索科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1