提高网站站内搜索效率的方法和装置制造方法及图纸

技术编号:15265639 阅读:149 留言:0更新日期:2017-05-03 23:44
本申请公开了一种提高网站站内搜索效率的方法和装置。其中,该方法包括:从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL;根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式;从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面;利用匹配式对第一搜索结果页的URL进行匹配;以及在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。本申请解决了现有技术中用户的搜索效率比较低的技术问题。

Method and device for improving search efficiency in website

The invention discloses a method and a device for improving the search efficiency in a website. Among them, the method includes: from the access log access to the target site, uniform resource locator extraction target site search results page with URL; the search results page of URL according to the target web site, determine the matching type to match the target site of the search results page; the first second keywords, keyword extraction, first the search results page of URL, the first target page from the access log; using the matching of the first search results page URL matching and matching; and the first match in the search results page URL is successful, and the first second keywords associated target page. The utility model solves the technical problem that the search efficiency is low in the prior art.

【技术实现步骤摘要】

本申请涉及搜索领域,具体而言,涉及一种提高网站站内搜索效率的方法和装置
技术介绍
在以往网站建设、企业信息系统搭建过程中,由于信息结构简单、内容稀缺,站内搜索不是网站系统的必要装备。但随着Web2.0带来的海量信息井喷式涌现,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是站内搜索出现了。通常情况下,用户在进行网站站内搜索时,如果结果页中没有想要的结果,会通过改变搜索关键词的方式继续尝试找到自己想要的结果。在用户找到想要的页面之前,可能会经历数次无效的搜索,不能快速找到目标页面。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种提高网站站内搜索效率的方法和装置,以至少解决现有技术中用户搜索效率比较低的技术问题。根据本申请实施例的一个方面,提供了一种提高网站站内搜索效率的方法,包括:从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。进一步地,关联所述第二关键词和所述第一目标页面包括:添加所述第二关键词至所述第一目标页面的页面标签。进一步地,所述匹配式为正则表达式,利用所述匹配式对所述第一搜索结果页的URL进行匹配包括:判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。进一步地,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:在所述目标网站部署日志获取程序;以及运行所述日志获取程序以获取所述访问日志。进一步地,从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL包括:从所述访问日志中提取URL域名为所述目标网站的域名的URL,得到所述目标网站的站内搜索结果页的URL。根据本申请实施例的另一方面,提供了一种提高网站站内搜索效率的装置,包括:第一提取单元,用于从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;确定单元,用于根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;第二提取单元,用于从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;匹配单元,用于利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及关联单元,用于在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。进一步地,所述关联单元包括:添加子单元,用于添加所述第二关键词至所述第一目标页面的页面标签。进一步地,所述匹配式为正则表达式,所述匹配单元包括:判断子单元,用于判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。进一步地,所述装置包括:部署单元,用于在所述第一提取单元从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,在所述目标网站部署日志获取程序;以及运行单元,用于运行所述日志获取程序以获取所述访问日志。进一步地,所述第一提取单元包括:提取子单元,用于从所述访问日志中提取URL域名为所述目标网站的域名的URL,得到所述目标网站的站内搜索结果页的URL。在本申请实施例中,采用从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL,根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式,从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词,第一搜索结果页为接收到第一关键词后加载的页面,第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面,第二关键词为在接收到第一关键词之前接收到的关键词,并且在接收到第二关键词后,目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,第二搜索结果页为接收到第二关键词后加载的页面,利用匹配式对第一搜索结果页的URL进行匹配,以及在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。通过读取用户的访问日志,得到用户使用的关键词、访问过的页面的URL,根据目标网站的站内搜索结果页的URL,构造能够匹配目标网站的站内搜索结果页的匹配式,使用匹配式对用户的搜索结果页进行匹配,筛选出用户进行站内搜索的搜索结果页。把本次有效站内搜索之前进行的无效搜索的关键词与本次有效站内搜索所搜索出的目标网站页面进行关联,使用户输入无效搜索关键词后也能搜索出想要的页面,解决了现有技术中网站站内搜索效率低的技术问题,达到了提高网站站内搜索效率的技术效果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种提高网站站内搜索效率的方法的流程图;以及图2是根据本申请实施例的一种提高网站站内搜索效率的装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文档来自技高网
...
提高网站站内搜索效率的方法和装置

【技术保护点】
一种提高网站站内搜索效率的方法,其特征在于,包括:从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。

【技术特征摘要】
1.一种提高网站站内搜索效率的方法,其特征在于,包括:从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。2.根据权利要求1所述的方法,其特征在于,关联所述第二关键词和所述第一目标页面包括:添加所述第二关键词至所述第一目标页面的页面标签。3.根据权利要求1所述的方法,其特征在于,所述匹配式为正则表达式,利用所述匹配式对所述第一搜索结果页的URL进行匹配包括:判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。4.根据权利要求1所述的方法,其特征在于,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:在所述目标网站部署日志获取程序;以及运行所述日志获取程序以获取所述访问日志。5.根据权利要求1所述的方法,其特征在于,从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL包括:从所述访问日志中提取URL域名为所述目标网站的域名的URL,得到所述目标网站的站内搜索结果页的URL。6.一种提高网站站内搜索...

【专利技术属性】
技术研发人员:李新国
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1