提高网站站内搜索效率的方法和装置制造方法及图纸

技术编号:15265632 阅读:129 留言:0更新日期:2017-05-03 23:43
本申请公开了一种提高网站站内搜索效率的方法和装置。其中,该方法包括:从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL;根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式;从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面;利用匹配式对第一搜索结果页的URL进行匹配;提取预设时间段内搜索次数高于第一预设数量的第二关键词;检查提取到的第二关键词是否已存储在预设关键词词典中;关联提取到的第二关键词和第一目标页面。本申请解决了现有技术中用户的搜索效率比较低的技术问题。

Method and device for improving search efficiency in website

The invention discloses a method and a device for improving the search efficiency in a website. Among them, the method includes: from the access log access to the target site, uniform resource locator extraction target site search results page with URL; the search results page of URL according to the target web site, determine the matching type to match the target site of the search results page; the first second keywords, keyword extraction, first the search results page of URL, the first target page from the access log; using the matching of the first search results page URL matching; extracting a preset period of time, the search times higher than the first preset number of second key words; second check whether the keyword extraction has been stored in the default keyword dictionary in second and the first target keywords; association to extract. The utility model solves the technical problem that the search efficiency is low in the prior art.

【技术实现步骤摘要】

本申请涉及搜索领域,具体而言,涉及一种提高网站站内搜索效率的方法和装置
技术介绍
在以往网站建设、企业信息系统搭建过程中,由于信息结构简单、内容稀缺,站内搜索不是网站系统的必要装备。但随着Web2.0带来的海量信息井喷式涌现,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是站内搜索出现了。通常情况下,用户在进行网站站内搜索时,如果结果页中没有想要的结果,会通过改变搜索关键词的方式继续尝试找到自己想要的结果。在用户找到想要的页面之前,可能会经历数次无效的搜索,不能快速找到目标页面。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种提高网站站内搜索效率的方法和装置,以至少解决现有技术中用户搜索效率比较低的技术问题。根据本申请实施例的一个方面,提供了一种提高网站站内搜索效率的方法,包括:从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;利用所述匹配式对所述第一搜索结果页的URL进行匹配;在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,提取预设时间段内搜索次数高于第一预设数量的所述第二关键词;检查提取到的所述第二关键词是否已存储在预设关键词词典中,其中,所述预设关键词词典中存储有多个关于所述目标网站的关键词;在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下,关联提取到的所述第二关键词和所述第一目标页面。进一步地,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:在所述目标网站部署日志获取程序;以及运行所述日志获取程序以获取所述访问日志。进一步地,关联提取到的所述第二关键词和所述第一目标页面包括:添加提取到的所述第二关键词至所述第一目标页面的页面标签。进一步地,所述匹配式为正则表达式,利用所述匹配式对所述第一搜索结果页的URL进行匹配包括:判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。进一步地,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:从所述目标网站上获取第二预设数量的文本文件;对获取到的每个所述文本文件的文本内容进行分词;以及将分词后的结果进行汇总,得到所述关键词词典。根据本申请实施例的一个方面,提供了一种提高网站站内搜索效率的装置,包括:第一提取单元,用于从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;确定单元,用于根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;第二提取单元,用于从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;匹配单元,用于利用所述匹配式对所述第一搜索结果页的URL进行匹配;第三提取单元,用于在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,提取预设时间段内搜索次数高于第一预设数量的所述第二关键词;检查单元,用于检查提取到的所述第二关键词是否已存储在预设关键词词典中,其中,所述预设关键词词典中存储有多个关于所述目标网站的关键词;关联单元,用于在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下,关联提取到的所述第二关键词和所述第一目标页面。进一步地,所述装置还包括:部署单元,用于在所述第一提取单元从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,在所述目标网站部署日志获取程序;以及运行单元,用于运行所述日志获取程序以获取所述访问日志。进一步地,所述关联单元包括:添加子单元,用于添加提取到的所述第二关键词至所述第一目标页面的页面标签。进一步地,所述匹配式为正则表达式,所述匹配单元包括:判断子单元,用于判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。进一步地,所述装置还包括:获取单元,用于在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,从所述目标网站上获取第二预设数量的文本文件;分词单元,用于对获取到的每个所述文本文件的文本内容进行分词;以及汇总单元,用于将分词后的结果进行汇总,得到所述关键词词典。在本申请实施例中,采用从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL,根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式,从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词,第一搜索结果页为接收到第一关键词后加载的页面,第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面,第二关键词为在接收到第一关键词之前接收到的关键词,并且在接收到第二关键词后,目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,第二搜索结果页为接收到第二关键词后加载的页面,利用匹配式对第一搜索结果页的URL进行匹配,在匹配式与第一搜索结果页的URL匹配成功的情况下,提取预设时间段内搜索次数高于第一预设数量的第二关键词,检查提取到的第二关键词是否已存储在预设关键词词典中,其中,预设关键词词典中存储有多个关于目标网站的关键词,在检查出提取到的第二关键词已存储在关键词词典中的情况下,关联提取到的第二关键词和第一目标页面。通过读取用户的访问日志,得到用户使用的关键词、访问过的页面本文档来自技高网...
提高网站站内搜索效率的方法和装置

【技术保护点】
一种提高网站站内搜索效率的方法,其特征在于,包括:从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;利用所述匹配式对所述第一搜索结果页的URL进行匹配;在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,提取预设时间段内搜索次数高于第一预设数量的所述第二关键词;检查提取到的所述第二关键词是否已存储在预设关键词词典中,其中,所述预设关键词词典中存储有多个关于所述目标网站的关键词;在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下,关联提取到的所述第二关键词和所述第一目标页面。...

【技术特征摘要】
1.一种提高网站站内搜索效率的方法,其特征在于,包括:从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;利用所述匹配式对所述第一搜索结果页的URL进行匹配;在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,提取预设时间段内搜索次数高于第一预设数量的所述第二关键词;检查提取到的所述第二关键词是否已存储在预设关键词词典中,其中,所述预设关键词词典中存储有多个关于所述目标网站的关键词;在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下,关联提取到的所述第二关键词和所述第一目标页面。2.根据权利要求1所述的方法,其特征在于,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:在所述目标网站部署日志获取程序;以及运行所述日志获取程序以获取所述访问日志。3.根据权利要求1所述的方法,其特征在于,关联提取到的所述第二关键词和所述第一目标页面包括:添加提取到的所述第二关键词至所述第一目标页面的页面标签。4.根据权利要求1所述的方法,其特征在于,所述匹配式为正则表达式,利用所述匹配式对所述第一搜索结果页的URL进行匹配包括:判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。5.根据权利要求1所述的方法,其特征在于,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:从所述目标网站上获取第二预设数量的文本文件;对获取到的每个所述文本文件的文本内容进行分词;以及将分词后的结果进行汇总,得到所述关键词词典。6.一种提高网站站内搜索效率的装置,其特征在于,包括:第一提取单元,用于从访问目标网站...

【专利技术属性】
技术研发人员:李新国
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1