一种基于检索过期的网页搜索方法及其系统技术方案

技术编号:4223142 阅读:974 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于检索过期的网页搜索方法及其系统,由用户输入关键词到本系统,系统对关键词进行初步处理,进入到关键词库,对于已存在的关键词,直接从搜索结果库提取检索结果返回给用户;对于不存在的关键词,从搜索引擎获取检索结果,进行排重,保存到搜索结果库后,返回给用户;同时,系统对关键词库中的关键词周期性的进行自动检索和保存;该方法及其系统使得用户不仅能得到最新的结果,而且可以得到以往的检索结果,并且即使用户没有每天进行检索,系统也能根据设定的检索过期时间,周期性的自动检索、保存,从而提供给用户尽可能多的检索结果;该方法及其系统还减少了对搜索引擎的访问,降低了网络与搜索引擎服务器的压力。

【技术实现步骤摘要】

本专利技术涉及一种应用计算机在互联网进行网页搜索的方法,特别是涉及一种 基于检索过期的网页搜索方法及其系统。技术背景在信息大爆炸的今天,信息已越来越成为人们密不可分的一部分。互联网 (Internet)将全世界的信息整合在一起,人们通过互联网就可以获得任何公开可 以获得的信息,使得人们更加依赖于利用互联网进行信息的査询,由于互联网的 信息都存储于各网页中,因此,对互联网的网页进行搜索是査询所需信息的必须 步骤。现有的互联网搜索引擎就是对互联网上的网页进行收集、整理和索引的工 具,该互联网搜索引擎通常提供有一个査询接口,用户通过此接口可以向搜索引 擎输入查询关键字,搜索引擎根据此关键字对互联网的网页进行收集、整理,并 形成索引返回给用户的査询端口,用户根据索引可以选择进入需要的网页而进一 步得到所需的信息。由于互联网搜索引擎保存了巨量的网页,当用户对搜索引擎进行请求时,搜 索引擎无法将全部匹配的网页都返回给用户,而是通过模糊计算,将它认为最适 合的网页返回给用户。目前互联网上存在的几个主流的搜索引擎,它们所提供的 检索结果一般只返回前面的1000条以内的记录,这对于需要得到更多结果的用 户,显然是无法满足要求的。互联网搜索引擎的访问量巨大,如果对每次査询都返回全部检索结果,会对 搜索引擎的服务器端造成极大的压力,而大部分的査询不需要全部结果,为了实 现资源的最大化利用,互联网搜索引擎限制检索结果数量己成为潜在的业界标准。当闲户需萆得至1|审名的扮#@#3^ ffl^P、:^iii寸《A^^iS《^^^[g1^1关键字,才能得到更多的记录,并需要手工整理这些记录,这样的査询方式,不 仅费时费力而且容易出错。
技术实现思路
本专利技术的目的在于克服现有技术之不足,提供一种基于检索过期的网页搜索 方法及其系统,是通过软件程序自动向搜索引擎多次重复请求,并将得到的检索 结果进行URL排重分析,保存于数据库中,当用户进行对应的检索时,向用户提 供己经保存在数据库中的检索结果,这样,不仅提髙了响应速度,而且可以得到 更多的检索结果。本专利技术解决其技术问题所采用的技术方案是 一种基于检索过期的网页搜索 方法,包括查询流程和周期自动检索流程; 在査询流程中,其包括如下步骤a. 接受用户的关键词输入,产生对应于该关键词的唯一编号;b. 将该关键词与已存储在第一存储区的所有关键词进行一一比较判断;当判断结果是该关键词已存在时,转至步骤g;当判断结果是该关键词不存在时, 继续下一步骤;C.将该关键词及其对应的编号存储于第一存储区中;d. 向互联网搜索引擎发送该关键词,触发互联网搜索引擎进行对应于该关 键词的网页搜索,并将对应于该关键词的搜索时间记录在第一存储区中;e. 接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引;f. 将网页索引以及该网页索引所对应的该关键词的对应编号存储于第二存 储区中;g. 根据该关键词所对应的编号,从第二存储区中调出对应于该编号的网页索引;h. 将该网页索引作为搜索结果显示于用户的显示界面中;i. 退出或返回步骤a;在周期自动检索流程中,其包括如下步骤6j.从第一存储区中调出 一个关键词及其对应于该关键词的搜索时间;k.将该关键词的搜索时间与预先所设定的检索过期时间进行比较判断;当 判断结果为未过期时,返回步骤j;当判断结果为检索过期时,继续下一步骤;1.模拟浏览器行为,向互联网搜索引擎发送该关键词,进行对应于该关键 词的网页搜索,并将对应于该关键词的新的搜索时间去更新存储于第一存储区中 的对应于该关键词的原有的搜索时间m.接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引;n.根据该关键词所对应的编号,从第二存储区中调出对应于该编号的原有 的网页索引,并将步骤m所获取的网页索引与巳有的网页索引进行URL唯一性比 对,以取得不重复的网页索引;o.将步骤n所取得的不重复的网页索引去更新存储于第二存储区中的对应 于该关键词的对应编号的原有的网页索引;p.判断第一存储区中的关键词是否逐个调取完毕,未调取完毕时,返回步 骤j,已调取完毕时,退出,等待下一周期开始。所述的检索过期为预先所设定的一个时间长度,在该时间长度内向搜索引擎 发送同样的査询关键词,其返回的结果是一样的。一种用于实现如上基于检索过期的网页搜索方法的系统,其包括査询模块,设有可接受用户输入关键词的输入界面;对用户输入的关键词进 行处理,产生对应于该关键词的唯一编号,向关键词管理模块输出该关键词及对 应的编号;接收并显示检索结果;关键词管理模块,设有关键词库用来存储关键词及其对应的编号;将査询模 块所发送的关键词与关键词库内的关键词进行比较,判断关键词库中是否已有该 关键词,当关键词库中没有该关键词时,将该关键词发送给搜索代理模块并记录 搜索时间,当关键词库中已有该关键词时,利用该关键词所对应的编号从搜索结 果库中调出与该关键词相对应的检索结果并发送给查询模块;同时,周期性判断 每个关键词是否已检索过期,并将已检索过期的关键词发送给搜索代理模块并记录新的搜索时间;搜索代理模块,模拟浏览器行为,向互联网搜索引擎发送关键词,同时接收 搜索引擎返回的检索结果,并将该检索结果发送给检索结果处理模块;检索结果处理模块,从搜索结果库中提取与关键词相关的结果集,将接收的 来自于搜索代理模块的检索结果,与结果集进行比对,进行URL唯一性分析,将 URL不重复的检索结果重新保存到对应于该关键词编号的搜索结果库中;搜索结果库,存储对应于各关键词编号的检索结果。用户通过本系统,不仅可以得到最新检索结果,而且可以得到以往的检索结 果;本系统尤其适用于多用户检索,能减少网络流量,提高响应速度,降低对搜 索引擎服务器的压力;本系统也适用于对多个搜索引擎进行检索的情况,能提高 工作效率。本专利技术的有益效果是,由于采用了由用户输入关键词到本系统,系统对关键 词进行初步处理,进入到关键词库,对于已存在的关键词,直接从搜索结果库提 取检索结果返回给用户;对于不存在的关键词,从搜索引擎获取检索结果,进行 排重,保存到搜索结果库后,返回给用户;同时,系统对关键词库中的关键词周 期性的进行自动检索和保存;使得用户不仅能得到最新的结果,而且可以得到以 往的检索结果,并且即使用户没有每天进行检索,该方法及其系统也能根据设定 的检索过期时间,周期性的自动检索、保存,从而提供给用户尽可能多的检索结 果;该方法及其系统还减少了对搜索引擎的访问,降低了网络与搜索引擎服务器 的压力;由于用户进行检索时,系统是将保存于本地的检索结果提供给用户,既 能极大地提高响应速度,也实现了进一步对检索结果进行分析处理的可能。以下结合附图及实施例对本专利技术作进一步详细说明;但本专利技术的一种基于检 索过期的网页搜索方法及其系统不局限于实施例。 附图说明图l是本专利技术的系统原理框图;图2是本专利技术的查询过程的流程图;图3是本专利技术的周期自动检索过程的流程图。具体实施方式参图1所示,本专利技术的一种基于检索过期的网页搜索方法,是基于如下的系 统来实现的,该系统包括-查询模块11,设有可接受用户输入关键词的输入界面;对用户输入的关键词 进行处理,产生对应于该关键词的唯一编号,向关键词管理模块12输出该关键词 及对应本文档来自技高网
...

【技术保护点】
一种基于检索过期的网页搜索方法,其特征在于:包括查询流程和周期自动检索流程; 在查询流程中,其包括如下步骤: a.接受用户的关键词输入,产生对应于该关键词的唯一编号; b.将该关键词与已存储在第一存储区的所有关键词进行一一 比较判断;当判断结果是该关键词已存在时,转至步骤g;当判断结果是该关键词不存在时,继续下一步骤; c.将该关键词及其对应的编号存储于第一存储区中; d.向互联网搜索引擎发送该关键词,触发互联网搜索引擎进行对应于该关键词的网页搜索 ,并将对应于该关键词的搜索时间记录在第一存储区中; e.接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引; f.将网页索引以及该网页索引所对应的该关键词的对应编号存储于第二存储区中; g.根据该关键词所对应的编号, 从第二存储区中调出对应于该编号的网页索引; h.将该网页索引作为搜索结果显示于用户的显示界面中; i.退出或返回步骤a; 在周期自动检索流程中,其包括如下步骤: j.从第一存储区中调出一个关键词及其对应于该关键词的搜 索时间; k.将该关键词的搜索时间与预先所设定的检索过期时间进行比较判断;当判断结果为未过期时,返回步骤j;当判断结果为检索过期时,继续下一步骤; l.模拟浏览器行为,向互联网搜索引擎发送该关键词,进行对应于该关键词的网页搜索, 并将对应于该关键词的新的搜索时间去更新存储于第一存储区中的对应于该关键词的原有的搜索时间; m.接收由互联网搜索引擎检索后返回的对应于该关键词的网页索引; n.根据该关键词所对应的编号,从第二存储区中调出对应于该编号的原有的网页 索引,并将步骤m所获取的网页索引与已有的网页索引进行URL唯一性比对,以取得不重复的网页索引; o.将步骤n所取得的不重复的网页索引去更新存储于第二存储区中的对应于该关键词的对应编号的原有的网页索引; p.判断第一存储区中的关键 词是否逐个调取完毕,未调取完毕时,返回步骤j,已调取完毕时,退出,等待下一周期开始。...

【技术特征摘要】

【专利技术属性】
技术研发人员:林胜通腾达
申请(专利权)人:厦门市美亚柏科资讯科技有限公司
类型:发明
国别省市:92[中国|厦门]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1