一种搜索网页的方法和装置制造方法及图纸

技术编号:9462815 阅读:63 留言:0更新日期:2013-12-19 00:05
本发明专利技术公开了一种搜索网页的方法和装置,属于网络技术领域。所述方法包括:根据第一网页地址,访问所述第一网页地址指示的网页;获取访问的所述网页的网页信息;从所述网页信息中提取第二网页地址。本发明专利技术通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法搜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种搜索网页的方法和装置,属于网络
。所述方法包括:根据第一网页地址,访问所述第一网页地址指示的网页;获取访问的所述网页的网页信息;从所述网页信息中提取第二网页地址。本专利技术通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法搜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。【专利说明】 一种搜索网页的方法和装置
本专利技术涉及网络
,特别涉及一种搜索网页的方法和装置。
技术介绍
随着互联网技术的迅速发展、网页内容的不断丰富,网页浏览的速度会受到影响。为了优化网页,提高网页浏览的速度,现有技术通常通过搜索网页并获取网页的网页信息,对网页信息加以分析,从而得到网页优化的方法,进而提高网页浏览的速度。而其中搜索网页的方法一般是通过手动搜索网页,该手动搜索网页的过程包括:技术人员手动填写指定网页,并对其进行访问,每当访问完成吋,继续对其他指定网页进行访问,在访问过程中获取网页信息,直到所有指定网页访问完毕。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:手动对指定网页进行捜索,在整个搜索过程中均需要技术人员參与,不仅搜索网页的数量受到局限、效率低下,且成本高。
技术实现思路
为了解决搜索网页时数量受到局限、效率低下,成本高的问题,本专利技术实施例提供了一种搜索网页的方法和装置。所述技术方案如下:一种搜索网页的方法,所述方法包括:根据第一网页地址,访问所述第一网页地址指示的网页;获取访问的所述网页的网页信息;从所述网页信息中提取第二网页地址。根据第一网页地址,访问所述第一网页地址指示的网页,之前包括:获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址;和/或,获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。所述搜索配置信息还包括预设网页深度;相应地,从所述网页信息中提取第二网页地址,之后包括:当所述第二网页地址达到所述预设网页深度时,结束;当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;相应地,根据第一网页地址,访问所述第一网页地址指示的网页,包括:根据所述捜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;相应地,获取访问的所述网页的网页信息,包括:根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。根据第一网页地址,访问所述第一网页地址指示的网页,之后包括:检测所述搜索配置信息是否发生变化,当所述搜索配置信息中的任ー项发生变化时,根据变化后的捜索配置信息更新所述搜索配置信息。所述搜索配置信息还包括预设网页类型,相应地,从所述网页信息中提取第二网页地址,包括:遍历所述网页信息中的网页地址;从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。获取访问的所述网页的网页信息,之后包括:当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息,如果是,则丢弃所述网页信息,如果否,则保存所述网页信息。所述网页信息为所访问网页的源代码。一种搜索网页的装置,所述装置包括:访问模块,用于根据第一网页地址访问所述第一网页地址指示的网页;第一获取模块,用于获取访问的所述网页的网页信息;提取模块,用于从所述网页信息中提取第二网页地址。所述装置还包括:第二获取模块,用于获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址;和/或,第三获取模块,用于获取提取到的所述第二网页地址,将所述第二网页地址作为所述第一网页地址。所述搜索配置信息还包括预设网页深度;相应地,所述装置还包括:第一判断模块,用于判断所述第二网页地址是否达到所述预设网页深度;当所述第二网页地址达到所述预设网页深度吋,结束;当所述第二网页地址未达到所述预设网页深度时,继续执行搜索网页过程。所述搜索配置信息还包括预设线程数,所述预设线程数用于指示同时访问的网页数量;相应地,所述访问模块具体用于根据所述搜索配置信息指示的符合所述预设线程数的多个第一网页地址,同时访问所述多个第一网页地址指示的网页。所述搜索配置信息还包括日志配置信息,所述日志配置信息用于指示待保存的信息类型;相应地,所述第一获取模块具体用于根据所述日志配置信息,获取访问的所述网页的网页信息中符合所述日志配置信息的信息。所述装置还包括:检测模块,用于检测所述搜索配置信息是否发生变化,所述搜索配置信息中的任一项发生变化时,则触发用于根据变化后的捜索配置信息更新所述搜索配置信息的更新模块。所述搜索配置信息还包括预设网页类型,相应地,所述提取模块包括:遍历单元,用于遍历所述网页信息中的网页地址;提取单元,用于从所述网页信息的网页地址中提取符合所述预设网页类型的第二网页地址。所述装置还包括:第二判断模块,用于当获取到访问的所述网页的网页信息时,判断是否已保存过所述网页信息;处理模块,用于根据所述第二判断模块判断的结果处理所述网页信息;当所述第二判断模块确定已经保存过所述网页信息,则触发所述处理模块丢弃所述网页信息,当所述判断模块确定未保存过所述网页信息,则触发所述处理模块保存所述网页信息。所述网页信息为所访问网页的源代码。本专利技术实施例提供的技术方案带来的有益效果是:通过根据已经获得的第一网页地址,访问该第一网页地址指示的网页,获取到访问网页的网页信息,每个网页的网页信息中含有大量网页地址信息,通过遍历此网页信息,从网页信息中提取大量第二网页地址,解决了现有技术中手动搜索网页方法捜索网页的数量受到局限、效率低下的问题,同时解决了现有技术中手动搜索网页方法成本高的问题。【专利附图】【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种搜索网页的方法流程图;图2是本专利技术实施例提供的一种搜索网页的方法流程图;图3是本专利技术实施例提供的一种搜索网页的装置结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进ー步地详细描述。实施例一图1是本专利技术实施例提供的一种搜索网页的方法的流程图。该实施例的执行主体为搜索网页的装置,该装置可位于具有网络功能的終端或服务器上,參见图1,该实施例具体包括:101、根据第一网页地址,访问所述第一网页地址指示的网页;102、获取访问的所述网页的网页信息;103、从所述网页信息中提取第二网页地址。可选地,根据第一网页地址,访问所述第一网页地址指示的网页,之前包括:获取预先配置的捜索配置信息,所述搜索配置信息包括第一网页地址;和/或,获取提取到的所述第二网页地址,将所述第二网页本文档来自技高网...

【技术保护点】
一种搜索网页的方法,其特征在于,所述方法包括:根据第一网页地址,访问所述第一网页地址指示的网页;获取访问的所述网页的网页信息;从所述网页信息中提取第二网页地址。

【技术特征摘要】

【专利技术属性】
技术研发人员:袁建发廖志叶方正宁京王伟郭宗飞李洁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1