网页获取方法和装置制造方法及图纸

技术编号:8656028 阅读:189 留言:0更新日期:2013-05-01 23:43
本申请提供了一种网页获取方法和装置,所述方法包括:确定抓取的网页中的第一中心hub网页;解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;根据所述第二hub网页地址,获取内容网页。通过本申请实施例提高了网页获取时的网页覆盖率,使得能够获取更全面的网络信息。

【技术实现步骤摘要】

本申请涉及网络处理
,特别是涉及一种网页获取方法和装置
技术介绍
随着互联网技术的发展,互联网信息数量越来越多,更新速度也越来越快,因此如何及时且全面的获取互联网信息以提供更好的网络服务,成为人们日益研究的重点。在网络搜索、舆情监控以及网络挖掘等网络服务领域中,互联网信息都是通过网页获取方式得到的,通过获取内容网页,进而即可得到内容网页承载的互联网信息。现有技术中,在进行网页获取时,通常是通过抓取hub (中心)网页,即网页内容是以网页链接地址为核心的网页,进而再根据hub网页的网页链接地址轮询抓取不同的内容网页,以得到不同内容网页承载的网络信息。但是由于互联网信息更新速度很快,内容网页也越来越多,而网页承载内容是有限的,在实现本专利技术的过程中,专利技术人发现,一个hub网页是不能承载所有的内容网页链接地址,因此现有的网页获取方法通常只能抓取较少部分的内容网页,这就使得网页覆盖率较低,使得不能全面有效获取网络信息。
技术实现思路
本申请所要解决的技术问题是提供一种网页获取方法,用以解决现有技术中网页覆盖率较低,不能有效获取网页信息的技术问题。本申请还提供了一种网页获取装置,用以保证上述方法在实际中的实现及应用。为了解决上述问题,本申请的一方面公开了一种网页获取方法,包括确定抓取的网页中的第一中心hub网页;解析出所述第一 hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;根据所述翻页信息,生成与所述第一 hub网页相关的第二 hub网页地址;根据所述第二 hub网页地址,获取内容网页。优选地,所述解析所述第一 hub网页中包含的翻页信息包括解析所述第一 hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容;根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。优选地,所述根据所述翻页信息,生成与所述第一 hub网页相关的第二 hub网页地址包括根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围;根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二 hub网页地址。优选地,所述根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二 hub网页地址包括根据翻页链接地址,生成初始链接地址内容;根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识;将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二 hub网页地址。优选地,所述确定目标索引范围包括确定第一预设索引范围;确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二 hub网页地址;根据所述预设第二 hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。优选地,所述根据所述多个第二 hub网页地址,获取内容网页包括根据所述第二 hub网页地址,获取多个第二 hub网页;获取所述第二 hub网页分别对应的内容网页。优选地,所述根据所述翻页信息,生成所述第一 hub网页相关的第二 hub网页地址包括根据所述翻页信息,生成所述第一 hub网页相关的预设数量个第二 hub网页地址。本申请的另一方面公开了一种网页获取装置,包括第一确定模块,用于确定抓取的网页中的第一 hub网页;解析模块,用于解析出所述第一 hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;地址生成模块,用于根据所述翻页信息,生成与所述第一 hub网页相关的第二 hub网页地址;网页获取模块,用于根据所述第二 hub网页地址,获取内容网页。优选地,所述解析模块包括解析子模块,用于解析所述第一 hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容;翻页信息确定模块,用于根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。优选地,所述地址生成模块包括第二确定模块,用于根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围;地址生成子模块,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二 hub网页地址。优选地,所述地址生成子模块包括初始内容生成模块,用于根据翻页链接地址,生成初始链接地址内容;标识获取模块,用于根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识;地址确定模块,用于将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二 hub网页地址。优选地,所述第二确定模块包括预设范围估计模块,用于确定第一预设索引范围;预设地址生成模块,用于确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二 hub网页地址;目标范围确定模块,用于根据所述预设第二hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。优选地,所述网页获取模块包括第一网页获取子模块,用于根据所述第二 hub网页地址,获取多个第二 hub网页;第二网页获取子模块,用于获取所述第二 hub网页分别对应的内容网页。与现有技术相比,本申请包括以下优点在本申请中,通过从抓取的网页中确定出第一 hub网页,并解析该第一 hub网页得到翻页信息,然后依据该翻页信息可以生成与第一hub网页相关的第二hub网页地址,从而可以依据第二 hub网页地址,进行内容网页的抓取,在网页获取时,不仅获取第一 hub网页对应的内容网页。同时还可以获取第二 hub网页对应的内容网页,从而增加了网页覆盖率,使得能够全面的获取网络信息,进而可以实现更精确的处理操作。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请的一种网页获取方法实施例1的流程图;图2是本申请实施例中网页翻页区域的示意图;图3是本申请的一种网页获取方法实施例2的流程图;图4是本申请的一种网页获取装置实施例1的结构框图;图5是本申请的一种网页获取装置实施例2的结构框图。具体实施例方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请可用于众多通用或专用的计算装置环境或配置中。例如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本文档来自技高网...
网页获取方法和装置

【技术保护点】
一种网页获取方法,其特征在于,包括:确定抓取的网页中的第一中心hub网页;解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;根据所述第二hub网页地址,获取内容网页。

【技术特征摘要】
1.一种网页获取方法,其特征在于,包括: 确定抓取的网页中的第一中心hub网页; 解析出所述第一 hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址; 根据所述翻页信息,生成与所述第一 hub网页相关的第二 hub网页地址; 根据所述第二 hub网页地址,获取内容网页。2.根据权利要求1所述的方法,其特征在于,所述解析所述第一hub网页中包含的翻页信息包括: 解析所述第一 hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容; 根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述翻页信息,生成与所述第一 hub网页相关的第二 hub网页地址包括: 根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围; 根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二 hub网页地址。4.根据权利要求3所述的方法,其特征在于,所述根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二 hub网页地址包括: 根据翻页链接地址,生成初始链接地址内容; 根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识; 将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二 hub网页地址。5.根据权利要求3所述的方法,其特征在于,所述确定目标索引范围包括: 确定第一预设索引范围; 确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二 hub网页地址; 根据所述预设第二 hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。6.根据权利要求1所述的方法,其特征在于,所述根据所述多个第二hub网页地址,获取内容网页包括: 根据所述第二 hub网页地址,获取多个第二 hub网页; 获取所述第二 hub网页分别对应的内容网页。7.根据权利要求1所述的方法,其特征在于,所述根据所述翻页信息,生成所述第一hub网页相关的第二 hub网页地址包括: 根据所述翻页信息,生成所述第一 hub网页相关...

【专利技术属性】
技术研发人员:樊波崔世起杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1