【技术实现步骤摘要】
本申请涉及网络处理
,特别是涉及一种网页获取方法和装置。
技术介绍
随着互联网技术的发展,互联网信息数量越来越多,更新速度也越来越快,因此如何及时且全面的获取互联网信息以提供更好的网络服务,成为人们日益研究的重点。在网络搜索、舆情监控以及网络挖掘等网络服务领域中,互联网信息都是通过网页获取方式得到的,通过获取内容网页,进而即可得到内容网页承载的互联网信息。现有技术中,在进行网页获取时,通常是通过抓取hub (中心)网页,即网页内容是以网页链接地址为核心的网页,进而再根据hub网页的网页链接地址轮询抓取不同的内容网页,以得到不同内容网页承载的网络信息。但是由于互联网信息更新速度很快,内容网页也越来越多,而网页承载内容是有限的,在实现本专利技术的过程中,专利技术人发现,一个hub网页是不能承载所有的内容网页链接地址,因此现有的网页获取方法通常只能抓取较少部分的内容网页,这就使得网页覆盖率较低,使得不能全面有效获取网络信息。
技术实现思路
本申请所要解决的技术问题是提供一种网页获取方法,用以解决现有技术中网页覆盖率较低,不能有效获取网页信息的技术问题。本申请还提供了 ...
【技术保护点】
一种网页获取方法,其特征在于,包括:确定抓取的网页中的第一中心hub网页;解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;根据所述第二hub网页地址,获取内容网页。
【技术特征摘要】
1.一种网页获取方法,其特征在于,包括: 确定抓取的网页中的第一中心hub网页; 解析出所述第一 hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址; 根据所述翻页信息,生成与所述第一 hub网页相关的第二 hub网页地址; 根据所述第二 hub网页地址,获取内容网页。2.根据权利要求1所述的方法,其特征在于,所述解析所述第一hub网页中包含的翻页信息包括: 解析所述第一 hub网页的网页内容,确定所述网页内容中具有翻页关键词以及重复链接内容的翻页区域内容; 根据所述翻页区域内容,确定翻页信息,所述翻页信息包括具有数字标识的翻页链接地址。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述翻页信息,生成与所述第一 hub网页相关的第二 hub网页地址包括: 根据所述翻页信息中的翻页链接地址,确定翻页起始标识、翻页步长以及目标索引范围; 根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二 hub网页地址。4.根据权利要求3所述的方法,其特征在于,所述根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,生成第二 hub网页地址包括: 根据翻页链接地址,生成初始链接地址内容; 根据所述翻页起始标识、所述翻页步长以及所述目标索引范围,计算不同索引标识; 将所述初始链接地址内容与所述不同索引标识叠加,得到不同第二 hub网页地址。5.根据权利要求3所述的方法,其特征在于,所述确定目标索引范围包括: 确定第一预设索引范围; 确定所述第一预设索引范围中的一个或多个索引标识,生成对应的预设第二 hub网页地址; 根据所述预设第二 hub网页地址进行网页抓取,并根据抓取结果调整所述第一预设索引范围,以得到目标索引范围。6.根据权利要求1所述的方法,其特征在于,所述根据所述多个第二hub网页地址,获取内容网页包括: 根据所述第二 hub网页地址,获取多个第二 hub网页; 获取所述第二 hub网页分别对应的内容网页。7.根据权利要求1所述的方法,其特征在于,所述根据所述翻页信息,生成所述第一hub网页相关的第二 hub网页地址包括: 根据所述翻页信息,生成所述第一 hub网页相关...
【专利技术属性】
技术研发人员:樊波,崔世起,杨青,
申请(专利权)人:人民搜索网络股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。