论坛目录页内容爬取方法和装置制造方法及图纸

技术编号:15791931 阅读:66 留言:0更新日期:2017-07-09 22:39
本申请公开了一种论坛目录页内容爬取方法和装置。其中,该方法包括:爬取论坛目录页的第一爬取页面中的文章,得到爬取结果,其中,论坛目录页中的文章按照发表时间排序;从爬取结果中获取第一爬取页面中的最后一篇文章的发表时间;判断发表时间是否晚于预设时间;在判断出发表时间晚于预设时间时,跳转至论坛目录页的第二爬取页面,并爬取第二爬取页面中的文章,其中,第二爬取页面位于第一爬取页面之后;以及在判断出发表时间不晚于预设时间时,停止爬取论坛目录页中的文章。本申请解决了相关技术中通过翻页爬取论坛目录页面内容时,在发帖量较大时最大翻页数不够造成数据丢失,在发帖量较少时爬取最大翻页数的页面浪费网络资源的技术问题。

【技术实现步骤摘要】
论坛目录页内容爬取方法和装置
本申请涉及数据处理领域,具体而言,涉及一种论坛目录页内容爬取方法和装置。
技术介绍
通过网络爬虫来爬取互联网上的海量数据越来越受到热捧,然而全球互联网上的数据类型千差外别,例如,新闻、财经类的数据由于实时性的原因,通常利用发布日期加上一定的规则产生唯一的统一资源定位符(UniformResourceLocator,简称为URL),这种网络资源的爬取对于网络爬虫来说是十分便利的,通过传统的广度遍历即可逐层爬取;然而,网络上另外一个重要的资源,即论坛类的网页,该类网页的一个显著特点就是在目录页面网页的缺省排序是按照最后的回复时间来排序的。当前大多网络爬虫爬取论坛目录页内容时,一般是预先指定需要爬取的规则(例如,针对有翻页的目录页,指定最大翻页数),然后再利用爬取技术来逐步翻页爬取每页的内容。现有技术在爬取论坛目录页面的时候,只能根据解析出来的URL作为爬取论坛的来源。由于论坛目录页面通常将最后回复的帖子列在目录页面的最前面,如果网络爬虫从上到下依次爬取各个帖子,将爬取到很多旧的无效的帖子(例如,数月前发表的帖子,仅仅是因为有人最近回帖而排在最前面)。而网络数据的时效性通常是网络爬虫首要关注的,当前的方法通常是人为配置目标网站爬取的最大翻页数,然后依次递增爬取,当达到最大翻页数时即停止爬取。上述方法对于热门论坛,由于发帖量巨大,最大翻页数可能不够,会导致数据丢失;而对于非热门论坛,每次都爬取最大翻页数的页面将造成网络流量和带宽的巨大浪费,此外,如果在爬取量较大的情况下,在本地解析也将耗时费力,造成资源的浪费。针对相关技术中通过翻页爬取论坛目录页面内容时,在发帖量较大时最大翻页数不够造成数据丢失,在发帖量较少时爬取最大翻页数的页面浪费网络资源的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种论坛目录页内容爬取方法和装置,以解决相关技术中通过翻页爬取论坛目录页面内容时,在发帖量较大时最大翻页数不够造成数据丢失,在发帖量较少时爬取最大翻页数的页面浪费网络资源的问题。为了实现上述目的,根据本申请的一个方面,提供了一种论坛目录页内容爬取方法。该方法包括:爬取论坛目录页的第一爬取页面中的文章,得到爬取结果,其中,论坛目录页中的文章按照发表时间排序;从爬取结果中获取第一爬取页面中的最后一篇文章的发表时间;判断发表时间是否晚于预设时间;在判断出发表时间晚于预设时间时,跳转至论坛目录页的第二爬取页面,并爬取第二爬取页面中的文章,其中,第二爬取页面位于第一爬取页面之后;以及在判断出发表时间不晚于预设时间时,停止爬取论坛目录页中的文章。进一步地,从爬取结果中获取第一爬取页面中最后一篇文章的发表时间包括:从爬取结果中获取第一爬取页面中最后一篇文章对应的内容;以及通过预设算法从最后一篇文章对应的内容中解析出发表时间。进一步地,在判断出发表时间晚于预设时间时,跳转至论坛目录页的第二爬取页面,并爬取第二爬取页面中的文章包括:从第一爬取页面中获取第二爬取页面的链接;根据第二爬取页面的链接跳转至第二爬取页面;以及爬取第二爬取页面中的文章。进一步地,在爬取论坛目录页的第一爬取页面中的文章,得到爬取结果之前,该方法还包括:获取预设排序规则,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序;以及根据预设排序规则将论坛目录页中的文章按照发表时间排序。进一步地,根据预设排序规则将论坛目录页中的文章按照发表时间排序包括:获取论坛目录页的链接;以及根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,根据爬取请求从服务器获取到的论坛目录页中的文章按照发表时间排序。为了实现上述目的,根据本申请的另一方面,提供了一种论坛目录页内容爬取装置。该装置包括:第一爬取单元,用于爬取论坛目录页的第一爬取页面中的文章,得到爬取结果,其中,论坛目录页中的文章按照发表时间排序;第一获取单元,用于从爬取结果中获取第一爬取页面中的最后一篇文章的发表时间;判断单元,用于判断发表时间是否晚于预设时间;以及第二爬取单元,用于在判断出发表时间晚于预设时间时,跳转至论坛目录页的第二爬取页面,并爬取第二爬取页面中的文章,其中,第二爬取页面位于第一爬取页面之后,在判断出发表时间不晚于预设时间时,停止爬取论坛目录页中的文章。进一步地,第一获取单元包括:第一获取模块,用于从爬取结果中获取第一爬取页面中最后一篇文章对应的内容;以及解析模块,用于通过预设算法从最后一篇文章对应的内容中解析出发表时间。进一步地,第二爬取单元包括:第二获取模块,用于从第一爬取页面中获取第二爬取页面的链接;调整模块,用于根据第二爬取页面的链接跳转至第二爬取页面;以及爬取模块,用于爬取第二爬取页面中的文章。进一步地,该装置还包括:第二获取单元,用于获取预设排序规则,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序;以及排序单元,用于根据预设排序规则将论坛目录页中的文章按照发表时间排序。进一步地,排序单元包括:第三获取模块,用于获取论坛目录页的链接;以及构建模块,用于根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,根据爬取请求从服务器获取到的论坛目录页中的文章按照发表时间排序。本申请通过爬取论坛目录页的第一爬取页面中的文章,得到爬取结果,其中,论坛目录页中的文章按照发表时间排序;从爬取结果中获取第一爬取页面中的最后一篇文章的发表时间;判断发表时间是否晚于预设时间;在判断出发表时间晚于预设时间时,跳转至论坛目录页的第二爬取页面,并爬取第二爬取页面中的文章,其中,第二爬取页面位于第一爬取页面之后;以及在判断出发表时间不晚于预设时间时,停止爬取论坛目录页中的文章,在本申请中由于论坛目录页中的文章按照发表时间排序,因此在判断出某个爬取页面中最后一篇文章的发表时间不晚于预设时间时即可以停止爬取该页面之后页面的文章,节省了网络资源,在判断出某个爬取页面中最后一篇文章的发表时间晚于预设时间时,则继续爬取该页面之后页面的文章,从而可以避免爬取的数据不完整,解决了相关技术中通过翻页爬取论坛目录页面内容时,在发帖量较大时最大翻页数不够造成数据丢失,在发帖量较少时爬取最大翻页数的页面浪费网络资源的问题,进而达到了保证爬取数据的完整性的同时又节省网络资源的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的论坛目录页内容爬取方法的流程图;以及图2是根据本申请实施例的论坛目录页内容爬取装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必本文档来自技高网
...
论坛目录页内容爬取方法和装置

【技术保护点】
一种论坛目录页内容爬取方法,其特征在于,包括:爬取论坛目录页的第一爬取页面中的文章,得到爬取结果,其中,所述论坛目录页中的文章按照发表时间排序;从所述爬取结果中获取所述第一爬取页面中的最后一篇文章的发表时间;判断所述发表时间是否晚于预设时间;在判断出所述发表时间晚于所述预设时间时,跳转至所述论坛目录页的第二爬取页面,并爬取所述第二爬取页面中的文章,其中,所述第二爬取页面位于所述第一爬取页面之后;以及在判断出所述发表时间不晚于所述预设时间时,停止爬取所述论坛目录页中的文章。

【技术特征摘要】
1.一种论坛目录页内容爬取方法,其特征在于,包括:爬取论坛目录页的第一爬取页面中的文章,得到爬取结果,其中,所述论坛目录页中的文章按照发表时间排序;从所述爬取结果中获取所述第一爬取页面中的最后一篇文章的发表时间;判断所述发表时间是否晚于预设时间;在判断出所述发表时间晚于所述预设时间时,跳转至所述论坛目录页的第二爬取页面,并爬取所述第二爬取页面中的文章,其中,所述第二爬取页面位于所述第一爬取页面之后;以及在判断出所述发表时间不晚于所述预设时间时,停止爬取所述论坛目录页中的文章。2.根据权利要求1所述的方法,其特征在于,从所述爬取结果中获取所述第一爬取页面中最后一篇文章的发表时间包括:从所述爬取结果中获取所述第一爬取页面中最后一篇文章对应的内容;以及通过预设算法从所述最后一篇文章对应的内容中解析出所述发表时间。3.根据权利要求1所述的方法,其特征在于,在判断出所述发表时间晚于所述预设时间时,跳转至所述论坛目录页的第二爬取页面,并爬取所述第二爬取页面中的文章包括:从所述第一爬取页面中获取所述第二爬取页面的链接;根据所述第二爬取页面的链接跳转至所述第二爬取页面;以及爬取所述第二爬取页面中的文章。4.根据权利要求1所述的方法,其特征在于,在爬取论坛目录页的第一爬取页面中的文章,得到爬取结果之前,所述方法还包括:获取预设排序规则,其中,所述预设排序规则用于使所述论坛目录页的内容按照发表时间排序;以及根据所述预设排序规则将所述论坛目录页中的文章按照发表时间排序。5.根据权利要求4所述的方法,其特征在于,根据所述预设排序规则将所述论坛目录页中的文章按照发表时间排序包括:获取所述论坛目录页的链接;以及根据所述论坛目录页的链接按照所述预设排序规则构建爬取请求,其中,根据所述爬取请求从服务器获取到的论坛目录页中的文章按照...

【专利技术属性】
技术研发人员:兰光明
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1