论坛目录页内容爬取方法和装置制造方法及图纸

技术编号：15791931 阅读：66 留言：0更新日期：2017-07-09 22:39

本申请公开了一种论坛目录页内容爬取方法和装置。其中，该方法包括：爬取论坛目录页的第一爬取页面中的文章，得到爬取结果，其中，论坛目录页中的文章按照发表时间排序；从爬取结果中获取第一爬取页面中的最后一篇文章的发表时间；判断发表时间是否晚于预设时间；在判断出发表时间晚于预设时间时，跳转至论坛目录页的第二爬取页面，并爬取第二爬取页面中的文章，其中，第二爬取页面位于第一爬取页面之后；以及在判断出发表时间不晚于预设时间时，停止爬取论坛目录页中的文章。本申请解决了相关技术中通过翻页爬取论坛目录页面内容时，在发帖量较大时最大翻页数不够造成数据丢失，在发帖量较少时爬取最大翻页数的页面浪费网络资源的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
论坛目录页内容爬取方法和装置
本申请涉及数据处理领域，具体而言，涉及一种论坛目录页内容爬取方法和装置。
技术介绍
通过网络爬虫来爬取互联网上的海量数据越来越受到热捧，然而全球互联网上的数据类型千差外别，例如，新闻、财经类的数据由于实时性的原因，通常利用发布日期加上一定的规则产生唯一的统一资源定位符(UniformResourceLocator，简称为URL)，这种网络资源的爬取对于网络爬虫来说是十分便利的，通过传统的广度遍历即可逐层爬取；然而，网络上另外一个重要的资源，即论坛类的网页，该类网页的一个显著特点就是在目录页面网页的缺省排序是按照最后的回复时间来排序的。当前大多网络爬虫爬取论坛目录页内容时，一般是预先指定需要爬取的规则(例如，针对有翻页的目录页，指定最大翻页数)，然后再利用爬取技术来逐步翻页爬取每页的内容。现有技术在爬取论坛目录页面的时候，只能根据解析出来的URL作为爬取论坛的来源。由于论坛目录页面通常将最后回复的帖子列在目录页面的最前面，如果网络爬虫从上到下依次爬取各个帖子，将爬取到很多旧的无效的帖子(例如，数月前发表的帖子，仅仅是因为有人最近回帖而排在最前面)。而网络数据的时效性通常是网络爬虫首要关注的，当前的方法通常是人为配置目标网站爬取的最大翻页数，然后依次递增爬取，当达到最大翻页数时即停止爬取。上述方法对于热门论坛，由于发帖量巨大，最大翻页数可能不够，会导致数据丢失；而对于非热门论坛，每次都爬取最大翻页数的页面将造成网络流量和带宽的巨大浪费，此外，如果在爬取量较大的情况下，在本地解析也将耗时费力，造成资源的浪费。针对相关技术中通过翻页爬...
论坛目录页内容爬取方法和装置

【技术保护点】
一种论坛目录页内容爬取方法，其特征在于，包括：爬取论坛目录页的第一爬取页面中的文章，得到爬取结果，其中，所述论坛目录页中的文章按照发表时间排序；从所述爬取结果中获取所述第一爬取页面中的最后一篇文章的发表时间；判断所述发表时间是否晚于预设时间；在判断出所述发表时间晚于所述预设时间时，跳转至所述论坛目录页的第二爬取页面，并爬取所述第二爬取页面中的文章，其中，所述第二爬取页面位于所述第一爬取页面之后；以及在判断出所述发表时间不晚于所述预设时间时，停止爬取所述论坛目录页中的文章。

【技术特征摘要】
1.一种论坛目录页内容爬取方法，其特征在于，包括：爬取论坛目录页的第一爬取页面中的文章，得到爬取结果，其中，所述论坛目录页中的文章按照发表时间排序；从所述爬取结果中获取所述第一爬取页面中的最后一篇文章的发表时间；判断所述发表时间是否晚于预设时间；在判断出所述发表时间晚于所述预设时间时，跳转至所述论坛目录页的第二爬取页面，并爬取所述第二爬取页面中的文章，其中，所述第二爬取页面位于所述第一爬取页面之后；以及在判断出所述发表时间不晚于所述预设时间时，停止爬取所述论坛目录页中的文章。2.根据权利要求1所述的方法，其特征在于，从所述爬取结果中获取所述第一爬取页面中最后一篇文章的发表时间包括：从所述爬取结果中获取所述第一爬取页面中最后一篇文章对应的内容；以及通过预设算法从所述最后一篇文章对应的内容中解析出所述发表时间。3.根据权利要求1所述的方法，其特征在于，在判断出所述发表时间晚于所述预设时间时，跳转至所述论坛目录页的第二爬取页面，并爬取所述第二爬取页面中的文章包括：从所述第一爬取页面中获取所述第二爬取页面的链接；根据所述第二爬取页面的链接跳转至所述第二爬取页面；以及爬取所述第二爬取页面中的文章。4.根据权利要求1所述的方法，其特征在于，在爬取论坛目录页的第一爬取页面中的文章，得到爬取结果之前，所述方法还包括：获取预设排序规则，其中，所述预设排序规则用于使所述论坛目录页的内容按照发表时间排序；以及根据所述预设排序规则将所述论坛目录页中的文章按照发表时间排序。5.根据权利要求4所述的方法，其特征在于，根据所述预设排序规则将所述论坛目录页中的文章按照发表时间排序包括：获取所述论坛目录页的链接；以及根据所述论坛目录页的链接按照所述预设排序规则构建爬取请求，其中，根据所述爬取请求从服务器获取到的论坛目录页中的文章按照...

【专利技术属性】
技术研发人员：兰光明，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人