一种抓取网络平面媒体的网页内容的方法及系统技术方案

技术编号:9356737 阅读:169 留言:0更新日期:2013-11-20 23:54
本发明专利技术公开一种抓取网络平面媒体的网页内容的方法及系统。所述方法包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。采用本发明专利技术的方法或系统,可以抓取到更加全面的数据,并且提高抓取效率。

【技术实现步骤摘要】
一种抓取网络平面媒体的网页内容的方法及系统
本专利技术涉及信息检索领域,特别是涉及一种抓取网络平面媒体的网页内容的方法及系统。
技术介绍
互联网网页信息每天都在快速地增长,为了能够让搜索引擎快速、全面地索引网页信息,网络爬虫需要每天抓取大量的网页。由于网页的种类繁多,所以对于网页内容的抓取方式也不尽相同。本申请主要涉及对于网络平面媒体的网页内容的抓取。所谓平面媒体是指报纸、杂志等传统媒体。报纸、杂志等传统媒体通过单一的视觉、单一的维度传递信息,相对于电视、互联网等媒体通过视觉、听觉等多维度的传递信息,而称作平面媒体。随着网络的发展,这些传统意义上的平面媒体也纷纷开设了相应的网站。网络平面媒体与通常的网页相比,平面媒体的更新周期长,例如有些报刊为周刊,则其更新周期为一周,有些杂志为月刊,则其更新周期为一个月。此外,网络平面媒体与通常的网页相比,还具有更新量大,更新时间不确定等特点。由于网络平面媒体的上述特点,现有技术中,抓取网络平面媒体的网页内容的方法主要是,通过抓取平媒站点首页的跳转,跳转到最近一期更新的数字平媒,从而实现局部覆盖。但是,现有技术中方法存在如下缺点。一个缺点是数据覆盖本文档来自技高网...
一种抓取网络平面媒体的网页内容的方法及系统

【技术保护点】
一种抓取网络平面媒体的网页内容的方法,其特征在于,包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。

【技术特征摘要】
1.一种抓取网络平面媒体的网页内容的方法,其特征在于,包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容;还包括:获取抓取失败的次数;判断抓取失败的次数是否大于预设次数,得到第二判断结果;当所述第二判断结果为是时,重新获取所述网络平面媒体的第二可用URL信息,其中通过网络平面媒体网页上的链接来获取所述网络平面媒体的可用URL信息,作为第二可用URL信息;根据所述第二可用URL信息重新生成所述网络平面媒体的URL模板,作为第二URL模板;采用所述第二URL模板抓取对应的网页内容。2.根据权利要求1所述的方法,其特征在于,还包括:判断所述第一URL对应的网页内容是否抓取成功,得到第一判断结果;当所述第一判断结果为是时,对所述第一URL对应的网页内容进行深度抓取;当所述第一判断结果为否时,停止抓取。3.根据权利要求1所述的方法,其特征在于,所述确定需要抓取的所述网络平面媒体的更新时间信息,包括:查询抓取记录;所述抓取记录中记录有每次成功抓取对应的时间信息;获取当前的时间信息以及所述网络平面媒体的更新周期;确定所述当前的时间信息之前,所述网络平面媒体中尚未抓取的网页内容对应的时间信息。4.根据权利要求3所述的方法,其特征在于,还包括:判断需要抓取的所述网络平面媒体的更新时间信息中,是否存在超过预设时间仍未抓取成功的超时网页内容;停止抓取所述超时网页内容。5.一种抓取网络平面媒体的网页内容的系统,其特征在于,包括:可用URL信息获取单元,用于获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;URL模板生成单元,用于根据所述可用URL信...

【专利技术属性】
技术研发人员:张思亮崔世起崔庆君
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1