本发明专利技术公开一种抓取网络平面媒体的网页内容的方法及系统。所述方法包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。采用本发明专利技术的方法或系统,可以抓取到更加全面的数据,并且提高抓取效率。
【技术实现步骤摘要】
一种抓取网络平面媒体的网页内容的方法及系统
本专利技术涉及信息检索领域,特别是涉及一种抓取网络平面媒体的网页内容的方法及系统。
技术介绍
互联网网页信息每天都在快速地增长,为了能够让搜索引擎快速、全面地索引网页信息,网络爬虫需要每天抓取大量的网页。由于网页的种类繁多,所以对于网页内容的抓取方式也不尽相同。本申请主要涉及对于网络平面媒体的网页内容的抓取。所谓平面媒体是指报纸、杂志等传统媒体。报纸、杂志等传统媒体通过单一的视觉、单一的维度传递信息,相对于电视、互联网等媒体通过视觉、听觉等多维度的传递信息,而称作平面媒体。随着网络的发展,这些传统意义上的平面媒体也纷纷开设了相应的网站。网络平面媒体与通常的网页相比,平面媒体的更新周期长,例如有些报刊为周刊,则其更新周期为一周,有些杂志为月刊,则其更新周期为一个月。此外,网络平面媒体与通常的网页相比,还具有更新量大,更新时间不确定等特点。由于网络平面媒体的上述特点,现有技术中,抓取网络平面媒体的网页内容的方法主要是,通过抓取平媒站点首页的跳转,跳转到最近一期更新的数字平媒,从而实现局部覆盖。但是,现有技术中方法存在如下缺点。一个缺点是数据覆盖不完全。以京郊日报电子版http://jjrb.bjd.com.cn/html/2013-05/31/node_62.htm为例:用来关联不同日期发表的平媒的“上一期”、“下一期”链接完全不可用。如果前一天的平媒数据与当天数据同时在今天发布出来,现有方法将无法覆盖到前一天的平媒数据。另一个缺点是抓取效率低,资源消耗大。现有技术中,抓取到一次页面跳转也会产生一次抓取开销。当网页内容没有更新时,就会造成一次无用的抓取,浪费硬件资源。
技术实现思路
本专利技术的目的是提供一种抓取网络平面媒体的网页内容的方法及系统,可以抓取到更加全面的数据,并且提高抓取效率。为实现上述目的,本专利技术提供了如下方案:一种抓取网络平面媒体的网页内容的方法,包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。可选的,还包括:判断所述第一URL对应的网页内容是否抓取成功,得到第一判断结果;当所述第一判断结果为是时,对所述第一URL对应的网页内容进行深度抓取;当所述第一判断结果为否时,停止抓取。可选的,所述确定需要抓取的所述网络平面媒体的更新时间信息,包括:查询抓取记录;所述抓取记录中记录有每次成功抓取对应的时间信息;获取当前的时间信息以及所述网络平面媒体的更新周期;确定所述当前的时间信息之前,所述网络平面媒体中尚未抓取的网页内容对应的时间信息。可选的,还包括:判断需要抓取的所述网络平面媒体的更新时间信息中,是否存在超过预设时间仍未抓取成功的超时网页内容;停止抓取所述超时网页内容。可选的,所述方法还包括:获取抓取失败的次数;判断抓取失败的次数是否大于预设次数,得到第二判断结果;当所述第二判断结果为是时,重新获取所述网络平面媒体的第二可用URL信息;根据所述第二可用URL信息重新生成所述网络平面媒体的URL模板。一种抓取网络平面媒体的网页内容的系统,包括:可用URL信息获取单元,用于获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;URL模板生成单元,用于根据所述可用URL信息生成所述网络平面媒体的URL模板;更新时间信息确定单元,用于确定需要抓取的所述网络平面媒体的更新时间信息;第一URL构造单元,用于根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;网页内容抓取单元,用于抓取所述第一URL对应的网页内容。可选的,还包括:第一判断单元,用于判断所述第一URL对应的网页内容是否抓取成功,得到第一判断结果;深度抓取单元,用于当所述第一判断结果为是时,对所述第一URL对应的网页内容进行深度抓取;第一停止单元,用于当所述第一判断结果为否时,停止抓取。可选的,所述更新时间信息确定单元,包括:抓取记录查询子单元,用于查询抓取记录;所述抓取记录中记录有每次成功抓取对应的时间信息;时间即周期获取子单元,用于获取当前的时间信息以及所述网络平面媒体的更新周期;更新时间信息确定子单元,用于确定所述当前的时间信息之前,所述网络平面媒体中尚未抓取的网页内容对应的更新时间信息。可选的,还包括:第二判断单元,用于判断需要抓取的所述网络平面媒体的更新时间信息中,是否存在超过预设时间仍未抓取成功的超时网页内容;第二停止单元,用于停止抓取所述超时网页内容。可选的,所述系统还包括:失败次数获取单元,用于获取抓取失败的次数;第三判断单元,用于判断抓取失败的次数是否大于预设次数,得到第二判断结果;第二可用URL信息获取单元,用于当所述第二判断结果为是时,重新获取所述网络平面媒体的第二可用URL信息;URL模板重生成单元,用于根据所述第二可用URL信息重新生成所述网络平面媒体的URL模板。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术实施例的抓取网络平面媒体的网页内容的方法及系统,通过根据所述可用URL信息生成所述网络平面媒体的URL模板,再根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容,与现有技术相比,不再采用抓取页面跳转的方式,而是直接通过构造的URL进行抓取,当网站的页面跳转链接不可用时,采用本专利技术实施例的方案仍然能够抓取到网络平面媒体的页面内容,因此,本专利技术实施例的方法及系统可以抓取到更加全面的数据。并且,由于本专利技术实施例的方法及系统不再抓取页面跳转,因此也不会产生抓取页面跳转的开销,不会造成无用的抓取,节约硬件资源,从而可以提高抓取效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的抓取网络平面媒体的网页内容的方法实施例1的流程图;图2为本专利技术的抓取网络平面媒体的网页内容的方法实施例2的流程图;图3为本专利技术的抓取网络平面媒体的网页内容的方法实施例3的流程图;图4为本专利技术的抓取网络平面媒体的网页内容的系统实施例的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术的抓取网络平面媒体的网页内容的方法实施例1的流程图。如图1所示,所述方法可以包括:步骤101:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;所述可用URL信息可以是网络平面媒体的首页的URL,也可以是网络平面媒体的首页上的某个链接的URL。本文档来自技高网...

【技术保护点】
一种抓取网络平面媒体的网页内容的方法,其特征在于,包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。
【技术特征摘要】
1.一种抓取网络平面媒体的网页内容的方法,其特征在于,包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容;还包括:获取抓取失败的次数;判断抓取失败的次数是否大于预设次数,得到第二判断结果;当所述第二判断结果为是时,重新获取所述网络平面媒体的第二可用URL信息,其中通过网络平面媒体网页上的链接来获取所述网络平面媒体的可用URL信息,作为第二可用URL信息;根据所述第二可用URL信息重新生成所述网络平面媒体的URL模板,作为第二URL模板;采用所述第二URL模板抓取对应的网页内容。2.根据权利要求1所述的方法,其特征在于,还包括:判断所述第一URL对应的网页内容是否抓取成功,得到第一判断结果;当所述第一判断结果为是时,对所述第一URL对应的网页内容进行深度抓取;当所述第一判断结果为否时,停止抓取。3.根据权利要求1所述的方法,其特征在于,所述确定需要抓取的所述网络平面媒体的更新时间信息,包括:查询抓取记录;所述抓取记录中记录有每次成功抓取对应的时间信息;获取当前的时间信息以及所述网络平面媒体的更新周期;确定所述当前的时间信息之前,所述网络平面媒体中尚未抓取的网页内容对应的时间信息。4.根据权利要求3所述的方法,其特征在于,还包括:判断需要抓取的所述网络平面媒体的更新时间信息中,是否存在超过预设时间仍未抓取成功的超时网页内容;停止抓取所述超时网页内容。5.一种抓取网络平面媒体的网页内容的系统,其特征在于,包括:可用URL信息获取单元,用于获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;URL模板生成单元,用于根据所述可用URL信...
【专利技术属性】
技术研发人员:张思亮,崔世起,崔庆君,
申请(专利权)人:人民搜索网络股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。