一种用于抓取网站数据的方法与设备技术

技术编号：9034020 阅读：80 留言：0更新日期：2013-08-15 00:51

本发明专利技术的目的是提供一种用于抓取网站数据的方法与设备。首先，根据所述网站拓扑结构信息，由当前根页面中的全部链接选择一个未访问链接，并获取其指向的下一层页面；接着，根据第一预定规则，判断所述下一层页面是否为目标信息页面；当所述下一层页面不为目标信息页面，则将所述下一层页面作为当前根页面，重复执行所述步骤a和b，直至满足第一预定条件；当判断所述下一层页面为目标信息页面时，抓取所述目标信息页面；当满足第二预定条件，将前一根页面作为当前根页面，重复执行所述步骤a、b、c1和c2。与现有技术相比，本发明专利技术采用深度优先遍历的方式，实现了抓取整个网站的目标数据，保证了对目标数据抓取的准确性，提高数据抓取的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网
，尤其涉及一种用于抓取网站数据的技术。
技术介绍
现有技术中，从数据提供网站抓取数据一般需要针对每个网站单独执行一个脚本，但是当数据提供网站数量较多时，需要维护多套抓取脚本，因此脚本维护成本较高，数据抓取效率不高；同时，在数据提供网站设置分类信息后，在其服务器端会存有最后一次设置分类信息的cookie信息，但由于传统数据抓取一般采用广度优先的抓取方式，且在同一页面中更换分类信息时，该页面链接的统一资源定位符(URL)不会改变，使得在访问同一页面的每一分类信息链接后，可能抓取到的数据为cookie信息中记录的最后一次选择的分类信息，而非所期望抓取的每一分类信息对应的目标数据，数据抓取的准确性不高。因此，如何实现网站数据的有效抓取，成为目前亟待解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于抓取网站数据的方法与设备。根据本专利技术的一个方面，提供了一种计算机实现的用于抓取网站数据的方法，该方法包括以下步骤:a根据所述网站拓扑结构信息，由当前根页面中的全部链接选择一个未访问链接，并获取其指向的下一层页面；b根据第一预定规则，判断所述下一层页面是否为目标信息页面；Cl当所述下一层页面不为目标信息页面，则将所述下一层页面作为当前根页面，重复执行所述步骤a和b，直至满足第一预定条件；c2当判断所述下一层页面为目标信息页面时，抓取所述目标信息页面；其中，该方法还包括:-当满足第二预定条件，将前一根页面作为当前根页面，重复执行所述步骤a、b、cl 和 c2。根据本专利技术的另一方面，还提供了一种用于抓取网站数据的设备，该设备包括:...
一种用于抓取网站数据的方法与设备

【技术保护点】
一种计算机实现的用于抓取网站数据的方法，该方法包括以下步骤：a根据所述网站拓扑结构信息，由当前根页面中的全部链接选择一个未访问链接，并获取其指向的下一层页面；b根据第一预定规则，判断所述下一层页面是否为目标信息页面；c1当所述下一层页面不为目标信息页面，则将所述下一层页面作为当前根页面，重复执行所述步骤a和b，直至满足第一预定条件；c2当判断所述下一层页面为目标信息页面时，抓取所述目标信息页面；其中，该方法还包括：?当满足第二预定条件，将前一根页面作为当前根页面，重复执行所述步骤a、b、c1和c2。

【技术特征摘要】

【专利技术属性】
技术研发人员：江军，余庆生，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人