The invention relates to the technical field of the JAVA platform, in particular to a page grabbing method for web page content. The method of the present invention is to check whether the URLs of the pages to be crawled currently have the number of pages. If not, the URLs of the pages to be crawled are parsed with the developer's tools to find out the query parameters and the URLs of the requests, and then the URLs with the number of pages are spliced according to them. It extracts the total page number, the current page number and other information; then it uses the total page number as the end value, the current page number as the start value, loops, replaces the number of pages in the URL with the loop variable in the loop body, and generates the URL of each page; finally, it loads the page URL with the network tool, and extracts the required content with the crawler tool. The saved data is saved to the database. The invention solves the problem that the pagination part of a pagination web page can not be directly grabbed.
【技术实现步骤摘要】
一种网页内容有分页的抓取方法
本专利技术涉及JAVA平台
,特别涉及一种网页内容有分页的抓取方法。
技术介绍
在进行网页情报信息抓取时,经常会碰到很多待抓取的内容是有分页的,我们所能抓取的只有当前看到的那一页的数据,其它分页的数据是需要点击分页按钮才能加载出来的。假如分页有几千上万页,如果单靠手工点击按钮加载分页内容来进行抓取,这种行为是不可取的。为了解决这些问题,需要实现一种能模拟点击分页按钮来获取所有分页的URL以便抓取没有加载部分信息的功能。
技术实现思路
本专利技术解决的技术问题在于提供一种网页内容有分页的抓取方法;解决了有分页的网页其没展示的分页部分不能直接抓取的问题。本专利技术解决上述技术问题的技术方案是:首先查看当前待抓取页的URL是否带有分页数,如果没有,用开发人员工具进行解析,找出其查询参数与请求的URL,根据它们拼接出有分页数的URL;然后使用网络工具对其加载,获取Html信息内容,使用爬虫工具从中提取出总页数、当前页数等信息;接着以总页数为结束值,当前页数为开始值,循环,在循环体中使用循环变量替换掉URL中的分页数,生成每个分页的URL;最后使用网络工具对分页URL加载,使用爬虫工具对所需内容进行提取,把获得的数据保存到数据库中。从而解决了有分页的网页其没展示的分页部分不能直接抓取的问题。所述的方法具体包括如下步骤:步骤一、查看当前待抓取页的URL是否带有分页数,如果没有,用开发人员工具进行解析,找出其查询参数与请求的URL,根据它们拼接出有分页数的URL;步骤二、使用网络工具对其加载,获取Html信息内容;步骤三、使用爬虫工具从中 ...
【技术保护点】
1.一种网页内容有分页的抓取方法,其特征在于:首先查看当前待抓取页的URL是否带有分页数,如果没有,用开发人员工具进行解析,找出其查询参数与请求的URL,根据它们拼接出有分页数的URL;然后使用网络工具对其加载,获取Html信息内容,使用爬虫工具从中提取出总页数、当前页数等信息;接着以总页数为结束值,当前页数为开始值,循环,在循环体中使用循环变量替换掉URL中的分页数,生成每个分页的URL;最后使用网络工具对分页URL加载,使用爬虫工具对所需内容进行提取,把获得的数据保存到数据库中;从而解决了有分页的网页其没展示的分页部分不能直接抓取的问题。
【技术特征摘要】
1.一种网页内容有分页的抓取方法,其特征在于:首先查看当前待抓取页的URL是否带有分页数,如果没有,用开发人员工具进行解析,找出其查询参数与请求的URL,根据它们拼接出有分页数的URL;然后使用网络工具对其加载,获取Html信息内容,使用爬虫工具从中提取出总页数、当前页数等信息;接着以总页数为结束值,当前页数为开始值,循环,在循环体中使用循环变量替换掉URL中的分页数,生成每个分页的URL;最后使用网络工具对分页URL加载,使用爬虫工具对所需内容进行提取,把获得的数据保存到数据库中;从而解决了有分页的网页其没展示的分页部分不能直接抓取的问题。2.根据权利要求1所述的基于JAVA平台的一种...
【专利技术属性】
技术研发人员:陈林,张来卿,庞严冬,
申请(专利权)人:珠海横琴盛达兆业科技投资有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。