页面内容获取方法和装置制造方法及图纸

技术编号：13738216 阅读：60 留言：0更新日期：2016-09-22 09:53

本申请公开了页面内容获取方法和装置。该方法的一具体实施方式包括：确定待提取的页面内容所属的页面；利用浏览器内核获取页面；利用预设脚本提取页面中的页面内容。实现了在抓取海量页面中的页面内容时，利用浏览器内核获取和加载页面，避免了因服务器对网络爬虫检查严格拒绝服务而导致的无法获取页面的情况，从而获取到海量页面。同时，通过预设脚本直接提取获取到的页面中页面内容和对页面内容进行分析，充分考虑了页面的DOM结构，简化了提取页面内容的操作。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机
，具体涉及网络技术，尤其涉及页面内容获取方法和装置。
技术介绍
网络爬虫用于抓取海量页面中的页面内容，对页面内容进行分析。目前，网络爬虫通常采用以下方式抓取海量页面中的页面内容：对于页面中存在的静态数据，将网页下载到本地，通过文本分析的方式，例如正则表达式提取页面内容。对于页面中采用Ajax动态填充的数据，直接向服务器发起Ajax请求提取页面内容。然而，当采用上述方式抓取海量页面中的页面内容时，一方面，没有考虑页面的DOM(Document Object Model，文档对象模型)结构，匹配错误的可能性较大，需要更多的代码逻辑来校验数据的正确性。另一方面，由于服务器对客户端请求会做严格的审查，模拟Ajax请求的方式容易被服务器拒绝。服务器对爬虫检查严格时，导致无法获取页面。
技术实现思路
本申请提供了页面内容获取方法和装置，用于解决上述
技术介绍
部分存在的技术问题。第一方面，本申请提供了页面内容获取方法，该方法包括：确定待提取的页面内容所属的页面；利用浏览器内核获取页面；利用预设脚本提取页面中的页面内容。第二方面，本申请提供了页面内容获取装置，该装置包括：确定单元，配置用于确定待提取的页面内容所属的页面；获取单元，配置用于利用浏览器内核获取页面；提取单元，配置用于利用预设脚本提
取页面中的页面内容。本申请提供的页面内容获取方法和装置，通过确定待提取的页面内容所属的页面；利用浏览器内核获取页面；利用预设脚本提取页面中的页面内容。实现了在抓取海量页面中的页面内容时，利用浏览器内核获取和加载页面，避免了因服务器对网络爬虫检查严...

【技术保护点】
一种页面内容获取方法，其特征在于，所述方法包括：确定待提取的页面内容所属的页面；利用浏览器内核获取所述页面；利用预设脚本提取所述页面中的所述页面内容。

【技术特征摘要】
1.一种页面内容获取方法，其特征在于，所述方法包括：确定待提取的页面内容所属的页面；利用浏览器内核获取所述页面；利用预设脚本提取所述页面中的所述页面内容。2.根据权利要求1所述的方法，其特征在于，所述利用浏览器内核获取所述页面包括：调用浏览器内核提供的获取页面的接口从所述页面所在的服务器获取所述页面。3.根据权利要求1-2之一所述的方法，其特征在于，在利用浏览器内核获取所述页面之后，所述方法还包括：调用浏览器内核提供的脚本加载接口在所述页面中加载所述预设脚本。4.根据权利要求1-2之一所述的方法，其特征在于，在利用浏览器内核获取所述页面之后，所述方法还包括：将所述预设脚本嵌入到所述页面中。5.根据权利要求1所述的方法，其特征在于，所述利用浏览器内核获取所述页面包括：调用浏览器内核提供的获取页面的接口从反向代理服务器获取嵌入所述预设脚本的所述页面。6.一种页面内容获取装置，其特征在于，所述装置包括：确定单元，...

【专利技术属性】
技术研发人员：胡银厚，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人