网络数据抓取方法和爬虫技术

技术编号：15238787 阅读：594 留言：0更新日期：2017-04-29 04:14

本发明专利技术提出一种网络数据抓取方法和爬虫，涉及互联网技术领域。其中，本发明专利技术的一种网络数据抓取方法包括：调用浏览器发起网页访问请求；模拟用户操作，获取返回页面；在返回页面中提取目标内容。通过这样的方法，能够调用真实的浏览器，在真实浏览器上模拟用户的操作，并对网页反馈的内容进行数据抓取，从而实现了对异步请求反馈信息的内容抓取，提高网络数据抓取能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网
，特别是一种网络数据抓取方法和爬虫。
技术介绍
网络爬虫是一种自动提取网页内容的程序，它按照一定的规则抓取互联网信息。网络爬虫一般从一个或若干个初始网页的URL(UniformResourceLocator，统一资源定位符)开始，获得初始网页上的内容，并继续抽取满足规则的新的URL，将其放入队列，周而复始，直到完成满足系统设定的一定条件时停止。普通的网络爬虫能够获取静态页面的内容，但是目前大量的网站使用了Ajax(AsynchronousJavascriptAndXML，异步JavaScript和XML(ExtensibleMarkupLanguage，可扩展标记语言))技术，对于这种类型的网站，普通爬虫仅能获取网页中同步请求的数据，无法对异步请求进行及时的响应和处理，导致爬虫无法获取目标内容。
技术实现思路
本专利技术的一个目的在于实现网络爬虫对于一部请求数据的抓取，提高网络爬虫的网络数据抓取能力。根据本专利技术的一个方面，提出一种网络数据抓取方法，包括：调用浏览器发起网页访问请求；模拟用户操作，获取返回页面；在返回页面中提取目标内容。可选地，调用浏览器发起网页访问请求包括：在请求者地址列表中选取IP(InternetProtocol，互联网协议)地址；调用浏览器，采用IP地址作为源地址发起网页访问请求。可选地，还包括：若采用IP地址作为源地址无法访问目标网页，则从请求者地址列表中删除IP地址。可选地，调用浏览器发起网页访问请求还包括：判断请求者地址列表中IP地址的数量是否达到预定门限；若IP地址的数量小于预定门限，则在请求者地...

【技术保护点】
一种网络数据抓取方法，其特征在于，包括：调用浏览器发起网页访问请求；模拟用户操作，获取返回页面；在所述返回页面中提取目标内容。

【技术特征摘要】
1.一种网络数据抓取方法，其特征在于，包括：调用浏览器发起网页访问请求；模拟用户操作，获取返回页面；在所述返回页面中提取目标内容。2.根据权利要求1所述的方法，其特征在于，所述调用浏览器发起网页访问请求包括：在请求者地址列表中选取互联网协议IP地址；调用所述浏览器，采用所述IP地址作为源地址发起所述网页访问请求。3.根据权利要求2所述的方法，其特征在于，还包括：若采用所述IP地址无法访问目标网页，则从所述请求者地址列表中删除所述IP地址。4.根据权利要求3所述的方法，其特征在于，所述调用浏览器发起网页访问请求还包括：判断所述请求者地址列表中IP地址的数量是否达到预定门限；若所述IP地址的数量小于所述预定门限，则在所述请求者地址列表中填充所述IP地址。5.根据权利要求1所述的方法，其特征在于，所述用户操作包括点击、滑动滚轮和/或输入内容并提交。6.根据权利要求1～5任意一项所述的方法，其特征在于，所述在所述返回页面中提取目标内容包括：判断所述返回网页是否为不标准网页和/或加载不完全的网页；若所述返回网页为不标准网页和/或加载不完全的网页，则通过正则表达式在所述返回页面中提取所述目标内容；否则，通过可扩展标记语言路径语言XPATH在所述返回页面中提取所述目标内容。7.一种网络爬虫，其特征在于，包括：请求访问模块，用于调用浏览器发起网页访问请求；用户...

【专利技术属性】
技术研发人员：张长宽，叶伟荣，潘军剑，朱晨光，
申请(专利权)人：浙江省公众信息产业有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人