网页爬虫系统及网页爬取方法技术方案

技术编号：12128060 阅读：108 留言：0更新日期：2015-09-25 16:59

本发明专利技术公开了一种网页爬虫系统及网页爬取方法，网页爬虫系统包括：页面打开模块，用于自动调度浏览器打开目标页面；区域爬取模块，用于对目标页面中的指定区域进行自动截图，并将截图回传至OCR服务器；所述OCR服务器用于根据所述指定区域及样本字库，对截图进行图像识别，并按照预设配置格式，对识别结果进行输出。本发明专利技术能够突破现有网站的一切前端反爬限制，实现了只要能打开页面，在未被封锁IP的情况下，就可以进行信息的识别和抓取，从而提升了爬虫系统的可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
爬虫技术目前正遭受前所未有的挑战，随着反爬技术的发展，数据抓取变得越来越困难，可以预计今后通过传统手段，将再也无法成功抓取到有价值的数据，现有技术亟需新的爬虫技术来爬取网页数据。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中反爬技术的发展使得数据抓取变得越来越困难的缺陷，提供一种。本专利技术是通过下述技术方案来解决上述技术问题的:本专利技术提供了一种网页爬虫系统，其特点在于，包括:页面打开模块，用于自动调度浏览器打开目标页面；区域爬取模块，用于对目标页面中的指定区域进行自动截图，并将截图回传至OCR (光学字符识别)服务器；所述OCR服务器用于根据所述指定区域及样本字库，对截图进行图像识别，并按照预设配置格式，对识别结果进行输出。较佳地，所述区域爬取模块还用于对截图进行压缩，并将压缩后的截图回传至OCR服务器。较佳地，所述配置格式为可自定义的配置格式。较佳地，所述页面打开模块用于基于调度系统下发的任务打开目标页面。本专利技术的目的在于还提供了一种网页爬取方法，其特点在于，其利用上述的网页爬虫系统实现，包括以下步骤:S1、页面打开模块自动调度浏览器打开目标页面；S2、区域爬取模块对目标页面中的指定区域进行自动截图，并将截图回传至OCR月艮务器；S3、所述OCR服务器根据所述指定区域及样本字库，对截图进行图像识别，并按照预设配置格式，对识别结果进行输出。较佳地，步骤S2中所述区域爬取模块还对截图进行压缩，并将压缩后的截图回传至OCR服务器。较佳地，所述配置格式为可自定义的配置格式。较佳地，步骤S1中所述...

【技术保护点】
一种网页爬虫系统，其特征在于，包括：页面打开模块，用于自动调度浏览器打开目标页面；区域爬取模块，用于对目标页面中的指定区域进行自动截图，并将截图回传至OCR服务器；所述OCR服务器用于根据所述指定区域及样本字库，对截图进行图像识别，并按照预设配置格式，对识别结果进行输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴鹏越，吴凌峰，华浩锋，
申请(专利权)人：携程计算机技术上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人