一种基于代工模式的动态网页爬虫方法及系统技术方案

技术编号：25599162 阅读：43 留言：0更新日期：2020-09-11 23:56

本发明专利技术公开了一种基于代工模式的动态网页爬虫方法及系统，包括：接收业务信息，配置爬虫参数，业务评估，做准备工作；分配系统资源，发起多个独立进程的业务爬虫；采用模拟浏览器模式，对动态网页原始URL进行爬取，并返回目标静态数据内容的URL；审查URL的有效性和非重复性，并审查后的爬取任务，构造生产任务消息列表，发起多个线程的生产爬虫；采用自动化程序模式，对静态的URL页面进行爬取，并返回目标数据和附件文件；对返回内容处理并存储；导出数据。本发明专利技术分别构造了业务爬虫和生产爬虫，基于代工模式对动态网页和静态内容采取不同的爬取策略，最大限度地利用系统资源，实现对动态网页数据进行大规模、快速爬取。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于代工模式的动态网页爬虫方法及系统
本专利技术涉及互联网信息检索、搜索引擎
，尤其涉及一种基于代工模式的动态网页爬虫方法及系统。
技术介绍
网络爬虫是互联网搜索引擎的重要组成部分，主要用于在互联网上抓取网页中的数据，为搜索引擎建立索引。抓取量是否够大，决定搜索引擎的内容是否丰富，抓取是否即时，直接影响搜索引擎的整体效果。在大数据的背景下，网络爬虫也广泛用于网络舆情、商品交易、文体娱乐等网络数据的抓取，为进一步的数据挖掘、数据分析提供海量的基础数据。通用的网络爬虫其工作原理是通过访问目标网页的URL，获得网页HTML数据，然后解析HTML中的DOM节点，抽取出目标数据或者数据的URL链接，保存到数据库或，再通过深度优先或者广度优先等策略继续爬取更多网页上的数据。由于网络爬虫或多或少会对目标网站产生一定的干扰或者出于数据保护等原因，许多网站会采取一些反爬虫手段。除此之外，有些网站由于其业务功能的原因，不会在用户初始打开页面时就将全部信息显示出来，而是需要通过点击某个按钮或者滑动滚动条等人工操作后，再通过Ajax的方式动态加载进来。对于动态网页的爬取，现有技术方法是采用模拟浏览器(例如Selenium、PhantomJS等)的方式，在需要人工操作的地方通过程序来模拟鼠标、键盘的行为，已达到触发网页动态加载新内容的目的。这种方式最大的缺点是效率低下，任务调度简单，不能满足大规模爬取任务的需求。
技术实现思路
本专利技术所要解决的技术问题是现有爬虫方法效率低下、任务调度简单、不能满足大规...

【技术保护点】
1.一种基于代工模式的动态网页爬虫方法，其特征在于，包括以下步骤：/nS1：接收用户输入的业务信息，配置爬虫业务参数，进行业务评估，并做好准备工作；/nS2：根据所述业务信息，在指定时间分配好系统资源，发起多个独立进程的业务爬虫；/nS3：所述业务爬虫采用模拟浏览器模式，对动态网页原始URL进行爬取，并返回目标静态数据内容的URL；/nS4：审查所述URL的有效性和非重复性，并对通过审查的爬取任务，构造生产任务消息列表，在分布式服务器上发起多个多线程的生产爬虫；/nS5：所述生产爬虫采用自动化程序模式，对含静态内容的URL页面进行爬取，并返回目标数据字段和附件文件；/nS6：对所述目标数据字段进行预处理，预处理后的目标数据字段和所述附件文件形成业务数据，存储所述业务数据；/nS7：导出所述业务数据，反馈给用户。/n

【技术特征摘要】
1.一种基于代工模式的动态网页爬虫方法，其特征在于，包括以下步骤：
S1：接收用户输入的业务信息，配置爬虫业务参数，进行业务评估，并做好准备工作；
S2：根据所述业务信息，在指定时间分配好系统资源，发起多个独立进程的业务爬虫；
S3：所述业务爬虫采用模拟浏览器模式，对动态网页原始URL进行爬取，并返回目标静态数据内容的URL；
S4：审查所述URL的有效性和非重复性，并对通过审查的爬取任务，构造生产任务消息列表，在分布式服务器上发起多个多线程的生产爬虫；
S5：所述生产爬虫采用自动化程序模式，对含静态内容的URL页面进行爬取，并返回目标数据字段和附件文件；
S6：对所述目标数据字段进行预处理，预处理后的目标数据字段和所述附件文件形成业务数据，存储所述业务数据；
S7：导出所述业务数据，反馈给用户。

2.根据权利要求1所述基于代工模式的动态网页爬虫方法，其特征在于，所述业务信息包括业务ID、业务描述、起始URL、登录资料、执行策略、防反爬措施、爬取数据字段与定位和导出数据格式。

3.根据权利要求2所述基于代工模式的动态网页爬虫方法，其特征在于，所述登录资料包括账号、密码和CA证书，所述执行策略为一次性定时增量爬取，所述防反爬措施包括IP代理、浏览器头和CSS偏移。

4.根据权利要求3所述基于代工模式的动态网页爬虫方法，其特征在于，所述步骤S1中准备工作包括：
业务参数完备性检查：确保所述业务信息的完整性；
访问通行证准备：根据所述业务信息，登录目标网站，获取并保存cookies信息，验证所述CA证书；
小任务尝试：根据所述起始URL和所述访问通行证准备，构造小型爬取任务，通过执行情况，分析所述目标网站的字符编码、数据量、访问时长和爬取成功率；
设计数据字段与规范化要求：根据所述业务信息，设计目标数据的字段名称、字段格式、字段长度和规范化要求；
建立数据库、数据表和附件存储空间。

5.根据权利要求1所述基于代工模式的动态网页爬虫方法，其特征在于，所述步骤S1中业务评估包括对业务所需的服务器硬件、软件、存储和网络带宽的评估。

6.根据权利要求5所述的基于代工模式的动态网页爬虫方法，其特征在于，若数据量巨大、生产爬虫并行程度高，则采用分库分表的方式进行存储。

7.根据权利要求1所述基于代工模式的动态网页爬虫方法，其特征在...

【专利技术属性】
技术研发人员：杨杰，程克非，吴渝，李红波，叶雯静，刘钟书，刘洋旗，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人