面向海量数据采集的分布式网络爬虫性能优化方法技术

技术编号：23484997 阅读：20 留言：0更新日期：2020-03-10 12:37

本发明专利技术属于软件工程技术领域，具体涉及一种面向海量数据采集的分布式网络爬虫性能优化方法。所述方法包括如下步骤：步骤1：初始化模块新建一个去重字符串和一个垃圾链接特征字符串；步骤2：主节点爬行器读取到初始URL地址，爬取模块爬取初始URL地址，生成URL任务队列；步骤3：爬取模块根据URL任务队列进行网页爬取，完成爬取工作。与现有技术相比较，本发明专利技术突破了分布式网络爬虫爬取性能瓶颈，爬取性能提高50％以上；提高了URL任务队列的去重效率，满足海量数据采集的效率要求；优化了URL任务队列的存储空间，极大地节省了服务器内存资源；增加了垃圾链接过滤环节，不仅节约服务器内存资源，而且显著提高爬虫效率。

Performance optimization method of distributed network crawler for massive data collection

全部详细技术资料下载

【技术实现步骤摘要】
面向海量数据采集的分布式网络爬虫性能优化方法
本专利技术属于软件工程
，具体涉及一种面向海量数据采集的分布式网络爬虫性能优化方法。
技术介绍
网络爬虫又名网络蜘蛛、网络蚂蚁或者网络机器人等，能够按照设定的规则自动地从网络中获取数据。分布式网络爬虫能够高效获取大规模数据集，广泛应用于搜索引擎和大数据分析中，已经成为海量数据采集的重要工具。分布式网络爬虫通常包括一个主节点爬行器和多个从节点爬行器，使用Redis内存数据库持久化保存URL任务队列和去重队列。主节点爬行器根据初始URL(统一资源定位符)爬取网页，获得数据，同时也得到新的URL，将新的URL去重后放入URL任务队列；从节点爬行器从URL任务队列中获取URL地址，爬取网页，获得数据，同时也会得到新的URL，经过去重后也会放入URL任务队列，如此反复直到爬虫任务满足结束条件或者URL任务队列为空。Redis内存数据库自带的URL去重原理是利用数据集合无重复的特性，适用于数据量规模不大的情况。当待去重的链接达到千万量级时，对服务器的内存要求明显提高，且去重效率大幅降低。经过实践，随着爬虫的不断运行，累积的URL任务队列和去重队列会持续占用Redis内存并不断增长，最终会因占满整个服务器的内存而使服务器宕机。因此，现有的基于Redis的分布式网络爬虫，面对海量数据采集时，性能存在三个方面的不足：(1)庞大的去重队列保存在Redis集合中，不仅造成去重效率低下，也会过度消耗服务器内存资源；(2)垃圾链接层出不穷，Redis内存数据库无法有效...

【技术保护点】
1.一种面向海量数据采集的分布式网络爬虫性能优化方法，其特征在于，所述分布式网络爬虫性能优化方法基于分布式网络爬虫性能优化系统来实施，所述分布式网络爬虫性能优化系统包括：初始化模块、爬取模块；/n所述分布式网络爬虫性能优化方法包括如下步骤：/n步骤1：所述初始化模块新建一个去重字符串和一个垃圾链接特征字符串；/n步骤2：主节点爬行器读取到初始URL地址，所述爬取模块爬取初始URL地址，生成URL任务队列；/n步骤3：所述爬取模块根据URL任务队列进行网页爬取，完成爬取工作。/n

【技术特征摘要】
1.一种面向海量数据采集的分布式网络爬虫性能优化方法，其特征在于，所述分布式网络爬虫性能优化方法基于分布式网络爬虫性能优化系统来实施，所述分布式网络爬虫性能优化系统包括：初始化模块、爬取模块；
所述分布式网络爬虫性能优化方法包括如下步骤：
步骤1：所述初始化模块新建一个去重字符串和一个垃圾链接特征字符串；
步骤2：主节点爬行器读取到初始URL地址，所述爬取模块爬取初始URL地址，生成URL任务队列；
步骤3：所述爬取模块根据URL任务队列进行网页爬取，完成爬取工作。

2.如权利要求1所述的面向海量数据采集的分布式网络爬虫性能优化方法，其特征在于，所述初始化模块包括：去重字符串生成单元、垃圾链接特征字符串生成单元；
所述步骤1包括：
步骤11：所述去重字符串生成单元在Redis内存数据库中新建一个去重字符串；
步骤12：所述垃圾链接特征字符串生成单元根据垃圾链接的典型特征，在Redis内存数据库中新建一个垃圾链接特征字符串。

3.如权利要求2所述的面向海量数据采集的分布式网络爬虫性能优化方法，其特征在于，所述去重字符串中所有的位数值为0。

4.如权利要求3所述的面向海量数据采集的分布式网络爬虫性能优化方法，其特征在于，所述垃圾链接的典型特征包括：自动评论生成的链接，群发外部的链接。

5.如权利要求4所述的面向海量数据采集的分布式网络爬虫性能优化方法，其特征在于，所述爬取模块包括：页面爬行模块、页面分析模块、链接处理模块；
所述步骤2包括：
步骤21：用户根据数据采集主题，通过用户中心设定初始URL地址的集合；
步骤22：主节点爬行器读取到初始URL地址，并交给页面爬行模块；
步骤23：页面爬行模块根据初始URL地址，对互联网网页发出请求；
步骤24：互联网网页响应页面爬行模块的请求，并返回响应内容；
步骤25：页面分析模块根据相关主题对响应内容进行解析，提取内容保存到数据库以备查询，同时获得新URL地址；
步骤26：新URL地址经过链接处理模块处理，保存到Redis内存数据库的URL任务队列中，形成URL任务队列。

6.如权利要求5所述的面向海量数据采集的分布式网络爬虫性能优化方法，其特征在于，所述链接处理模块包括：垃圾链接过滤模块、链接去重处理模块、压缩处理模块和序列化处理模块；
所述步骤26中包括：
步骤261：由垃圾链接过滤模块根据垃圾链接特征字符串作用于新URL地址，识别新URL地址是否包含垃圾链接特征，如果URL地址包含垃圾链接特征，则判断该URL...

【专利技术属性】
技术研发人员：张凯云，吴志成，陈立忠，吴艳林，张郭秋晨，纪纲，王学勇，郭姣，
申请(专利权)人：北京京航计算通讯研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人