爬虫框架制造技术

技术编号：26890906 阅读：20 留言：0更新日期：2020-12-29 16:07

本发明专利技术提供了一种爬虫框架，包括：调度器、下载器、页面解析器，调度器中预先设置有爬虫抓取的第一个URL；爬虫框架进入调度器的循环体；在下载页面功能中，爬虫框架调用下载器下载第一个URL，下载器中默认存有请求头部信息列表、使用时也可以自定义headers信息；下载器下载的内容将由解析内容功能调用页面解析器进行配置数据提取规则获取数据；解析内容获得的数据中，获取的URL可以存入内存缓存数据库中，存储时使用hash数据类型，URL作为键；解析的数据直接存入消息队列，最终存入数据库中。本发明专利技术具有较高的并发性能和较强的使用灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
爬虫框架
本专利技术涉及网络爬虫
，特别涉及一种爬虫框架。
技术介绍
网络爬虫技术广泛用于互联网行业。大数据的发展，数据挖掘技术的使用都依赖于海量的数据。而通过网络爬虫技术可以从互联网获取大量的信息数据。庞大的网民群体产生巨量的数据，这对爬虫技术的性能有较高要求。为获取更多数据，爬虫需要更高的性能。随着数据相关的技术发展，工程实践中对数据的存储等有多种选择，除了传统的关系型数据库，非关系型数据库、分布式存储成为了行业选择。但是，由于很多网站对网络请求需要头部信息，而一般的爬虫框架中的默认头部信息为空或者非浏览器头部信息，因此，使用这些框架时需要手动加入请求头部信息。进行数据爬取时，有些URL地址需要进行短暂存储，如果存储在程序执行的机器上，会消耗很多内存，同时在进行多线程执行程序时，需要防止数据重复。框架包括的功能较多，但是在工程实践中，并不是一定要使用该框架，而是只需要使用框架中的部分功能。
技术实现思路
本专利技术提供了一种爬虫框架，以解决至少一个上述技术问题。为解决上述问题，作...

【技术保护点】
1.一种爬虫框架，其特征在于，包括：调度器、下载器、页面解析器，/n调度器中预先设置有爬虫抓取的第一个URL；/n爬虫框架进入调度器的循环体；/n在下载页面功能中，爬虫框架调用下载器下载第一个URL，下载器中默认存有请求头部信息列表、使用时也可以自定义headers信息；/n下载器下载的内容将由解析内容功能调用页面解析器进行配置数据提取规则获取数据；/n解析内容获得的数据中，获取的URL可以存入内存缓存数据库中，存储时使用hash数据类型，URL作为键，以防止缓存数据中URL重复；使用高并发的内存数据库以减小数据缓存对系统性能的影响，从而提高爬虫的并发性能；解析的数据可以直接存入消息队列，最终...

【技术特征摘要】
1.一种爬虫框架，其特征在于，包括：调度器、下载器、页面解析器，
调度器中预先设置有爬虫抓取的第一个URL；
爬虫框架进入调度器的循环体；
在下载页面功能中，爬虫框架调用下载器下载第一个URL，下载器中默认存有请求头部信息列表、使用时也可以自定义headers信息；
下载器下载的内容将由解析内容功能调用页面解析器进行配置数据提取规则获取数据；
解析内容获得的数据中，获取的URL可以存入内存缓存数据库中，存储时使用hash数据类型，URL作为键，以防止缓存数据中URL重复；使用高并发的内存数据库以减小数据缓存对系统性能的影响，从而提高爬虫的并发性能；解析的数据可以直接存入消息队列，最终存入数据库中，使用消息队列作为数据缓冲区将数据解析与数据库解耦，以减弱相对较低的数据库并发性能对数据抓取性能的限制，提高爬虫的并...

【专利技术属性】
技术研发人员：杨宏，何云飞，谢凯，
申请(专利权)人：深圳市比希科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人