【技术实现步骤摘要】
一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法
本专利技术涉及垂直领域网络爬虫的
,具体地说是一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法。
技术介绍
随着信息技术的飞速发展,人们的生活以及工作信息变得数字化,各种的数字化信息充斥着整个网络,其数据的潜在价值不可估量,如何高效地抽取并利用这些大量的数据具有很重要的实践意义。网络爬虫,是一种按照一定的规则,自动爬取互联网信息的程序或脚本。常见的网络爬虫有通用型网络爬虫、垂直型网络爬虫、增量式网络爬虫等。每个爬虫都有不同的应用场景,因此有不同种类的爬虫拥有不同的功能,可以将爬虫分为3种类型:批量型爬虫:如果针对的网页是已知的并且范围是确定的,那么可以使用批量型爬虫,当爬虫完成了爬取所要求的网页的时候,既可以停止抓取了。具体目标可能有所不同,也可能是只要达到特定的网页量就可以了,也可能是只要在特定的时间之内完成抓取就可以了等等。增量型爬虫:这一类网络爬虫与上面介绍的爬虫的不同点在于,它会一直去爬取网页。如果抓取到的网页发生变化,这个爬虫也会立刻进行爬取,因为在整个网络中的网页在每时每刻都在发生变化 ...
【技术保护点】
1.一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法,其特征在于,方法包括,配置文件根据实际需要配置URL模式及解析规则;通过构建URL待消费队列容器,形成URL的生产者和消费者模式;对URL待消费队列容器配置URL解析接口,并根据实际需要制定URL解析接口的解析规则;通过URL解析接口解析传入符合模式的目标URL至数据库。
【技术特征摘要】
1.一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法,其特征在于,方法包括,配置文件根据实际需要配置URL模式及解析规则;通过构建URL待消费队列容器,形成URL的生产者和消费者模式;对URL待消费队列容器配置URL解析接口,并根据实际需要制定URL解析接口的解析规则;通过URL解析接口解析传入符合模式的目标URL至数据库。2.根据权利要求1所述的一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法,其特征在于,配置文件配置多线程URL模式。3.根据权利要求1所述的一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法,其特征在于,具体方法包括,S1、加载配置文件,提取配置文件的入口URL;S2、当待消费队列数据长度小于0时,等待生产者组生产;当待消费队列长度大于1时,消费者组消费1条数据,通过解析方法传入待消费URL及符合所述URL模式的解析规则,从而得到更多的URL;S3、判断所得的URL是否符合配置文件提供的目标URL模式,若符合,则加入目标URL队列;否,则将URL添加至待消费队列末尾;S4、生产者组从配置文件读取入口URL,并通过URL解析接口解析传入相应参数生产URL,并唤醒消...
【专利技术属性】
技术研发人员:张晓双,
申请(专利权)人:山东汇贸电子口岸有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。