【技术实现步骤摘要】
一种基于分发器和配置表组合的泛型爬虫系统
本专利技术属于计算机领域,涉及爬虫系统,特别涉及一种基于分发器和配置表组合的泛型爬虫系统。
技术介绍
随着大数据技术的发展,数据的价值越来越重要,使用爬虫技术高效地获取、分析数据、发现数据的价值成为了一种趋势。一个良好的爬虫框架为用户使用这种技术提供了便利。但是,当前主流的爬虫框架为使用者提供的是一类可复用的相互协作的类、模块或接口,需要使用者熟悉每个类、模块和接口的使用方法,自行编写爬虫获取数据各个环节的代码,因此,要求使用者具备一定的代码开发知识,限制了爬虫技术的用户群体,不利于数据价值的发现和利用。因此,专利技术一种基于分发器和配置表组合的泛型爬虫系统框架,能够像编写电影剧本一样,通过填写配置表,组合分发器,就能实现一个爬虫程序,完成数据爬取任务,解决上述问题就显得很有必要。
技术实现思路
本专利技术的目的在于提供一种基于分发器和配置表组合的泛型爬虫系统,本专利技术通过在爬虫引擎中填写配置表,组合分发器,然后由分发器驱动爬虫引擎执行的方式,实现对不同 ...
【技术保护点】
1.一种基于分发器和配置表组合的泛型爬虫系统,其特征在于:包括爬虫引擎(1)、URL管理器(4)、网页下载器(7)、内容解析器(11)、数据存储器(15)和线程控制器(21);/n所述爬虫引擎(1)包括配置表填写模块(2)和分发器组合模块(3);所述配置表填写模块(2)从用户获取输入信息,生成配置表数据,所述分发器组合模块(3)定义URL管理器(4)、网页下载器(7)、内容解析器(11)、数据存储器(15)、线程控制器(21)的组合顺序,按照从配置表填写模块(2)获取的配置表数据驱动爬虫引擎(1)执行;/n所述URL管理器(4)包括协议识别器(5)和URL管理队列(6),所 ...
【技术特征摘要】
1.一种基于分发器和配置表组合的泛型爬虫系统,其特征在于:包括爬虫引擎(1)、URL管理器(4)、网页下载器(7)、内容解析器(11)、数据存储器(15)和线程控制器(21);
所述爬虫引擎(1)包括配置表填写模块(2)和分发器组合模块(3);所述配置表填写模块(2)从用户获取输入信息,生成配置表数据,所述分发器组合模块(3)定义URL管理器(4)、网页下载器(7)、内容解析器(11)、数据存储器(15)、线程控制器(21)的组合顺序,按照从配置表填写模块(2)获取的配置表数据驱动爬虫引擎(1)执行;
所述URL管理器(4)包括协议识别器(5)和URL管理队列(6),所述协议识别器(5)接收爬虫引擎(1)的配置表信息,根据配置表信息爬取网页中符合规定的URL地址数据后,生成存储不同数据的URL管理队列(6);
所述网页下载器(7)包括网页下载器的泛型接口分发器(8)、下载器(9)和安全绕过管理器(10),所述网页下载器的泛型接口分发器(8)接收爬虫引擎(1)的配置表信息和URL管理队列(6)中的数据,动态生成不同类型的下载器(9),所述下载器(9)接收网页下载器的泛型接口分发器(8)的配置表和数据后,根据配置表中安全要求,决定是否生成安全绕过管理器(10),如果确定生成,则下载器(9)生成安全绕过管理器(10),安全绕过管理器(10)生成安全配置包,下载器(9)接收安全配置包,然后用安全的方式下载并生成各类数据资源;如果确定不生成,则下载器(9)用非安全方式下载并生成各类数据资源;
所述内容解析器(11)包括内容解析器的泛型接口分发器(12)、定位器(13)和数据解析器(14),所述内容解析器的泛型接口分发器(12)接收爬虫引擎(1)的配置表信息和网页下载器(7)生成的各类数据资源,动态生成定位器(13)和数据解析器(14),定位器(13)接收内容解析器的泛型接口分发器(12)的配置表信息,生成定位对象数据...
【专利技术属性】
技术研发人员:毕玉冰,刘超飞,王文庆,崔逸群,董夏昕,
申请(专利权)人:西安热工研究院有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。