【技术实现步骤摘要】
一种基于分布式的互联网数据采集方法及系统
本专利技术涉及基于互联网数据采集
,特别涉及一种基于分布式的互联网数据采集方法及系统。
技术介绍
随着网络的迅速发展,互联网成为大量信息的载体,其中包含舆情信息、社会事件、政策反响、各种行业信息、就业信息等是大数据舆情分析系统、宏观经济分析系统的数据基础。如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫是数据分析系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索分析提供支持,它决定着整个数据分析系统的内容是否丰富,信息是否及时,因此其性能的优劣直接影响着数据分析的效果。如图1所示,一般爬虫运行流程大概如下:(1)调度器(Scheduler)从待下载链接(URL)队列中取出一个链接(URL)(2)调度器启动采集模块Spiders模块(3)采集模块把URL传给下载器(Downloader),下载器把资源下载下来(4)提取目标数据,抽取出目标对象(Item),则交给实体管道(itempipeline)进行进一步的处理;比如存入数据库、文件等若是解析出的是链接(URL), ...
【技术保护点】
一种基于分布式的互联网数据采集方法,其特征在于:接收用户创建数据采集任务的请求并创建数据采集任务,将用户创建的数据采集任务分配给多个爬虫线程,并启动所述多个爬虫线程;在所述每个爬虫线程接收到数据采集任务并且被启动后,从待抓取URL队列中获取URL,并从数据采集任务指定的网站下载网页,执行数据采集任务指定的数据处理插件,进行数据的提取;所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件;将提取出来的目标数据存入指定数据库用于后续处理,将提取出来的待爬取URL推送到待爬取队列
【技术特征摘要】
1.一种基于分布式的互联网数据采集方法,其特征在于:接收用户创建数据采集任务的请求并创建数据采集任务,将用户创建的数据采集任务分配给多个爬虫线程,并启动所述多个爬虫线程;在所述每个爬虫线程接收到数据采集任务并且被启动后,从待抓取URL队列中获取URL,并从数据采集任务指定的网站下载网页,执行数据采集任务指定的数据处理插件,进行数据的提取;所述数据采集任务指定的数据处理插件是根据指定的网站类型选择的具有不同功能的数据处理插件;将提取出来的目标数据存入指定数据库用于后续处理,将提取出来的待爬取URL推送到待爬取队列。2.根据权利要求1所述的一种基于分布式的互联网数据采集方法,其特征在于:将提取出来的待爬取URL推送到待爬取队列前对URL进行排重确认,判断该URL是否已经被采集过数据,如果判断结果为是,则将该URL丢弃;如果判断结果为否,则将该URL推送至待爬取队列。3.根据权利要求1所述的一种基于分布式的互联网数据采集方法,其特征在于:数据处理插件包括登录插件、数据解析插件、元数据插件、分页解析插件、URL解析插件;所述登录插件用于需要登陆才能进行数据提取的网站;所述数据解析插件用于根据每个数据字段指定的提取表达式进行数据提取;所述元数据插件用于需要分别从列表页和详细页中进行数据提取的网站;所述分页解析插件用于获取网页的分页信息的网站;所述URL解析插件用于提取URL。4.根据权利要求1所述的一种基于分布式的互联网数据采集方法,其特征在于:数据处理插件还包括图片识别插件、声音识别插件、二维码识别插件。5.根据权利要求3所述的一种基于分布式的互联网数据采集方法,其特征在于:所述登录插件需要配置的信息包括用户列表、网站登陆页面中用于植入登陆用户名、密码对应的html元素的ID、验证码的html元素的ID,所述用户列表包含登陆用户名、密码。6.一种基于分布式的互联网数据采集系统,其特征在于:包括:...
【专利技术属性】
技术研发人员:廖尚围,刘遥,周庚新,
申请(专利权)人:北京国信宏数科技有限责任公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。