【技术实现步骤摘要】
一种数据抓取的方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种数据抓取的方法和装置。
技术介绍
[0002]随着计算机技术在各个领域的推广和应用,大数据时代应运而生,通过互联网、社交网络、物联网,我们能够及时全面地抓取有效的数据信息。目前数据抓取的常用方法是使用爬虫,爬虫是一段可以在网页上自动抓取信息的程序,通过爬虫,可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,实现有效数据信息的获取。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中存在如下问题:
[0004]在现实的应用中,虽然网络爬虫相关技术层出不穷,但是基本原理都是对爬取过程的封装,在实际使用时还需要使用者进行二次编码开发,存在定制化严重的问题;而且对于定制化的网络爬虫,由于与网络客体环境之间的强耦合性,致使维护和升级的成本增高,不利于实际应用。
技术实现思路
[0005]有鉴于此,本专利技术实施例提供一种数据抓取的方法和装置,通过采用基于使用者灵活建立的配置文件 ...
【技术保护点】
【技术特征摘要】
1.一种数据抓取的方法,其特征在于,包括:响应于数据抓取请求,根据待抓取页面定义不少于一个功能节点,并对所述功能节点之间的组装规则进行配置得到配置文件;解析所述配置文件,根据所述组装规则对所述功能节点进行组装,得到爬虫代码;采用所述爬虫代码进行数据抓取,得到数据抓取结果。2.根据权利要求1所述的方法,其特征在于,响应于数据抓取请求,根据待抓取页面定义不少于一个功能节点,并对所述功能节点之间的组装规则进行配置得到配置文件,包括:响应于数据抓取请求,根据待抓取页面通过可视化界面定义不少于一个功能节点,所述功能节点包括:变量节点、循环节点、停止节点、抓取节点和输出节点;根据所述功能节点,对所述功能节点之间的组装规则进行配置得到配置文件。3.根据权利要求1或2所述的方法,其特征在于,解析所述配置文件,根据所述组装规则对所述功能节点进行组装,得到爬虫代码,包括:基于所述配置文件,通过工厂模式将所述功能节点编译为对应的节点执行器;通过责任链模式,按照所述组装规则将所述功能节点对应的节点执行器组装为爬虫代码。4.根据权利要求3所述的方法,其特征在于,若所述功能节点为变量节点,则将所述功能节点编译为变量节点执行器,所述变量节点执行器用于:将变量表达式解析为抽象语法树,结合变量存放容器中的原始变量,动态计算得到所述变量表达式的值,并作为条件变量存入所述变量存放容器,以供后续计算使用。5.根据权利要求3所述的方法,其特征在于,若所述功能节点为循环节点,则将所...
【专利技术属性】
技术研发人员:孟祥涛,黄金,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。