一种基于脚本引擎的数据采集方法和装置制造方法及图纸

技术编号:8682697 阅读:222 留言:0更新日期:2013-05-09 02:41
本发明专利技术公开了一种基于脚本引擎的数据采集方法和装置,所述方法包括:加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件;下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎;脚本引擎根据脚本方法名称,调用并执行对应的脚本方法,在网页数据中采集出目标数据。本发明专利技术通过脚本的方式实现了数据采集过程中同时抽取,清洗,加工和转换,很好的解决了所提出的技术问题。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种基于脚本引擎的数据采集方法和装置
技术介绍
业内已经有许多成熟的定向采集软件,其实现方法基本上都是基于模板配置来实现的,这些基于模板配置的数据抽取方法一般是正则匹配法,标记截取法,Xpath抽取法,插件定制法等。其中,关于正则匹配法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据,并且,该类抽取方法专业性较强,需要熟练掌握正则表达式;关于标记截取法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于Xpath抽取法:网页内容必须是结构化的,并且,该类抽取方法专业性较强,需要熟练掌握Xpath语法;另外,部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于插件定制法:频繁修改数据抽取规则代码都需要重新编译,显得比较麻烦,且专业性强。综上所述,可知现有的基于模板配置的数据抽取方法都有一个特点,就是抽到的数据很多都是要经过二次清洗、加工、转换等才能得到想要的目标数据,导致抽取效率较低;另外,某些抽取方法专业性强,不利于广泛应用。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于脚本引擎的数据采集方法和装置。依据本专利技术的一个方面,提供了一种基于脚本引擎的数据采集方法,包括:步骤1,加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;步骤2,初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件;步骤3,下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎;步骤4,脚本引擎根据所述脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据。可选地,本专利技术所述方法中,根据采集任务需求,所述脚本方法中定义有目标数据抽取、清洗、加工和转换规则。可选地,本专利技术所述方法中,所述目标数据抽取规则包括:按照正则匹配法定义的抽取规则进行抽取、按照标记截取法定义的抽取规则进行抽取、按照Xpath抽取法定义的抽取规则进行抽取、或者按照插件定制法定义的抽取规则进行抽取。可选地,本专利技术所述方法的步骤4中,执行对应的脚本方法在网页数据中采集出目标数据,具体包括:按照所述脚本方法定义的抽取规则,在所述网页数据中抽取出指定的目标数据,以及按照所述脚本方法中定义的清洗、加工和转换规则,对抽取得到的目标数据进行清洗、加工和转换操作,得到所需的目标数据。可选地,本专利技术所述方法中,所述目标数据类型包括但不限于为:标题、作者、日期、内容。根据本专利技术的另一方面,提供了一种基于脚本引擎的数据采集装置,包括:配置解析模块,用于加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;数据处理模块,用于下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称,按脚本语言发送至脚本引擎模块中相应的脚本引擎中;脚本引擎模块,包括支持不同脚本语言的多个脚本引擎,各脚本引擎在初始化后,加载预先配置的由采集目标数据的脚本方法构成的脚本文件,以及在接收到数据处理模块发送的数据后,根据所述脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据。可选地,本专利技术所述装置中,根据采集任务需求,所述脚本引擎模块加载的脚本文件中的脚本方法中定义有目标数据抽取、清洗、加工和转换规则。可选地,本专利技术所述装置中,所述脚本引擎模块中,所述目标数据抽取规则包括:按照正则匹配法定义的抽取规则进行抽取、按照标记截取法定义的抽取规则进行抽取、按照Xpath抽取法定义的抽取规则进行抽取、或者按照插件定制法定义的抽取规则进行抽取。可选地,本专利技术所述装置中,所述脚本引擎模块,具体用于按照所述脚本方法定义的抽取规则,在所述网页数据中抽取出指定的目标数据,以及按照所述脚本方法中定义的清洗、加工和转换规则,对抽取得到的目标数据进行清洗、加工和转换操作,得到所需的目标数据。可选地,本专利技术所述装置中,所述配置解析模块中,目标数据类型包括但不限于为:标题、作者、日期、内容。本专利技术有益效果如下:本专利技术所述方法和装置,通过简单、易用的脚本语言进行脚本方法配置,灵活、方便的实现了目标数据的采集,降低了采集数据的专业性要求,便于广泛推广;并且,由于脚本方法可以通过脚本语言进行灵活配置,实现了在抽取的同时完成清洗、加工和转换等操作,得到的目标数据无需再次加工,极大的提高了采集效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种基于脚本引擎的数据采集方法的流程图;图2为本专利技术实施例所述方法的执行框图;图3为本专利技术实施例提供的一种基于脚本引擎的数据采集装置的结构框图。具体实施例方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为了降低数据采集的专业性要求,以及提高数据采集效率,本专利技术实施例提供一种基于脚本引擎的数据采集方法和装置,所述方法和装置通过脚本的方式实现了数据采集过程中同时抽取,清洗,加工和转换,很好的解决了所提出的技术问题。在具体介绍本专利技术方案前,首先给出本专利技术所述技术方案应用的几个技术名词的解释,具体如下:采集配置文件:定义了采集任务在各个网页上采集的目标数据的采集规则配置。其中,采集规则配置主要包括:目标数据类型以及采集该类目标数据对应的脚本方法名称与脚本语言;例如,若提取的目标数据类型为“标题”,则定义“标题”对应的数据采集的脚本方法名称是“parseTitle”,使用的脚本语言是:javascript。脚本文件:由用户用脚本语言编写的用于采集目标数据的脚本方法构成的文件。其中,脚本语言通常都有简单、易学、易用的特性,所以,只要明确采集任务的具体需求,即可利用完成脚本方法的配置,极大的降低了对专业性的要求。关于脚本语言,常见的有javascript, vbscript, php 等。脚本引挚:解析并执行脚本方法的工具;本专利技术中,脚本引擎通过加载配置的脚本文件,获取脚本方法。目前,已有的脚本引擎包括:微软提供的javascript脚本引挚,vbscript脚本引挚等。基于上述技术名词的解释,下面给出本专利技术的方本文档来自技高网...

【技术保护点】
一种基于脚本引擎的数据采集方法,其特征在于,包括:步骤1,加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;步骤2,初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件;步骤3,下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎;步骤4,脚本引擎根据所述脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据。

【技术特征摘要】
1.种基于脚本引擎的数据采集方法,其特征在于,包括: 步骤1,加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言; 步骤2,初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件; 步骤3,下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎; 步骤4,脚本引擎根据所述脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据。2.按权利要求1所述的方法,其特征在于,根据采集任务需求,所述脚本方法中定义有目标数据抽取、清洗、加工和转换规则。3.按权利要求2所述的方法,其特征在于,所述目标数据抽取规则包括:按照正则匹配法定义的抽取规则进行抽取、按照标记截取法定义的抽取规则进行抽取、按照Xpath抽取法定义的抽取规则进行抽取、或者按照插件定制法定义的抽取规则进行抽取。4.按权利要求2或3所述的方法,其特征在于,所述步骤4中,执行对应的脚本方法在网页数据中采集出目标数据,具体包括: 按照所述脚本方法定义的抽取规则,在所述网页数据中抽取出指定的目标数据,以及按照所述脚本方法中定义的清洗、加工和转换规则,对抽取得到的目标数据进行清洗、加工和转换操作,得到所需的目标数据。5.按权利要求1所述的方法,其特征在于,所述目标数据类型包括:标题、作者、日期、内容。6.一种基于脚本引擎的数据采集装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:侯赋文
申请(专利权)人:五八同城信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1