数据抓取方法、装置及计算机可读存储介质制造方法及图纸

技术编号:20842472 阅读:26 留言:0更新日期:2019-04-13 08:44
本发明专利技术涉及数据采集技术领域,揭露了一种数据抓取方法,该方法包括:接收用户触发的用于数据抓取的规则配置指令,执行规则设置操作,配置数据抓取所需的规则数据;接收数据抓取操作指令,读取已配置的所述规则数据,按照所述规则数据对应的数据抓取规则,建立数据抓取任务;根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据;针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储。本发明专利技术还提出一种数据抓取装置以及一种计算机可读存储介质。本发明专利技术可根据不同应用的数据需求,配置化实现数据组装功能并对接下游传输数据,提高了数据处理效率。

【技术实现步骤摘要】
数据抓取方法、装置及计算机可读存储介质
本专利技术涉及数据处理
,尤其涉及一种数据抓取方法、装置及计算机可读存储介质。
技术介绍
随着互联网信息技术的不断进步,中国互联网已经初步形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的工作、学习以及生活方式,甚至影响着整个社会的进程。信息抓取是将非结构化的信息从网站中抓取出来,保存到结构化的数据库中的过程。信息抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值。目前市场上的数据抓取系统(也称为“爬虫系统”)中,数据抓取方式比较固定,且功能单一,现有的数据抓取系统也没有平台化的思想,在整个数据抓取任务的流程中,没有真正实现各功能模块的独立,在数据抓取、数据加工、数据组装、接口对接等方面没有实现配置化开发,另外,在运行情况可视化、人工介入重复执行等方面也有很大欠缺。因此,针对现有的数据抓取系统,如何真正地实现该数据抓取系统中各功能模块的独立以及针对数据抓取的配置化开发,以便更好地进行数据抓取任务,成为目前亟待解决的问题之一。
技术实现思路
本专利技术提供一种数据抓取方法、装置及计算机可读存储介质,其主要目的在于针对数据抓取进行配置化开发,提高数据抓取效率。为实现上述目的,本专利技术提供一种数据抓取方法,所述数据抓取方法包括:接收用户触发的用于数据抓取的规则配置指令,执行规则设置操作,配置数据抓取所需的规则数据;接收数据抓取操作指令,读取已配置的所述规则数据,按照所述规则数据对应的数据抓取规则,建立数据抓取任务;根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据;针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储。可选地,所述根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据,包括:根据建立的所述数据抓取任务,获取所述数据抓取任务对应的待抓取数据的目标网站;针对所述目标网站的网页进行初次解析,识别所述目标网站的网页是否设置了反爬虫机制;若设置了反爬虫机制,则对设置反爬虫机制的网页进行二次解析,根据解析结果,获取网页设置的反爬虫机制内容并采用能够绕过所述反爬虫机制的数据抓取方式,对所述目标网站的网页进行数据抓取;若没有设置反爬虫机制,则根据所述目标网站对应的所述数据抓取任务,在所述目标网站的网页上提取所需的目标数据。可选地,所述根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据,包括:根据所述数据抓取任务,抓取目标网站对应的数据,若数据抓取操作无法正常结束,则发送错误报告信息;若数据抓取操作正常结束,则发送状态报告信息。可选地,所述针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储,包括:针对已抓取的数据,获取与所述已抓取数据对应的下游应用所需的数据特征;根据下游应用所需的数据特征,设置数据加工规则,并选取对应的数据加工引擎;按照数据加工规则,利用数据加工引擎对已抓取的数据进行包括二次加工和格式转换的数据处理操作,生成结构化数据,并将生成的所述结构化数据保存至关系型数据库中。可选地,所述配置数据抓取所需的规则数据包括设置对应的数据抓取优先级;当接收到数据抓取操作指令时,通过读取所述规则数据,获取数据抓取优先级,根据数据抓取优先级,按照数据优先级的由高到低生成对应的数据抓取任务;在执行数据抓取任务时,按照所述数据抓取任务的优先级高低,为各数据抓取任务匹配对应的资源。此外,为实现上述目的,本专利技术还提供一种数据抓取装置,其特征在于,所述数据抓取装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的数据抓取程序,所述数据抓取程序被所述处理器执行时实现如下步骤:接收用户触发的用于数据抓取的规则配置指令,执行规则设置操作,配置数据抓取所需的规则数据;接收数据抓取操作指令,读取已配置的所述规则数据,按照所述规则数据对应的数据抓取规则,建立数据抓取任务;根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据;针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储。可选地,所述数据抓取程序还可以被所述处理器执行,以根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据,包括:根据建立的所述数据抓取任务,获取所述数据抓取任务对应的待抓取数据的目标网站;针对所述目标网站的网页进行初次解析,识别所述目标网站的网页是否设置了反爬虫机制;若设置了反爬虫机制,则对设置反爬虫机制的网页进行二次解析,根据解析结果,获取网页设置的反爬虫机制内容并采用能够绕过所述反爬虫机制的数据抓取方式,对所述目标网站的网页进行数据抓取;若没有设置反爬虫机制,则根据所述目标网站对应的所述数据抓取任务,在所述目标网站的网页上提取所需的目标数据。可选地,所述数据抓取程序还可以被所述处理器执行,以根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据,包括:根据所述数据抓取任务,抓取目标网站对应的数据,若数据抓取操作无法正常结束,则发送错误报告信息;若数据抓取操作正常结束,则发送状态报告信息。可选地,所述数据抓取程序还可以被所述处理器执行,以针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储,包括:针对已抓取的数据,获取与所述已抓取数据对应的下游应用所需的数据特征;根据下游应用所需的数据特征,设置数据加工规则,并选取对应的数据加工引擎;按照数据加工规则,利用数据加工引擎对已抓取的数据进行包括二次加工和格式转换的数据处理操作,生成结构化数据,并将生成的所述结构化数据保存至关系型数据库中。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据抓取程序,所述数据抓取程序可被一个或者多个处理器执行,以实现如上所述的数据抓取方法的步骤。本专利技术提出的数据抓取方法、装置及计算机可读存储介质,接收用户触发的用于数据抓取的规则配置指令,执行规则设置操作,配置数据抓取所需的规则数据;接收数据抓取操作指令,读取已配置的所述规则数据,按照所述规则数据对应的数据抓取规则,建立数据抓取任务;根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据;针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储。本专利技术通过根据配置的数据抓取规则(该数据抓取规则是用户根据自身的数据抓取需求预先配置的)进行数据抓取,实现了按照用户所需进行目标数据抓取的目的,避免了大量不必要数据的抓取,提高了数据抓取的效率,使得数据抓取更具针对性;且针对已抓取的数据,根据不用的下游数据需求预先配置数据加工规则,并按照预先配置的数据加工规则对已抓取的数据进行二次加工、格式转换等操作,最终生成所需的结构化数据,并存储至对应的分布式数据库中,提高了数据处理的效率,使得下游数据的对接也更加灵活和高效。附图说明图1为本专利技术一实施例提供的数据抓取方法的流程示意图;图2为本专利技术一实施例提供的数据抓取装置的内部结构示意图;图3为本本文档来自技高网...

【技术保护点】
1.一种数据抓取方法,其特征在于,所述数据抓取方法包括:接收用户触发的用于数据抓取的规则配置指令,执行规则设置操作,配置数据抓取所需的规则数据;接收数据抓取操作指令,读取已配置的所述规则数据,按照所述规则数据对应的数据抓取规则,建立数据抓取任务;根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据;针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储。

【技术特征摘要】
1.一种数据抓取方法,其特征在于,所述数据抓取方法包括:接收用户触发的用于数据抓取的规则配置指令,执行规则设置操作,配置数据抓取所需的规则数据;接收数据抓取操作指令,读取已配置的所述规则数据,按照所述规则数据对应的数据抓取规则,建立数据抓取任务;根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据;针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储。2.如权利要求1所述的数据抓取方法,其特征在于,所述根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据,包括:根据建立的所述数据抓取任务,获取所述数据抓取任务对应的待抓取数据的目标网站;针对所述目标网站的网页进行初次解析,识别所述目标网站的网页是否设置了反爬虫机制;若设置了反爬虫机制,则对设置反爬虫机制的网页进行二次解析,根据解析结果,获取网页设置的反爬虫机制内容并采用能够绕过所述反爬虫机制的数据抓取方式,对所述目标网站的网页进行数据抓取;若没有设置反爬虫机制,则根据所述目标网站对应的所述数据抓取任务,在所述目标网站的网页上提取所需的目标数据。3.如权利要求1或2所述的数据抓取方法,其特征在于,所述根据建立的所述数据抓取任务,采用分布式多线程的数据抓取方式,抓取目标网站对应的数据,包括:根据所述数据抓取任务,抓取目标网站对应的数据,若数据抓取操作无法正常结束,则发送错误报告信息;若数据抓取操作正常结束,则发送状态报告信息。4.如权利要求1所述的数据抓取方法,其特征在于,所述针对已抓取的数据,按照预先配置的数据加工规则进行数据处理,生成对应的结构化数据并存储,包括:针对已抓取的数据,获取与所述已抓取数据对应的下游应用所需的数据特征;根据下游应用所需的数据特征,设置数据加工规则,并选取对应的数据加工引擎;按照数据加工规则,利用数据加工引擎对已抓取的数据进行包括二次加工和格式转换的数据处理操作,生成结构化数据,并将生成的所述结构化数据保存至关系型数据库中。5.如权利要求1或2或4所述的数据抓取方法,其特征在于,所述配置数据抓取所需的规则数据包括设置对应的数据抓取优先级;当接收到数据抓取操作指令时,通过读取所述规则数据,获取数据抓取优先级,根据数据抓取优先级,按照数据优先级的由高到低生成对应的数据抓取任务;在执行数据抓取任务时,按照所述数据抓取任务的优先级高低,为各数据抓取任务匹配对应的资源。6.一种数据抓取装置,其特征在于,所...

【专利技术属性】
技术研发人员:檀传华冉梦龙孟文斌李祖光陈锦韬
申请(专利权)人:重庆金融资产交易所有限责任公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1