本申请公开了业务数据抓取方法和系统,该方法为:配置抓取操作时所需要的规则数据;读取所述规则数据,根据该规则数据建立网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI,同时过滤数据不完整的资源;建立资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;根据采集到的所述资源数据的完整性进行存储或重新抓取,并在所述抓取操作无法正常结束时发送报告信息。本申请解决了数据采集时花费大量的资源而且不能通过配置相关的信息获取业务数据的问题。
【技术实现步骤摘要】
业务数据抓取方法和系统
本申请涉及数据采集领域,具体地说,是涉及一种业务数据抓取方法和系统。
技术介绍
如今,随着互联网技术的迅速发展,其中蕴含的庞大的数据量和信息量将人们获取信息的方式改变:从传统翻书查阅的方式改变为通过互联网所搜引擎检索。现在人们已经习惯于通过网络获取自己需要的信息。目前,各类互联网产品应运而生,为人们在互联网上提供各类便捷、实用的功能服务,上述物联网产品也通过互联网获取业务数据,其产品中数据的准确性和丰富程度等特性往往决定产品的生命周期。然而,通过搜索引擎所获得的信息,通常是通过网页的形式所展现的,这样的信息只适合于人工检索阅读,但互联网产品却很难进行加工和再利用,同时,检索到的信息量庞大,很难在大量的检索结果中抽取出有用的信息。从而,对于互联网产品,不能采用搜索引擎检索,而是针对互联网中的各种业务数据进行数据采集。但数据采集往往都要花费大量的资源,同时在数据采集时不能通过配置相关的信息获取业务数据,只能修改内部逻辑关系,从而数据采集过程要花费大量时间。然而,数据采集时数据更新的进度快慢和其他因素好坏往往决定了用户对产品的忠诚度,占用资源大、数据更新慢的互联网产品必然将被用户淘汰。因此,如何解决数据采集时花费大量的资源而且不能通过配置相关的信息获取业务数据,便成为亟待解决的技术问题。
技术实现思路
本申请所要解决的技术问题是提供一种业务数据抓取方法和系统,以解决数据采集时花费大量的资源而且不能通过配置相关的信息获取业务数据的问题。为解决上述技术问题,本申请提供了一种业务数据抓取方法,包括:配置抓取操作时所需要的规则数据;读取所述规则数据,根据该规则数据建立网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI,同时过滤数据不完整的资源;建立资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;根据采集到的所述资源数据的完整性进行存储或重新抓取,并在所述抓取操作无法正常结束时发送报告信息。进一步地,所述网页资源抓取任务,进一步为按照配置的所述规则数据创建的对应数量的多线程网页资源抓取任务。进一步地,所述资源下载任务,进一步为按照配置的所述规则数据创建的对应数量的多线程资源下载任务。进一步地,所述根据采集到的资源数据的完整性进行存储或重新抓取,进一步为:判断所述资源数据的完整性,若所述资源数据完整,则将该资源数据进行存储;若所述资源数据不完整,则遍历所述抓取操作中各任务执行时的状态,查找出导致所述资源数据不完整的任务状态,通过重启所述抓取操作从相对应的所述任务状态处进行重新抓取。进一步地,所述规则数据,进一步为由资源URI、相关编码、抓取任务触发数据和/或规则模板数据构成的规则数据。一种业务数据抓取系统,该系统包括:配置模块、抓取处理模块、完整性校验模块以及预警模块;其中,所述配置模块,用于对抓取操作时所需要的规则数据进行配置,并将配置后的所述规则数据以配置文件的方式进行存储;所述抓取处理模块,用于读取所述配置模块中存储的所述配置文件,获得所述规则数据,根据该规则数据建立网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI,同时过滤数据不完整的资源;建立资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;将采集到的资源数据发送至所述完整性校验模块,以及用于接收所述完整性校验模块发送的所述校验结果数据,根据该校验结果数据进行存储或重新抓取;所述完整性校验模块,用于接收所述抓取处理模块发送的所述资源数据,对该资源数据进行完整性校验,生成校验结果数据发送至所述抓取处理模块;所述预警模块,用于实时监测所述抓取处理模块的所述抓取操作状态,在所述抓取操作无法正常结束时从所述抓取处理模块中读取错误原因生成报告信息进行发送。进一步地,所述网页资源抓取任务,进一步为按照配置的所述规则数据创建的对应数量的多线程网页资源抓取任务。进一步地,所述下载任务,进一步为按照配置的所述规则数据创建的对应数量的多线程资源下载任务。进一步地,所述抓取处理模块,进一步读取所述校验结果数据,若该校验结果数据反映所述资源数据完整,则将该资源数据进行存储;若该校验结果数据反映所述资源数据不完整,则遍历所述抓取操作中各任务执行时的状态,查找出导致所述资源数据不完整的任务状态,通过重启所述抓取操作从相对应的所述任务状态处进行重新抓取。进一步地,所述规则数据,进一步为由资源URI、相关编码、抓取任务触发数据和/或规则模板数据构成的规则数据。与现有技术相比,本申请所述的一种业务数据抓取方法和系统,达到了如下效果:1)本申请的技术方案采用响应式设计,通过模板配置相应的信息即可获取业务数据,无需修改逻辑,极大提升了数据更新速度,同时有效降低了数据采集消耗的资源;2)本申请包含有各类耦合度松散的模块,在使用时用户可以根据自己的需求进行装配,极大提升了互联网产品的便捷性和实用性;3)本申请基于JAVA语言(一种高级编译语言),可以实现多平台的灵活移植,同时提供SOAP接口(一种传输协议),可用于多场景,适用性强。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例一所述的业务数据抓取方法的流程示意框图;图2为本申请实施例二所述的业务数据抓取系统的结构框图;图3为图2所述的业务数据抓取系统中所述抓取处理模块的具体结构框图。具体实施方式如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。以下结合附图对本申请作进一步详细说明,但不作为对本申请的限定。实施例一如图1所示,是本申请实施例一所述的一种业务数据抓取方法流程。步骤101,配置抓取操作时所需要的规则数据。进一步地,所述规则数据包括:资源URI(UniformResourceIdentifier,资源标识符)、相关编码、抓取任务触发数据和/或规则模板等数据。配置完成后的所述规则数据存储于配置文件中。具体来说,规则数据可以是用户根据个人需求自行设定,也可以是所述互联网产品根据其更新状本文档来自技高网...

【技术保护点】
一种业务数据抓取方法,其特征在于,包括:配置抓取操作时所需要的规则数据;读取所述规则数据,根据该规则数据建立网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI,同时过滤数据不完整的资源;建立资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;根据采集到的所述资源数据的完整性进行存储或重新抓取,并在所述抓取操作无法正常结束时发送报告信息。
【技术特征摘要】
1.一种业务数据抓取方法,其特征在于,包括:配置抓取操作时所需要的至少包括资源URI、相关编码、抓取任务触发数据和/或规则模板数据的规则数据,并将配置完成的所述规则数据存储于配置文件中;读取所述规则数据,根据该规则数据建立对应数量的多线程网页资源抓取任务,将抓取的网页资源按照配置规则分类进行存储;针对抓取到的所述网页资源建立数据解析任务,对抓取的所述网页资源通过解析HTML文档获取需要的资源URI及文字内容,并写入存储文件,同时过滤数据不完整的资源,并对DNS解析记录进行缓存处理;根据规则数据建立对应数量的多线程资源下载任务,对解析获取到的所述资源URI使用断点续传的方式下载,获得所述资源数据;判断所述资源数据的完整性,若所述资源数据完整,则将该资源数据进行存储;若所述资源数据不完整,则遍历所述抓取操作中各任务执行时的状态,查找出导致所述资源数据不完整的任务状态,通过重启所述抓取操作从相对应的所述任务状态处进行重新抓取,并在抓取操作无法正常结束时发送错误报告信息,以及在抓取操作正常结束时发送状态报告信息。2.一种业务数据抓取系统,其特征在于,该系统包括:配置模块、抓取处理模块、完整性校验模块以及预警模块;其中,所述配置模块,用于对抓取操作时所需要的至少包括资源URI、相关编码、抓取任务触发数据和/或规则模板数据的规则数据进行配置,并将配置后的所述规则数据以配置文件...
【专利技术属性】
技术研发人员:李正勇,曹东,李建涛,
申请(专利权)人:北京北纬通信科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。