一种数据采集方法、设备及计算机可读存储介质技术

技术编号:22075992 阅读:24 留言:0更新日期:2019-09-12 14:13
本发明专利技术公开了一种数据采集方法、设备及计算机可读存储介质,包括:接收含目标数据地址的采集指令;依据所述采集指令,生成请求对象;向所述目标数据地址发送所述请求对象;获得含目标数据的第一响应对象;解析所述含目标数据的第一响应对象,获得所述目标数据。应用本发明专利技术实施例所提供的数据采集方法,无需手动采集数据,可大规模快速采集目标数据。

A Data Acquisition Method, Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
一种数据采集方法、设备及计算机可读存储介质
本专利技术涉及数据采集领域,尤其涉及一种数据采集方法、设备及计算机可读存储介质。
技术介绍
随着信息时代的推进,很多情况下,人们可能需要在网络上采集数据供公司或者个人使用。对于数据采集而言,通常需要较大的数据量,但是传统数据采集的方式是手动在网络上进行采集,然后是手动对数据进行保存,效率很低,占用了大量的时间,十分耗费人力物力。
技术实现思路
本专利技术提供一种数据采集方法、设备及计算机可读存储介质,通过智能的数据采集方法对目标数据进行采集。本专利技术一方面提供一种数据采集方法,包括:接收含目标数据地址的采集指令;依据所述采集指令,生成请求对象;向所述目标数据地址发送所述请求对象;获得含目标数据的第一响应对象;解析所述含目标数据的第一响应对象,获得所述目标数据。在一种可实施方式中,所述向所述目标数据地址发送所述请求对象之后,还包括:获得含错误信息的第二响应对象;存储所述错误信息至异常数据库;通过分析所述异常数据库调整所述请求对象;其中,调整后的所述请求对象用于发送至所述目标数据地址。在一种可实施方式中,所述解析所述含目标数据的第一响应对象,获得所述目标数据,包括:提取所述第一响应对象中的目标数据;对所述目标数据进行数据处理,获得去重整理的目标数据;存储所述去重整理的目标数据。在一种可实施方式中,在所述解析所述含目标数据的第一响应对象,获得所述目标数据之后,所述方法还包括:从获得的所述目标数据中提取所述目标数据中其他目标数据地址;利用所述其他目标数据地址,生成含所述其他目标数据地址的其他采集指令;对所述其他采集指令去重处理,获得去重采集指令;其中,所述去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。在一种可实施方式中,在所述接收含目标数据地址的采集指令之前,所述方法还包括:获取服务器相关配置;生成相应所述服务器配置的资源配置规则;其中,所述资源配置规则用于所述数据采集方法中的资源配置。本专利技术另一方面提供一种数据采集设备,包括:采集模块,用于接收含目标数据地址的采集指令;生成模块,用于依据所述采集指令,生成请求对象;指令模块,用于向所述目标数据地址发送所述请求对象;获得模块,用于获得含目标数据的第一响应对象;解析模块,用于解析所述含目标数据的第一响应对象,获得所述目标数据。在一种可实施方式中,还包括:所述获得模块,用于获得含错误信息的第二响应对象;存储模块,用于存储所述错误信息至异常数据库;调整模块,用于通过分析所述异常数据库调整所述请求对象;其中,调整后的所述请求对象用于发送至所述目标数据地址。在一种可实施方式中,所述解析模块包括:提取子模块,用于提取所述第一响应对象中的目标数据;处理子模块,用于对所述目标数据进行数据处理,获得去重整理的目标数据;存储子模块,用于存储所述去重整理的目标数据。在一种可实施方式中,还包括:提取模块,用于从获得的所述目标数据中提取所述目标数据中其他目标数据地址;所述生成模块,用于利用所述其他目标数据地址,生成含所述其他目标数据地址的其他采集指令;去重模块,用于对所述其他采集指令去重处理,获得去重采集指令;其中,所述去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。在一种可实施方式中,还包括:获取模块,用于获取服务器相关配置;所述生成模块,还用于生成相应所述服务器配置的资源配置规则;其中,所述资源配置规则用于所述数据采集方法中的资源配置。本专利技术另一方面提供一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,当所述指令被执行时,用于执行上述可实施方式中任一项所述数据采集方法。本专利技术提供的一种数据采集方法、设备及计算机可读存储介质,旨在通过智能的数据采集方法对目标数据进行采集,获得需要的目标数据。尤其适用于大规模数据采集的需求,无需手动在网上进行数据采集,提高了效率,节省了时间,同时能够避免由于手动采集导致的数据错误。附图说明图1为本专利技术实施例一种数据采集方法的流程示意图一;图2为本专利技术实施例一种数据采集方法的流程示意图二;图3为本专利技术实施例一种数据采集方法的流程示意图三;图4为本专利技术实施例一种数据采集方法的流程示意图四;图5为本专利技术实施例一种数据采集方法的流程示意图五;图6为本专利技术实施例一种数据采集方法的具体应用系统框架图;图7为本专利技术实施例另一种数据采集方法的具体应用系统框架图;图8为本专利技术实施例一种数据采集设备的结构示意图。具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一种数据采集方法的流程示意图一。参见图1,本专利技术实施例一方面提供一种数据采集方法,包括:步骤101,接收含目标数据地址的采集指令;步骤102,依据采集指令,生成请求对象;步骤103,向目标数据地址发送请求对象;步骤104,获得含目标数据的第一响应对象;步骤105,解析含目标数据的第一响应对象,获得目标数据。本专利技术实施例旨在通过上述步骤对目标数据进行采集,通过快速、自动化的数据采集过程,获得需要的目标数据。本专利技术实施例所提供的数据采集方法尤其适用于大规模数据采集的需求,无需手动在网上进行数据采集,提高了效率,节省了时间,同时能够避免由于手动采集导致的数据错误。具体的,在本专利技术实施例中,当需要进行数据采集时,需要先接收采集指令,采集指令用于指示机器(执行数据采集方法的设备/平台)进行数据采集,在采集指令中,需要包括目标数据地址,使接收采集指令的单元能够明确需要采集目标数据的目标数据地址。当需要精确采集某类型数据时,采集指令中还可以包括目标数据的类型。采集指令通常由用户触发产生,根据用户的需求生成对应的采集指令。在一种具体实施方式中,可以在机器的显示界面上设置输入框,输入框用于供用户输入目标数据地址,通过用户输入的目标数据地址,机器获得含目标数据地址的采集指令,并通过解析该指令,获取目标数据地址和采集任务。其中,此处的目标数据可以是网页内容;此处的目标数据地址为可以为目标数据对应的统一资源定位器(UniformResourceLocator,URL)地址,即目标网页内容所在网页的URL地址,此处的采集任务可以为单个采集任务或多个采集任务。需要说明的是,此处的机器指代的是实施该数据采集方法的机器/设备/平台等,并不对本专利技术实施例所指代的数据采集方法在机器上的负载方式进行限定。在解析完成采集指令后,机器获得采集任务的具体要求,根据采集任务的具体要求,机器将从采集指令中获得的信息打包,通过处理生成请求对象,区别于采集指令,请求对象中包含与采集指令中信息相同和/或对应的内容,请求对象中包括与采集指令中相同的目标数据地址,请求对象用于发送至目标数据地址,向目标数据地址发送请求以获得对应采集任务的目标数据。目标数据地址响应请求对象后,会形成包括目标数据的响应对象,由机器接收含目标数据的第一响应对象。机器通过解析第一响应对象即可获得目标数据。完成本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,包括:接收含目标数据地址的采集指令;依据所述采集指令,生成请求对象;向所述目标数据地址发送所述请求对象;获得含目标数据的第一响应对象;解析所述含目标数据的第一响应对象,获得所述目标数据。

【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:接收含目标数据地址的采集指令;依据所述采集指令,生成请求对象;向所述目标数据地址发送所述请求对象;获得含目标数据的第一响应对象;解析所述含目标数据的第一响应对象,获得所述目标数据。2.根据权利要求1所述的方法,其特征在于,所述向目标数据地址发送所述请求对象之后,还包括:获得含错误信息的第二响应对象;存储所述错误信息至异常数据库;通过分析所述异常数据库调整所述请求对象;其中,调整后的所述请求对象用于发送至所述目标数据地址。3.根据权利要求1所述的方法,其特征在于,所述解析含目标数据的第一响应对象,获得所述目标数据,包括:提取所述第一响应对象中的目标数据;对所述目标数据进行数据处理,获得去重整理的目标数据;存储所述去重整理的目标数据。4.根据权利要求3所述的方法,其特征在于,在所述解析含目标数据的第一响应对象,获得所述目标数据之后,所述方法还包括:从获得的所述目标数据中提取所述目标数据中其他目标数据地址;利用所述其他目标数据地址,生成含所述其他目标数据地址的其他采集指令;对所述其他采集指令去重处理,获得去重采集指令;其中,所述去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。5.根据权利要求1所述的方法,其特征在于,在所述接收含目标数据地址数据的采集指令之前,所述方法还包括:获取服务器相关配置;生成相应所述服务器配置的资源配置规则;其中,所述资源配置规则用于所述数据采集方法中的资源配...

【专利技术属性】
技术研发人员:沈建男
申请(专利权)人:北京睦合达信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1