The application relates to a web page data acquisition method, system, computer equipment and storage medium. The methods described include: receiving the request of the web data collection, the web page data acquisition request contains the web page logo, and the configuration template corresponding to the page logo according to the web data acquisition request, the configuration template contains the corresponding page address of the target page data, and the number of acquisition operands for the collection of the target web data. According to the configuration template, an analog browser is called to access the web address, and the target page is generated. The data of the target web page is obtained by invoking the analog input device to perform the corresponding acquisition operation on the target page according to the acquisition operation data. This method can improve the applicability of the web data collection, save the time of the web data collection, and improve the efficiency of the web data collection.
【技术实现步骤摘要】
网页数据采集方法、装置、计算机设备和存储介质
本申请涉及互联网
,特别是涉及一种网页数据采集方法、装置、计算机设备和存储介质。
技术介绍
当前网页数据采集系统一个网页数据时,需要实现分析目标网站各项协议及所需参数,只有当获取到参数正确时,才能获取到网页的html内容,并在解析html代码后对网页数据进行采集。然而,传统的网页数据采集方法,分析协议获取参数的过程繁琐,若遇到网站改版则需要对采集系统进行大量的修改,需要耗费大量的时间,采集系统的适用性较差,从而导致网页数据采集的效率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高网页数据采集效率的网页数据采集方法、装置、计算机设备和存储介质。一种网页数据采集方法,所述方法包括:接收网页数据采集请求;所述网页数据采集请求中包含网页标识;根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。在其中一个实施例中,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之后,还包括:每隔预设时长检测是否存在更新后的配置模板;若是,则获取所述更新后的配置模板,并将所述更新后的配置模板作为配置模板。在其中一个实施例中,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集 ...
【技术保护点】
1.一种网页数据采集方法,所述方法包括:接收网页数据采集请求;所述网页数据采集请求中包含网页标识;根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。
【技术特征摘要】
1.一种网页数据采集方法,所述方法包括:接收网页数据采集请求;所述网页数据采集请求中包含网页标识;根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。2.根据权利要求1所述的方法,其特征在于,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之后,还包括:每隔预设时长检测是否存在更新后的配置模板;若是,则获取所述更新后的配置模板,并将所述更新后的配置模板作为配置模板。3.根据权利要求1所述的方法,其特征在于,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集所述目标网页数据的采集操作数据;根据所述网页地址和所述采集操作数据生成配置模板;将所述配置模板标记上所述网页标识。4.根据权利要求1所述的方法,其特征在于,所述采集操作数据中包含目标网页数据在所述目标网页中的目标数据路径;所述根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据,包括:根据所述采集操作数据查找所述目标网页中与所述目标数据路径所对应的目标网页数据;调用模拟输入装置获取所述目标网页数据,并将所述目标网页数据存储至数据库中。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:根据所述配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过所述模拟浏览器接收所述网页服务器发送的目标网页响应;调用所述模拟浏览器对所述目标网...
【专利技术属性】
技术研发人员:艾明,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。