网页数据采集方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:18497262 阅读:19 留言:0更新日期:2018-07-21 20:15
本申请涉及一种网页数据采集方法、系统、计算机设备和存储介质。所述方法包括:接收网页数据采集请求;网页数据采集请求中包含网页标识;根据网页数据采集请求获取与网页标识对应的配置模板;配置模板中包含目标网页数据所对应的网页地址,以及用于采集目标网页数据的采集操作数据;根据配置模板调用模拟浏览器访问网页地址,并生成目标网页;根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。采用本方法能够提高了网页数据采集的适用性,使得节约了网页数据采集的时间,从而提高了网页数据采集的效率。

Webpage data acquisition method, device, computer equipment and storage medium

The application relates to a web page data acquisition method, system, computer equipment and storage medium. The methods described include: receiving the request of the web data collection, the web page data acquisition request contains the web page logo, and the configuration template corresponding to the page logo according to the web data acquisition request, the configuration template contains the corresponding page address of the target page data, and the number of acquisition operands for the collection of the target web data. According to the configuration template, an analog browser is called to access the web address, and the target page is generated. The data of the target web page is obtained by invoking the analog input device to perform the corresponding acquisition operation on the target page according to the acquisition operation data. This method can improve the applicability of the web data collection, save the time of the web data collection, and improve the efficiency of the web data collection.

【技术实现步骤摘要】
网页数据采集方法、装置、计算机设备和存储介质
本申请涉及互联网
,特别是涉及一种网页数据采集方法、装置、计算机设备和存储介质。
技术介绍
当前网页数据采集系统一个网页数据时,需要实现分析目标网站各项协议及所需参数,只有当获取到参数正确时,才能获取到网页的html内容,并在解析html代码后对网页数据进行采集。然而,传统的网页数据采集方法,分析协议获取参数的过程繁琐,若遇到网站改版则需要对采集系统进行大量的修改,需要耗费大量的时间,采集系统的适用性较差,从而导致网页数据采集的效率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高网页数据采集效率的网页数据采集方法、装置、计算机设备和存储介质。一种网页数据采集方法,所述方法包括:接收网页数据采集请求;所述网页数据采集请求中包含网页标识;根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。在其中一个实施例中,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之后,还包括:每隔预设时长检测是否存在更新后的配置模板;若是,则获取所述更新后的配置模板,并将所述更新后的配置模板作为配置模板。在其中一个实施例中,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集所述目标网页数据的采集操作数据;根据所述网页地址和所述采集操作数据生成配置模板;将所述配置模板标记上所述网页标识。在其中一个实施例中,所述采集操作数据中包含目标网页数据在所述目标网页中的目标数据路径;所述根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据,包括:根据所述采集操作数据查找所述目标网页中与所述目标数据路径所对应的目标网页数据;调用模拟输入装置获取所述目标网页数据,并将所述目标网页数据存储至数据库中。在其中一个实施例中,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:根据所述配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过所述模拟浏览器接收所述网页服务器发送的目标网页响应;调用所述模拟浏览器对所述目标网页响应进行解析处理,生成目标网页。在其中一个实施例中,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:根据所述配置模板调用模拟浏览器访问与所述网页地址所对应的登录地址,并生成登录网页;调用模拟输入装置对所述登录网页执行相应的登录操作;调用所述模拟浏览器发送登录请求;所述登录请求用于指示网页服务器对所述登录操作进行验证;当验证通过时,通过所述模拟浏览器接收所述网页服务器发送的登录响应;调用所述模拟浏览器对所述登录响应进行解析处理,生成目标网页。在其中一个实施例中,所述采集操作数据中包含登录信息文本;所述登录网页中包含文本框和登录控件;所述调用模拟输入装置对所述登录网页执行相应的登录操作,包括:调用模拟输入装置将所述登录信息文本输入所述文本框;调用模拟输入装置对所述登录控件执行点击操作。一种网页数据采集装置,所述装置包括:采集请求接收模块,用于接收网页数据采集请求;所述网页数据采集请求中包含网页标识;配置模板获取模块,用于根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;目标网页生成模块,用于根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;网页数据采集模块,用于根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各个实施例中所述的网页数据采集方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各个实施例中所述的网页数据采集方法的步骤。上述网页数据采集方法、装置、计算机设备和存储介质,通过在接收网页数据采集请求之后,根据网页数据采集请求中包含的网页标识获取相应的配置模板,通过配置模板中配置的网页地址和采集操作数据,调用模拟浏览器访问网页地址,生成目标网页,并调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。当网站改版或目标网页数据的需求发生了变更之后,用户可直接修改相应的配置模板以实现更新目标网页数据采集的方式,无需大量修改代码以及进行版本发布,因此提高了网页数据采集的适用性,使得节约了网页数据采集的时间,从而提高了网页数据采集的效率。附图说明图1为一个实施例中网页数据采集方法的应用场景图;图2为一个实施例中网页数据采集方法的流程示意图;图3为另一个实施例中网页数据采集方法的流程示意图;图4为一个实施例中网页数据采集装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的网页数据采集方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104可接收终端102发送的网页数据采集请求,服务器104还可将所采集到的目标网页数据发送中终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种网页数据采集方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤202,接收网页数据采集请求。网页数据采集请求可为终端发送给服务器,用于指示服务器进行网页数据采集的请求。终端在检测到预设的网页数据采集操作时,触发生成网页数据采集请求。其中,网页数据采集请求中包含网页标识。网页标识是指用于将每个网页区分于其他网页的标识,可将URL(UniformResourceLocator,统一资源定位符)、域名、网站名等其中一种或多种的组合作为网页标识。比如:针对URL“http://mail.163.com/index.html”来说,“163.com”表示域名;“mail.163.com”表示网站名,由服务器名和域名构成;“index.html”表示根目录下的默认网页。“163.com”、“mail.163.com”都可作为网页标识。举例来说,终端可针对网页数据采集操作提供相应的网页数据采集页面,该网页数据采集页面上可包括网页数据采集文本框和网页数据采集控件。当用户在该网页数据采集文本框中输入网页标识之后,若检测到作用于网页数据采集控件的点击操作时,则触发生成网页数据采集请求,终端可将该网页数据采集请求发送至服务器。步骤204,根据网本文档来自技高网...

【技术保护点】
1.一种网页数据采集方法,所述方法包括:接收网页数据采集请求;所述网页数据采集请求中包含网页标识;根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。

【技术特征摘要】
1.一种网页数据采集方法,所述方法包括:接收网页数据采集请求;所述网页数据采集请求中包含网页标识;根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。2.根据权利要求1所述的方法,其特征在于,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之后,还包括:每隔预设时长检测是否存在更新后的配置模板;若是,则获取所述更新后的配置模板,并将所述更新后的配置模板作为配置模板。3.根据权利要求1所述的方法,其特征在于,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集所述目标网页数据的采集操作数据;根据所述网页地址和所述采集操作数据生成配置模板;将所述配置模板标记上所述网页标识。4.根据权利要求1所述的方法,其特征在于,所述采集操作数据中包含目标网页数据在所述目标网页中的目标数据路径;所述根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据,包括:根据所述采集操作数据查找所述目标网页中与所述目标数据路径所对应的目标网页数据;调用模拟输入装置获取所述目标网页数据,并将所述目标网页数据存储至数据库中。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:根据所述配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过所述模拟浏览器接收所述网页服务器发送的目标网页响应;调用所述模拟浏览器对所述目标网...

【专利技术属性】
技术研发人员:艾明
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1