数据爬取方法、系统和计算机可读存储介质技术方案

技术编号:46601886 阅读:1 留言:0更新日期:2025-10-10 21:33
本申请实施例提供一种数据爬取方法、系统和计算机可读存储介质,方法应用于数据爬取系统,数据爬取系统包括Web客户端和服务器,该方法包括:Web客户端显示第一页面,第一页面用于对数据爬取任务进行配置;Web客户端通过第一页面接收到对数据爬取任务的第一配置操作,以及将对数据爬取任务的配置内容发送至服务器存储,第一配置操作至少包括对数据爬取任务的爬取数据源和存储介质进行配置,存储介质用于存储爬取到的网页数据;在Web客户端接收到启动数据爬取任务的操作的情况下,向服务器发送任务请求,请求服务器执行数据爬取任务;服务器从爬取数据源对应的网址上爬取网页数据,以及将网页数据保存至配置的存储介质中。由此提高了数据爬取的效率。

【技术实现步骤摘要】

本申请涉及数据采集,具体涉及一种数据爬取方法、系统和计算机可读存储介质


技术介绍

1、随着信息网络技术的高速发展,网络信息量呈爆炸式增长,但是在庞大的网络信息量中通常会有一些冗余信息或者用户并不关注的信息,因此,就需要从庞大的网络信息量中获取用户所需的信息。

2、网络爬虫(或爬虫引擎)是一种自动浏览网络并抓取网页数据的程序,它可以根据一定的搜索策略从网络上过滤抓取到用户所需的信息。由于网页数据比较复杂,内容参差不齐,有时只需要抓取其中的小部分数据即可,那么,研发人员就要编写大量代码以完成网络爬虫的抓取过程,以及在抓取完成后会将数据抓取结果保存至代码指定的存储介质中。

3、但是,如果因业务需求要更换存储介质或新增存储介质来保存数据爬取结果,就需要更改代码来实现,这种编写代码的方式会耗费大量人力,数据爬取的效率比较低。


技术实现思路

1、本申请提供了一种数据爬取方法、系统和计算机可读存储介质,可以提高数据爬取的效率。

2、第一方面,本申请提供一种数据爬取方法,应用于数据爬取系本文档来自技高网...

【技术保护点】

1.一种数据爬取方法,其特征在于,所述方法应用于数据爬取系统,所述数据爬取系统包括Web客户端和服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一页面包括第一控件,所述Web客户端通过所述第一页面接收到对所述数据爬取任务的第一配置操作,包括:

3.根据权利要求2所述的方法,其特征在于,所述用户在所述第一输入控件上输入所述存储介质的方式包括:从已创建的存储介质列表中选择至少一个存储介质。

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述第二页面包括第...

【技术特征摘要】

1.一种数据爬取方法,其特征在于,所述方法应用于数据爬取系统,所述数据爬取系统包括web客户端和服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一页面包括第一控件,所述web客户端通过所述第一页面接收到对所述数据爬取任务的第一配置操作,包括:

3.根据权利要求2所述的方法,其特征在于,所述用户在所述第一输入控件上输入所述存储介质的方式包括:从已创建的存储介质列表中选择至少一个存储介质。

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述第二页面包括第二控件,所述web客户端通过所述第二页面接收到对所述存储介质的第二配置操作,包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述web客户端通过所述第一页面接收到对所述数据爬取任务的第一配置操作之后,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述web客户端接收到启动所述数据...

【专利技术属性】
技术研发人员:杨政良
申请(专利权)人:荣耀终端股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1