自定义数据采集系统及方法技术方案

技术编号:23671851 阅读:56 留言:0更新日期:2020-04-04 17:28
本申请涉及一种自定义数据采集系统及方法,所述系统包括:任务生成模块和数据采集模块;任务生成模块用于为用户提供可视化交互界面,以便用户通过可视化交互界面自定义爬虫任务脚本;数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集,以及进行数据存储。如此设置,用户可以通过可视化交互界面自定义爬虫任务脚本,轻松地实现对爬虫任务的创建,并通过selenium工具实现对数据的采集。并且selenium的工作原理不同于传统的测试工具,因此可以绕过传统爬虫遇到的反爬虫机制方面的问题,从而具有很高的通用性。

User defined data acquisition system and method

【技术实现步骤摘要】
自定义数据采集系统及方法
本申请涉及数据挖掘
,尤其涉及一种自定义数据采集系统及方法。
技术介绍
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。例如,通过网络爬虫(简称爬虫,又称为网页蜘蛛、网络机器人等)自动地抓取万维网中的信息,并基于爬取的信息进行分析和梳理从而获取其中隐藏信息的过程。目前爬虫领域已经有很多有关数据采集的工具及代码,比如scrapy,pyspider等。这些工具或代码的共同点都是从一个url(uniformresourcelocator;统一资源定位系统)出发,通过向web服务器请求下载url相应的网页,从中提取数据,并将爬取到的新url存入待爬取队列,等待下次爬取。这种策略近年来一方面是受到反爬虫策略的限制,设计出的爬虫程序无法满足所有形形色色的网站;另一方面,由于所使用框架的约束性,难以开发出与用户进行交互的通用采集软件,普通用户不方便理解和使用。
技术实现思路
本申请提供一种自定义数据采集系统及方法,以解决目前的网络爬虫通用性不强,以及普通用户难以理解和使用的问题。本文档来自技高网...

【技术保护点】
1.一种自定义数据采集系统,其特征在于,包括:任务生成模块和数据采集模块;/n所述任务生成模块,用于为用户提供可视化交互界面,以便用户通过所述可视化交互界面自定义爬虫任务脚本;/n所述数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集,以及进行数据存储。/n

【技术特征摘要】
1.一种自定义数据采集系统,其特征在于,包括:任务生成模块和数据采集模块;
所述任务生成模块,用于为用户提供可视化交互界面,以便用户通过所述可视化交互界面自定义爬虫任务脚本;
所述数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集,以及进行数据存储。


2.根据权利要求1所述的系统,其特征在于,所述任务生成模块为基于QT框架实现的嵌入式浏览器,所述嵌入式浏览器用于记录用户网页操作、获取元素定位信息以及智能识别网页相似元素。


3.根据权利要求2所述的系统,其特征在于,所述数据采集模块包括任务解析子模块和数据持久化子模块,所述任务解析子模块用于对所述爬虫任务脚本进行解析,以及基于解析后的爬虫任务脚本进行数据采集;所述数据持久化子模块用于将采集的数据存入数据库。


4.根据权利要求3所述的系统,其特征在于,所述任务生成模块包括预设的数据结构;所述数据结构用于存储预设的基本动作,以及存储由所述基本动作组成的爬虫任务;其中,所述基本动作为预先定义的、用户能够对所述嵌入式浏览器进行的操作动作。


5.根据权利要求4所述的系统,其特征在于,所述基本动作包括:1.打开网页,2.点击元素,3.提取数据,4.输入文本,5.识别验证码,6.切换下拉框,7.鼠标移到元素上,8.循环,9.判断条件,10.条件分支,11.结束循环,12.结束流程。


...

【专利技术属性】
技术研发人员:田丹田俊豪银虹宇李奇宇
申请(专利权)人:电子科技大学成都精准云教育科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1