自定义数据采集系统及方法技术方案

技术编号：23671851 阅读：56 留言：0更新日期：2020-04-04 17:28

本申请涉及一种自定义数据采集系统及方法，所述系统包括：任务生成模块和数据采集模块；任务生成模块用于为用户提供可视化交互界面，以便用户通过可视化交互界面自定义爬虫任务脚本；数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集，以及进行数据存储。如此设置，用户可以通过可视化交互界面自定义爬虫任务脚本，轻松地实现对爬虫任务的创建，并通过selenium工具实现对数据的采集。并且selenium的工作原理不同于传统的测试工具，因此可以绕过传统爬虫遇到的反爬虫机制方面的问题，从而具有很高的通用性。

User defined data acquisition system and method

全部详细技术资料下载

【技术实现步骤摘要】
自定义数据采集系统及方法
本申请涉及数据挖掘
，尤其涉及一种自定义数据采集系统及方法。
技术介绍
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。例如，通过网络爬虫(简称爬虫，又称为网页蜘蛛、网络机器人等)自动地抓取万维网中的信息，并基于爬取的信息进行分析和梳理从而获取其中隐藏信息的过程。目前爬虫领域已经有很多有关数据采集的工具及代码，比如scrapy，pyspider等。这些工具或代码的共同点都是从一个url(uniformresourcelocator；统一资源定位系统)出发，通过向web服务器请求下载url相应的网页，从中提取数据，并将爬取到的新url存入待爬取队列，等待下次爬取。这种策略近年来一方面是受到反爬虫策略的限制，设计出的爬虫程序无法满足所有形形色色的网站；另一方面，由于所使用框架的约束性，难以开发出与用户进行交互的通用采集软件，普通用户不方便理解和使用。
技术实现思路
本申请提供一种自定义数据采集系统及方法，以解决目前的网络爬虫通用性不强，以及普通用户难以理解和...

【技术保护点】
1.一种自定义数据采集系统，其特征在于，包括：任务生成模块和数据采集模块；/n所述任务生成模块，用于为用户提供可视化交互界面，以便用户通过所述可视化交互界面自定义爬虫任务脚本；/n所述数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集，以及进行数据存储。/n

【技术特征摘要】
1.一种自定义数据采集系统，其特征在于，包括：任务生成模块和数据采集模块；
所述任务生成模块，用于为用户提供可视化交互界面，以便用户通过所述可视化交互界面自定义爬虫任务脚本；
所述数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集，以及进行数据存储。

2.根据权利要求1所述的系统，其特征在于，所述任务生成模块为基于QT框架实现的嵌入式浏览器，所述嵌入式浏览器用于记录用户网页操作、获取元素定位信息以及智能识别网页相似元素。

3.根据权利要求2所述的系统，其特征在于，所述数据采集模块包括任务解析子模块和数据持久化子模块，所述任务解析子模块用于对所述爬虫任务脚本进行解析，以及基于解析后的爬虫任务脚本进行数据采集；所述数据持久化子模块用于将采集的数据存入数据库。

4.根据权利要求3所述的系统，其特征在于，所述任务生成模块包括预设的数据结构；所述数据结构用于存储预设的基本动作，以及存储由所述基本动作组成的爬虫任务；其中，所述基本动作为预先定义的、用户能够对所述嵌入式浏览器进行的操作动作。

5.根据权利要求4所述的系统，其特征在于，所述基本动作包括：1.打开网页，2.点击元素，3.提取数据，4.输入文本，5.识别验证码，6.切换下拉框，7.鼠标移到元素上，8.循环，9.判断条件，10.条件分支，11.结束循环，12.结束流程。

...

【专利技术属性】
技术研发人员：田丹，田俊豪，银虹宇，李奇宇，
申请(专利权)人：电子科技大学，成都精准云教育科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人