【技术实现步骤摘要】
自定义数据采集系统及方法
本申请涉及数据挖掘
,尤其涉及一种自定义数据采集系统及方法。
技术介绍
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。例如,通过网络爬虫(简称爬虫,又称为网页蜘蛛、网络机器人等)自动地抓取万维网中的信息,并基于爬取的信息进行分析和梳理从而获取其中隐藏信息的过程。目前爬虫领域已经有很多有关数据采集的工具及代码,比如scrapy,pyspider等。这些工具或代码的共同点都是从一个url(uniformresourcelocator;统一资源定位系统)出发,通过向web服务器请求下载url相应的网页,从中提取数据,并将爬取到的新url存入待爬取队列,等待下次爬取。这种策略近年来一方面是受到反爬虫策略的限制,设计出的爬虫程序无法满足所有形形色色的网站;另一方面,由于所使用框架的约束性,难以开发出与用户进行交互的通用采集软件,普通用户不方便理解和使用。
技术实现思路
本申请提供一种自定义数据采集系统及方法,以解决目前的网络爬虫通用性不强,以及普通用户难以理解和 ...
【技术保护点】
1.一种自定义数据采集系统,其特征在于,包括:任务生成模块和数据采集模块;/n所述任务生成模块,用于为用户提供可视化交互界面,以便用户通过所述可视化交互界面自定义爬虫任务脚本;/n所述数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集,以及进行数据存储。/n
【技术特征摘要】
1.一种自定义数据采集系统,其特征在于,包括:任务生成模块和数据采集模块;
所述任务生成模块,用于为用户提供可视化交互界面,以便用户通过所述可视化交互界面自定义爬虫任务脚本;
所述数据采集模块用于采用Web应用程序的自动化测试工具Selenium、基于所述爬虫任务脚本进行数据采集,以及进行数据存储。
2.根据权利要求1所述的系统,其特征在于,所述任务生成模块为基于QT框架实现的嵌入式浏览器,所述嵌入式浏览器用于记录用户网页操作、获取元素定位信息以及智能识别网页相似元素。
3.根据权利要求2所述的系统,其特征在于,所述数据采集模块包括任务解析子模块和数据持久化子模块,所述任务解析子模块用于对所述爬虫任务脚本进行解析,以及基于解析后的爬虫任务脚本进行数据采集;所述数据持久化子模块用于将采集的数据存入数据库。
4.根据权利要求3所述的系统,其特征在于,所述任务生成模块包括预设的数据结构;所述数据结构用于存储预设的基本动作,以及存储由所述基本动作组成的爬虫任务;其中,所述基本动作为预先定义的、用户能够对所述嵌入式浏览器进行的操作动作。
5.根据权利要求4所述的系统,其特征在于,所述基本动作包括:1.打开网页,2.点击元素,3.提取数据,4.输入文本,5.识别验证码,6.切换下拉框,7.鼠标移到元素上,8.循环,9.判断条件,10.条件分支,11.结束循环,12.结束流程。
...
【专利技术属性】
技术研发人员:田丹,田俊豪,银虹宇,李奇宇,
申请(专利权)人:电子科技大学,成都精准云教育科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。