一种多来源网站的数据自动采集系统及其方法技术方案

技术编号：27534674 阅读：13 留言：0更新日期：2021-03-03 11:18

本申请公开了一种多来源网站的数据自动采集系统及其方法，涉及计算机网络领域，目的是解决现有网页采集技术开发工作量大，适应范围小，增加修改新功能困难，可迁移性差等缺点，包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面；原始数据库用于存储原始数据；特征提取模块用于从原始数据库提取特征数据；特征数据库用于存储特征数据；数据获取模块用于从特征数据库获取目标数据；最终数据库用于存储目标数据；可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。本发明专利技术能够实现高智能化、访问网页数量、方式多和解析方式灵活、代码量小、爬取迅速，且便于修改增加新功能，维护便捷高效。便捷高效。便捷高效。

全部详细技术资料下载

【技术实现步骤摘要】
一种多来源网站的数据自动采集系统及其方法

[0001]本专利技术涉及计算机网络领域，具体涉及一种多来源网站的数据自动采集系统及其方法。

技术介绍

[0002]随着大数据时代的到来，大数据服务对数据的获取、解析和展示提出了新的需求和挑战。目前，通用的技术方案多针对单一的网站进行爬取，对固定的数据匹配统一的规则。具有开发工作量大，适应范围小，增加修改新功能困难，可迁移性差的特点，采用一个一个的进行设计的方法，对业务员的专业能力和开发经验要求高，工过量大，开发周期长，增加了公司的运营成本和人力成本，尤其是，在开发过程中增加新功、修改错误和后期运行维护方面更是带来繁重的工作量，花费宝贵的时间。
[0003]对于相似程度高的网站需要人工，编程和匹配规则，缺乏智能化的分析手段和对已有工作成校、经验的沿用。对于统计结果的统计需要人工检查结果，缺乏科学的统计、分析和预测方式，对于结果的展示，和采集过程的干预，多采用代码级别的干预，更改困难，容易引入扰乱。

技术实现思路

[0004]本申请公开了一种多来源网站的数据自动采集系统及其方法，实现了智能化采集，访问网页访问方式多和解析方式灵活、代码量小且爬取迅速。
[0005]为了达到上述目的，本申请采用的技术方案如下：
[0006]一种多来源网站的数据自动采集系统，包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面；原始数据库用于存储原始数据；特征提取模块用于从原始数据库提取特征数据；特征数据库用于存储特征数据；数据获取模...

【技术保护点】

【技术特征摘要】
1.一种多来源网站的数据自动采集系统，其特征在于：包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面；原始数据库用于存储原始数据；特征提取模块用于从原始数据库提取特征数据；特征数据库用于存储特征数据；数据获取模块用于从特征数据库获取目标数据；最终数据库用于存储目标数据；可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。2.根据权利要求1所述的一种多来源网站的数据自动采集系统，其特征在于：所述原始数据库内存放的数据包括原始特征信息、样板信息、网页翻页信息、url信息和url示例信息。3.根据权利要求1所述的一种多来源网站的数据自动采集系统，其特征在于：所述特征数据库存放的数据的数据类型包括post-html、post-json、get-html和get-json。4.一种多来源网站的数据自动采集方法，应用于权利要求1-3所述的任意一种多来源网站的数据自动采集系统，其特征在于，包括以下步骤：(a)将网页信息录入原始数据库；(b)由特征提取模块自动清洗分析原始数据库的数据，并且将提取的网页的信息和关键特征存入特征数...

【专利技术属性】
技术研发人员：马笑轩，康艳，
申请(专利权)人：洛阳建企大数据服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人