分布式互联网信息采集系统及方法技术方案

技术编号：23291887 阅读：129 留言：0更新日期：2020-02-08 21:08

本发明专利技术公开了一种分布式互联网信息采集系统及方法，旨在解决现有数据采集速度慢、适用范围窄的技术问题。本发明专利技术采集系统包括采集脚本编制模块、任务调度模块、微服务框架、数据存储模块，采集脚本编制模块用于生成记载采集需求的采集脚本；任务调度模块用于调整上述采集脚本的执行顺序；微服务框架与任务调度模块互相通信，用于接收采集脚本并分配至不同的下载节点；数据存储模块用于存储下载节点传送的下载内容。采集方法包括任务加载、任务解析、节点分配。本发明专利技术的有益技术效果在于：适用范围广、适用性强、采集效率高。

Distributed Internet information collection system and method

全部详细技术资料下载

【技术实现步骤摘要】
分布式互联网信息采集系统及方法
本专利技术涉及互联网信息
，具体涉及一种分布式互联网信息采集系统及方法。
技术介绍
互联网中含有大量各行各业用户需要的有价值的信息，用户采集这些信息通常有三种方式：（1）内容管理系统，简称cms，如织梦、帝国等品牌，该系统包括采集服务，在系统后台提供有针对通用型新闻网站的简单采集服务；但是其使用范围有限，灵活性不差强人意，而且还需要手动配置响应的正则匹配抽取规则，操作比较繁琐；（2）针对专门网站的信息采集系统，该系统可以根据不同网站发布的网页信息结构需求，进行定制化开发，以最大限度采集到所需数据，但是由于其针对性强，通用性差，需要很多套采集应用支持，维护成本比较高，特别是当被采集的网站升级改版时，随之进行的更新工作量更大；（3）单机信息采集平台，在针对专门网站的信息采集系统的基础上，将采集分为网页结构识别逻辑、通用下载、数据清洗、数据存储等，其中网页结构识别逻辑由不同的脚本实现，对于不同的网站只需要开发相应的采集脚本，其它部分可以不做修改，这样就减少了工作量，但是该系统采集速度慢，无法完成大规模、高并发的采集任务。
技术实现思路
本专利技术提供一种分布式互联网信息采集系统及方法，以解决现有数据采集速度慢、适用范围窄的技术问题。为解决上述技术问题，本专利技术采用如下技术方案：设计一种分布式互联网信息采集系统，包括采集脚本编制模块、任务调度模块、微服务框架、数据存储模块，采集脚本编制模块用于生成记载采集需求的采集脚本；任务调度模块用于调整上述采集脚...

【技术保护点】
1.一种分布式互联网信息采集系统，其特征在于，包括采集脚本编制模块、任务调度模块、微服务框架、数据存储模块，所述采集脚本编制模块用于生成记载采集需求的采集脚本；所述任务调度模块用于调整所述采集脚本的执行顺序；所述微服务框架与所述任务调度模块互相通信，用于接收所述采集脚本并分配至不同的下载节点；所述数据存储模块用于存储所述下载节点传送的下载内容。/n

【技术特征摘要】
1.一种分布式互联网信息采集系统，其特征在于，包括采集脚本编制模块、任务调度模块、微服务框架、数据存储模块，所述采集脚本编制模块用于生成记载采集需求的采集脚本；所述任务调度模块用于调整所述采集脚本的执行顺序；所述微服务框架与所述任务调度模块互相通信，用于接收所述采集脚本并分配至不同的下载节点；所述数据存储模块用于存储所述下载节点传送的下载内容。

2.根据权利要求1所述的分布式互联网信息采集系统，其特征在于，所述微服务框架包括字节流协议，该协议格式包括数据包头、数据区域、CRC校验；所述数据包头包括HEAD、源地址、目标地址、数据包类型、数据包序列号。

3.根据权利要求1所述的分布式互联网信息采集系统，其特征在于，所述采集脚本包括资源下载单元和逻辑编制单元。

4.根据权利要求3所述的分布式互联网信息采集系统，其特征在于，所述逻辑编制单元包括登录信息、页面跳转信息、请求头设定信息。

5.根据权利要求1所述的分布式互联网信息采集系统，其特征在于，所述任务调度模块包括：
脚本加载单元，用于根据采集脚本的优先级确定脚本执行顺序；
逻辑执行单元，用于将所述采集脚本发送至虚拟机...

【专利技术属性】
技术研发人员：李善平，
申请(专利权)人：河南拓普计算机网络工程有限公司，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人