【技术实现步骤摘要】
一种基于数据爬虫技术的信息监测系统
本专利技术涉及网络爬虫应用领域,尤其涉及一种基于数据爬虫技术的信息监测系统。
技术介绍
随着网络技术的大力发展,通过互联网获取数据已成为当前人们获取信息资源的重要途径,采用网络爬虫获取数据已成为主流的获取手段,根据网络爬虫所部署的地理位置和网络拓扑结构不同,可以将网络爬虫分为部署于同一局域网的单一域网络爬虫(Single-domainDistributedcrawler,又称局域网爬虫)和分散部署于广域网的多域网络爬虫((Multi-domainDistributeCrawler,又称广域网爬虫)。无论是单一域网爬虫还是广域网爬虫最基本的功能均是网页数据抓取,而其灵魂则是调度策略,调度策略不同则抓取方法不同。调度策略主要包括种子链接分配策略、负载均衡策略、网页查重策略等。当前种子链接分配策略主要分为独立方式、静态方式和动态方式三类。独立方式中各网络爬虫互不通信独立采集各自页面;静态方式预先划分所有网络链接,将划分好的链接分配给网络爬虫;动态方式动态地为各网络爬虫分配网络链接,网络爬虫完成当前抓取任务时为其分配新的抓取任务。无论何 ...
【技术保护点】
1.一种基于数据爬虫技术的信息监测系统,其特征在于,包括:数据抓取模块、爬虫检测模块、数据处理模块、 VPN代理服务器、学校招生网页、社交媒体网页、客户端、用户,所述爬虫检测模块及数据处理模块分别于数据抓取模块连接,所述数据抓取模块通过VPN代理服务器访问学校招生网页及社交媒体网页,所述数据处理模块处理网页数据送至云服务器,所述用户使用客户端通过Internet访问云服务器。
【技术特征摘要】
1.一种基于数据爬虫技术的信息监测系统,其特征在于,包括:数据抓取模块、爬虫检测模块、数据处理模块、VPN代理服务器、学校招生网页、社交媒体网页、客户端、用户,所述爬虫检测模块及数据处理模块分别于数据抓取模块连接,所述数据抓取模块通过VPN代理服务器访问学校招生网页及社交媒体网页,所述数据处理模块处理网页数据送至云服务器,所述用户使用客户端通过Internet访问云服务器。2.一种根据权利要求1所述的基于数据爬虫技术的信息监测系统,其特征在于,所述数据抓取模块包括爬虫设置单元、爬虫主控单元、爬虫节点、缓存器,所述用户使用客户端在爬虫设置单元上配置数据源及关键词,所述爬虫设置单元、爬虫主控单元、爬虫节点及爬虫检测模块依次连接,爬虫主控单元为爬虫节点分配任务,爬虫节点通过VPN代理服务器访问学校招生网页及社交媒体网页,所述爬虫节点、缓存器及数据处理模块依次连接。3.一种根据权利要求1所述的基于数据爬虫技术的信息监测系统,其...
【专利技术属性】
技术研发人员:孟秀惠,
申请(专利权)人:四川久久合创信息技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。