基于VPN的分布式网络爬虫系统及调度方法技术方案

技术编号：16367201 阅读：329 留言：0更新日期：2017-10-10 23:40

本发明专利技术中的基于VPN的分布式网络爬虫系统及调度方法，通过VPN拨号的方式连入远程VPN代理服务器，通过切换VPN连接获取不同公网IP，解决局域网爬虫IP地址单一问题；其次，虽然通过连入远程VPN代理服务器的方式可获得多个公网IP地址，但就社交新闻类网站的更新频率而言，IP地址仍是珍贵的稀缺资源，为使用一个IP地址尽可能多的获取数据，本发明专利技术采用多目标数据源URL穿插采集的方式，避免同一时间过于密集地采集单一目标服务器中的数据，从而造成服务器拒绝访问问题，解决社交媒体类网站平台数据采集覆盖性和完整性；最后，与当前负载均衡通过分配网络连接方式不同，本发明专利技术采用调整关键词的方式均衡各爬取节点的负载。

Distributed crawler system and scheduling method based on VPN

The invention of the distributed web crawler system and scheduling method based on VPN, dial through the VPN connected to the remote VPN proxy server, access to different network connected by switching IP VPN, LAN IP address to solve the problem of single crawler; secondly, though even in the remote VPN proxy server can obtain a plurality of public IP address but the social news site update frequency, IP address is still precious scarce resources, for the use of a IP address as much as possible to obtain data of the target data source URL with collection methods, avoid the same time intensive single target acquisition in the data server, thus causing the server to refuse to solve the access problem, social media websites platform data acquisition coverage and completeness; finally, with the current load balancing through the distribution network. The invention adopts the method of adjusting the key words to balance the load of each climbing node.

全部详细技术资料下载

【技术实现步骤摘要】
基于VPN的分布式网络爬虫系统及调度方法
本专利技术涉及一种分布式网络爬虫系统及调度方法，更具体的说，尤其涉及一种基于VPN的分布式网络爬虫系统及调度方法。
技术介绍
大数据时代的来临，网络上所承载的信息愈加丰富，其中既有指导行业发展走向的政策类网站，也有介绍相关领域最新科技动态及竞争对手产品信息的新闻类网站，还有反映用户对产品评价的博客、论坛、微博等社交网站。外网数据的有效接入和应用对各级各类企业辅助决策、制定计划、管理成本、销售运营、服务售后等提供信息支持，为企业更好知己知彼掌控市场打开了一扇窗口。网络爬虫起始于种子链接穿行于Internet，将访问到的页面下载至本地，为网络数据采集提供技术支撑，为企业深度挖掘和分析网络数据奠定良好开端。根据网络爬虫所部署的地理位置和网络拓扑结构不同，可以将网络爬虫分为部署于同一局域网的单一域网络爬虫(Single-domainDistributedcrawler，又称局域网爬虫)和分散部署于广域网的多域网络爬虫((Multi-domainDistributeCrawler，又称广域网爬虫)。无论是单一域网爬虫还是广域网爬虫最...
基于VPN的分布式网络爬虫系统及调度方法

【技术保护点】
一种基于VPN的分布式网络爬虫系统，其特征在于：包括部署于同一组织局域网内的爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器、数据中心和用户，以及多个远程VPN代理服务器；组织局域网通过路由器接入运营商的方式访问Internet，以便爬取节点使用VPN代理服务器访问Internet中的目标数据源服务器；爬取设置客户端用于配置数据源、关键词、爬取策略，爬取主控节点根据爬取设置客户端的配置为爬取节点分配任务，实现爬取节点的调度以及均衡各爬取节点的负载；爬取节点中部署着网络爬虫系统，爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程VPN代理服务器，使用VPN代理服务器访问In...

【技术特征摘要】
1.一种基于VPN的分布式网络爬虫系统，其特征在于：包括部署于同一组织局域网内的爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器、数据中心和用户，以及多个远程VPN代理服务器；组织局域网通过路由器接入运营商的方式访问Internet，以便爬取节点使用VPN代理服务器访问Internet中的目标数据源服务器；爬取设置客户端用于配置数据源、关键词、爬取策略，爬取主控节点根据爬取设置客户端的配置为爬取节点分配任务，实现爬取节点的调度以及均衡各爬取节点的负载；爬取节点中部署着网络爬虫系统，爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程VPN代理服务器，使用VPN代理服务器访问Internet中的目标数据源服务器；URL索引服务器记录已爬取过的URL及爬取时间，数据中心用于存储抓取的网页数据；用户是网络数据的使用者，通过与数据中心的交互获取相关数据。2.根据权利要求1所述的基于VPN的分布式网络爬虫系统，其特征在于：所述爬取主控节点、爬取节点、URL索引服务器和数据中心可采用逻辑划分，并非每个设备均需一个物理设备与其对应；URL索引服务器可合并到数据中心，由数据中心承担已爬取URL的记录；所述爬取设置客户端可以是任意具有爬取设置权限的用户。3.一种基于权利要求1所述的基于VPN的分布式网络爬虫系统的调度方法，其特征在于，通过以下步骤来实现：a).确定新闻类网站和社交媒体类网站的数据采集方法，对于信息更新频率和数量较低的新闻类网站，采用爬虫直接抓取目标源数据，再使用关键词进行数据过滤；对于信息更新频率和数量极高的社交媒体类网站，利用目标数据源的站内检索结合关键词获取有效信息，再使用爬虫抓取检索结果；b).爬取主控节点为各爬取节点分配任务，对于新闻类网站，将同一域名的新闻类网站分配给一个爬取节点采集目标源数据；对于社交媒体类网站，将同一域名的社交媒体类网站分配到全部爬取节点，并为每个爬取节点分配互不相同的关键词；c).各爬取节点生成初始采集目标数据源URL列表，爬取主控节点为每个爬取节点分配VPN连接列表、新闻类网站采集入口URL地址、社交媒体类采集入口URL地址以及关键词后，爬取节点从VPN连接列表中选择最久未使用的VPN连接连入远程VPN代理服务器，使用VPN代理服务器访问新闻类网站和社交媒体类网站；设爬取节点获取的新闻类网站的网页URL地址列表为URL_Init_Listweb，获取的社交媒体类网站的检索入口URL地址列表为URL_Init_Listsoc，爬取节点的初始采集目标数据源列表URL_Init_List为URL_Init_Listweb与URL_Init_Listsoc的并集；d).各爬取节点确定最终采集目标数据源URL列表，爬取节点通过将URL_Init_List与URL索引服务器所维护的URL_List进行比较、判断采集过URL地址与初次访问时间差是否小于相应网页类型的重访问时间，形成中间采集目标数据源列表URL_Intermed_List；然后通过对URL_Intermed_List进行混排生成最终采集目标数据源列表URL_Final_List；e).各爬取节点采集目标数据源列表的网页数据，爬取节点采集URL_Final_List列表中各URL地址所指向的网页数据，对于新闻类网页按照网站分组，将网页数据存放到新闻类网站结果列表Data_Final_Listweb中；对于社交媒体类网页，将网页数据存放到社交媒体结果列表Data_Final_Listsoc中；并将Data_Final_Listweb和Data_Final_Listsoc打包发送给数据中心；f).URL索引服务器维护更新URL列表，URL索引服务器接收到爬取节点发送的URL_List更新请求后，将所要更新的URL地址添加到URL_List列表中，并将访问时间设置为当前时间，实现URL_List列表的更新；g).各爬取节点将爬取结果存储到数据中心，各爬取节点逐一采集各自最终采集目标数据源列表URL_Final_List中每条URL数据源，将采集结果缓存至本地，在完成列表URL_Final_List中所有数据源的采集后，将采集到的数据一次性发送至数据中心；h).各爬取节点向爬取主控节点汇报状态，各爬取节点按照约定时间，定时向爬取主控节点发送心跳信号和各自的采集时间表；i).爬取主控节点根据所汇报的状态调节负载，爬取主控节点根据计算的新闻类网站的权重和社交媒体类网站的各关键词权重，对各爬取节点的负载做出均衡调整。4.根据权利要求1所述的基于VPN的分布式网络爬虫系统的调度方法，其特征在于：设爬取节点数为Ncl，不同域名的新闻类网站数为Nweb，不同域名的社交媒体类网站数为Nsoc，社交媒体类网站的关键词数为Nkw；则步骤b)中，为每个爬取节点平均分配个不同域名的新闻类网站，将域名不同的社交媒体类网站分配到所有爬取节点，并为每个爬取节点平均分配个不同的关键词；爬取主控节点维护着爬取节点任务分配表、爬取节点心跳表和VPN连接账户表，新闻类网站的任务分配表中记录各个爬取节点所分配到的网站及各个网站的权重，新闻类网站webi的权重的计算公式为：其中，为抓取新闻类网站webj所花费的时间，i∈[1,Nweb]，j∈[1,Nweb]；初始采集各新闻类网站花费时间未知时，认为所有新闻类网站采集时间相同，则各新闻类网站的初始权重为社交媒体类网站的任务分配表中记录各个爬取节点在每个社交媒体类网站中所分配到的关键词以及不同社交媒体类网站不同关键词的权重，社交媒体类网站soci中关键词kwj的权重的计算公式为：其中，为在社交媒体类网站soci中采集关键词kwk相关的信息所所花费的时间，i∈[1,Nsoc]，j、k∈[1,Nkw]；初始在各社交媒体类网站中采集不同关键词相关信息花费时间未知时，认为各关键词相关信息的采集时间相同，则各关键词的初始...

【专利技术属性】
技术研发人员：魏墨济，杨子江，朱世伟，李晨，李宪毅，杨爱芹，于俊凤，张铭君，董婷，李思思，徐蓓蓓，刘翠琴，
申请(专利权)人：山东省科学院情报研究所，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人