The utility model has the advantages of secret unit network information acquisition and analysis system, set the customer, crawling crawling crawling node, master node, URL, according to the index server and receiving, gather server in the same LAN, through network communication, simplify the network information collection subsystem synchronization, coordination and management work, climb take the node dial through the VPN connected to the remote VPN proxy server, solves the problem of single IP address from climbing grab data node; the gatekeeper's isolation, data can only be transmitted from the node to climb in the Internet to capture network information analysis subsystem, network information analysis subsystem of Internet data processing and data confidentiality through overall planning, both to ensure the safety of confidential data and network users in the foreign network information needs.
【技术实现步骤摘要】
保密单位网络信息采集分析系统
本技术涉及一种保密单位网络信息采集分析系统,更具体的说,尤其涉及一种在保证专网数据安全性的基础上通过VPN代理服务器来解决访问IP地址单一问题的保密单位网络信息采集分析系统。
技术介绍
随着互联网和移动互联网技术的不断发展,人们迎来了数据呈爆炸式增长的大数据时代。保密单位若能在自有保密数据的基础上更好的引入外部Web网络所承载的各类数据,对于更好地理解、丰富和使用自有数据有着积极地提升作用。网络爬虫系统可以帮助用户从外网中获取数据,为保密单位采集外部数据提供技术手段。保密单位的自有保密数据及用户一般都部署在与外网物理隔离的专网中,这样既可保证保密数据的安全性又兼顾了单位内用户的正常使用。然而如何在保证专网内自有保密数据安全的基础上,有效地从Web网络中外部获取数据是此类单位所面临的第一个问题。此外,由于保密单位的专网是与外网物理隔离的,一般不具备与外网通信的公网IP,其连入外网也大多是通过路由器接入运营商的方式访问Internet。在访问Internet过程中,所有接入Internet的设备共享运营商分配的同一个IP地址。保密单位对Web信息的需求可能并不仅局限于政策导向类的网站或新闻发布类的网站,为更好地了解自身所涉及领域的热点、风向、倾向、动态等,可能还会涉及论坛、微博等即时互动平台数据的抓取。此类公众参与的即时互动平台数据更新频率远远高于网站,受服务器的限制,同一IP的爬虫在一定时间内只能采集同一目标数据源限定的数据。即使配置了多个爬虫,这些爬虫在访问目标数据源的过程中也将被运营商分配相同的IP地址,因此当其中一个爬虫达 ...
【技术保护点】
一种保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于: 所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。
【技术特征摘要】
1.一种保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于:所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。2.根据权利要求1所述的保密单位网络信息采集分析系统,其特征在于:所述网络信息分析子系统由Hadoop集群、保密数据服务器和...
【专利技术属性】
技术研发人员:魏墨济,刘向阳,朱世伟,李宪毅,李晨,杨爱芹,于俊凤,徐蓓蓓,刘翠琴,张铭君,董婷,李思思,冯海洲,
申请(专利权)人:山东省科学院情报研究所,
类型:新型
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。