保密单位网络信息采集分析系统技术方案

技术编号:16760664 阅读:94 留言:0更新日期:2017-12-09 04:55
本实用新型专利技术的保密单位网络信息采集分析系统,爬取设置客户、爬取节点、爬取主控节点、URL索引服务器以及、据接收、汇总服务器处于同一局域网中,通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,解决了爬取节点抓取数据时的IP地址单一问题;通过网闸的隔离,爬取节点抓取的Internet中的数据只能单向传输到网络信息分析子系统中,网络信息分析子系统通过统筹处理Internet数据和保密数据,既保证保密数据的安全性又满足专网内用户对外网信息的需求。

Network information collection and analysis system for secrecy units

The utility model has the advantages of secret unit network information acquisition and analysis system, set the customer, crawling crawling crawling node, master node, URL, according to the index server and receiving, gather server in the same LAN, through network communication, simplify the network information collection subsystem synchronization, coordination and management work, climb take the node dial through the VPN connected to the remote VPN proxy server, solves the problem of single IP address from climbing grab data node; the gatekeeper's isolation, data can only be transmitted from the node to climb in the Internet to capture network information analysis subsystem, network information analysis subsystem of Internet data processing and data confidentiality through overall planning, both to ensure the safety of confidential data and network users in the foreign network information needs.

【技术实现步骤摘要】
保密单位网络信息采集分析系统
本技术涉及一种保密单位网络信息采集分析系统,更具体的说,尤其涉及一种在保证专网数据安全性的基础上通过VPN代理服务器来解决访问IP地址单一问题的保密单位网络信息采集分析系统。
技术介绍
随着互联网和移动互联网技术的不断发展,人们迎来了数据呈爆炸式增长的大数据时代。保密单位若能在自有保密数据的基础上更好的引入外部Web网络所承载的各类数据,对于更好地理解、丰富和使用自有数据有着积极地提升作用。网络爬虫系统可以帮助用户从外网中获取数据,为保密单位采集外部数据提供技术手段。保密单位的自有保密数据及用户一般都部署在与外网物理隔离的专网中,这样既可保证保密数据的安全性又兼顾了单位内用户的正常使用。然而如何在保证专网内自有保密数据安全的基础上,有效地从Web网络中外部获取数据是此类单位所面临的第一个问题。此外,由于保密单位的专网是与外网物理隔离的,一般不具备与外网通信的公网IP,其连入外网也大多是通过路由器接入运营商的方式访问Internet。在访问Internet过程中,所有接入Internet的设备共享运营商分配的同一个IP地址。保密单位对Web信息的需求可能并不仅局限于政策导向类的网站或新闻发布类的网站,为更好地了解自身所涉及领域的热点、风向、倾向、动态等,可能还会涉及论坛、微博等即时互动平台数据的抓取。此类公众参与的即时互动平台数据更新频率远远高于网站,受服务器的限制,同一IP的爬虫在一定时间内只能采集同一目标数据源限定的数据。即使配置了多个爬虫,这些爬虫在访问目标数据源的过程中也将被运营商分配相同的IP地址,因此当其中一个爬虫达到访问上限时,其余爬虫也将被拒绝访问。如何保证即时互动平台数据采集的实时性是保密单位所面临的第二个问题。
技术实现思路
本技术为了克服上述技术问题的缺点,提供了一种保密单位网络信息采集分析系统。本技术的保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于:所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。本技术的保密单位网络信息采集分析系统,所述网络信息分析子系统由Hadoop集群、保密数据服务器和应用服务器组成,Hadoop集群由一台主节点NameNode和多台从节点DataNode组成,主节点NameNode用于接收和存储数据接收、汇总服务器发送的单向数据;保密数据服务器用于存储各类保密性数据,应用服务器根据最终用于的请求返回从Internet中采集的数据和/或保密数据服务器中的数据。本技术的保密单位网络信息采集分析系统,所述最终用户通过应用服务器提交请求并获取所需信息;最终用户与应用服务器间通过B/S形式或C/S形式交互信息。本技术的保密单位网络信息采集分析系统,所述网络信息采集子系统和网络信息分析子系统中的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应;在设备性能富有余地的情况下,网络信息采集子系统中的爬取主控节点的功能可由某一个爬取节点承担,URL索引服务器和数据接收、汇总服务器也可由爬取主控节点承担;网络信息分析子系统中的应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。本技术的有益效果是:首先,负责数据源采集的爬取节点、负责爬取管理的主控节点、负责数据查重过滤URL索引服务器、数据接收、汇总服务器以及爬取设置客户端共处于同一局域网中,相互之间可直接通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作;其次,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,进而使用代理服务器的公网IP地址访问数据源,通过切换VPN连接获取足够的公网IP,从而解决即时互动平台数据采集覆盖性和完整性问题。通过网闸的隔离,爬取节点抓取的Internet中的数据只能单向传输到网络信息分析子系统中,网络信息分析子系统通过统筹处理Internet数据和保密数据,既保证保密数据的安全性又满足专网内用户对外网信息的需求。附图说明图1为本技术的保密单位网络信息采集分析系统的部署结构图;图2为本技术的保密单位网络信息采集分析系统的工作原理图。具体实施方式下面结合附图与实施例对本技术作进一步说明。针对保密单位在接入外网的同时需保证专网数据的安全性要求,以及即时互动平台数据采集的实时性要求,本技术方案提出了一种保密单位网络信息采集分析系统。如图1和图2所示,分别给出了本技术的保密单位网络信息采集分析系统的部署结构图和工作原理图,其由网络信息采集子系统、网络信息分析子系统和最终用户组成,网络信息采集子系统部署于局域网内,网络信息分析子系统以及最终用户均部署于保密隔离的专网内,局域网与专网之间通过网闸连接。局域网内的服务器及客户端通过路由器接入运营商访问Internet。网闸负责局域网与专网之间的数据转发和隔离,通过在网闸上设置规则,只允许数据接收、汇总服务器向NameNode节点的数据单向传输,禁止专网数据向外网的传输,尽量减少内网与专网之间的数据交互,从而在保证专网数据安全性的基础上,有效引入外网数据。所示的网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器和数据接收、汇总服务器组成。爬取设置客户端用于配置数据源、关键词、爬取策略等;爬取主控节点根据爬取设置客户端的配置为多个爬取节点分配任务;爬取节点中部署着网络爬虫系统,在接到爬取主控节点分配的采集任务后选择一个VPN连接连入远程VPN代理服务器,使用代理服务器访问Internet中的目标数据源。爬取主控节点在收到数据源和关键词后,根据抓取策略为各爬取节点分配数据采集任务。爬取主控节点将定时接收各爬取节点的心跳及任务完成情况,以确定可用的爬取节点及各节点的任务完成进度,并根据所配置的抓取策略动态调整各爬取节点的任务分配,以均衡网络信息采集子系统的负载。当一段时间内接收不到某爬取节点的心跳信号,则认为此爬取节点宕机,将其所承担的任务根据负载分配给其他爬取节点。而当有新的心跳产生时,则认为有新的爬取节点加入,可为新的节点分配新任务。当爬取主控节点有新的任务分配时,爬取节点首先将目标数据源的URL与URL索引服务器所维护的URL列表进行比对,当URL列表中包含目标数据源URL时,说明系统已采集过此目标数据源的数据,可直接结束此任务,等待爬取主控节点下一个任务的分配。当URL列表中不包含目标数据源URL时,URL索引服务器将此目标数据源URL记录到URL列表,同时爬取节点在自身所本文档来自技高网
...
保密单位网络信息采集分析系统

【技术保护点】
一种保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于: 所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。

【技术特征摘要】
1.一种保密单位网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统部署于局域网内,网络信息分析子系统和最终用户均部署于保密隔离的专网内;其特征在于:所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点、URL索引服务器以及数据接收、汇总服务器构成,网络信息采集子系统经路由器接入运营商访问Internet;爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程代理服务器,使用代理服务器访问Internet中的目标数据源;爬取节点采集的数据存储至数据接收、汇总服务器中,网络信息采集子系统经网闸与网络信息分析子系统相连接,网闸用于实现数据接收、汇总服务器至网络分析子系统的单向数据发送。2.根据权利要求1所述的保密单位网络信息采集分析系统,其特征在于:所述网络信息分析子系统由Hadoop集群、保密数据服务器和...

【专利技术属性】
技术研发人员:魏墨济刘向阳朱世伟李宪毅李晨杨爱芹于俊凤徐蓓蓓刘翠琴张铭君董婷李思思冯海洲
申请(专利权)人:山东省科学院情报研究所
类型:新型
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1