一种大数据PB级分布式信息存储与检索平台制造技术

技术编号:20242249 阅读:18 留言:0更新日期:2019-01-29 23:19
本发明专利技术公开了一种大数据PB级分布式信息存储与检索平台,包括数据采集层:采用分布式高速前端探针服务器,数据采集层用于完成针对海量设备的数据采集、回传;数据传输层:将信息采集层获取的信息进行数据的抽取、转换和加载后,通过分类信息的识别,分别将原始信息和分类信息进行上传,传输过程采用加密、单向传输模式,确保数据回传的安全性;数据存储层:存储来自不同数据源的数据,按业务应用需要将数据分类,对数据实行统一的管理与维护;核心业务层:调用数据通过专家模型库进行分析,发现窃密攻击行为以及数据回溯,实现核心专家模型算法;应用展示层:直接面向最终用户,集成了数据展示、用户权限管理、数据日志查询、数据输入功能。

【技术实现步骤摘要】
一种大数据PB级分布式信息存储与检索平台
专利技术涉及大数据安全
,具体为一种大数据PB级分布式信息存储与检索平台。
技术介绍
随着信息技术与经济社会的交汇融合,各类数据的爆发性增长,使得“大数据”已经渗透到当今每一个行业和业务职能领域,成为了一项至关重要的生产因素,日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。从全球来看,大数据正在改变各国综合国力、重塑未来国际战略格局,对国家主权安全形成新的挑战:大数据正在成为经济社会发展新的驱动力;大数据重新定义了大国博弈的空间;大数据将改变国家治理架构和模式;“大数据安全”也已上升为国家安全。为了缩短内外差距,平衡敌我态势,我国家安全机关应积极响应习总书记关于网络空间安全的各项讲话精神,重视大数据技术与资源在网络空间安全领域,乃至国家安全领域的创新应用,“大数据”对抗“大数据”,借此强化对境外谍报机关网络攻击、控制、窃密行为的敌情侦测能力,加强建设完备的网络反窃密工作体系,努力打造与我国大国地位相匹配的、能与境外谍报机关等主要对手相抗衡的网络技术安全保卫工作能力。因此,我国家安全机关亟需增强自身在网络空间大数据领域的采集、分析、应用能力,构建一个技术先进、体系成熟的大数据PB级分布式信息存储与检索平台,实现对网络空间中的重要信息进行全面感知、快速侦测和重点追踪。
技术实现思路
专利技术的目的在于提供一种大数据PB级分布式信息存储与检索平台,以解决上述
技术介绍
中提出的问题。为实现上述目的,专利技术提供如下技术方案:一种大数据PB级分布式信息存储与检索平台,包括数据采集层、数据传输层、数据存储层、核心业务层和应用展示层;所述数据采集层:采用分布式高速前端探针服务器,其基于分布式专门用于网络高速探测,最大发包速度为1G/s,最大镜像数据带宽10G,实现数据主、被动获取和具有数据快速处理分析能力,所述数据采集层用于完成针对海量设备的数据采集、回传;所述数据传输层:将信息采集层获取的信息进行数据的抽取、转换和加载后,通过分类信息的识别,分别将原始信息和分类信息进行上传,传输过程采用加密、单向传输模式,确保数据回传的安全性;所述数据存储层:存储来自不同数据源的数据,按业务应用需要将数据分类,对数据实行统一的管理与维护,同时,存储层通过采用专用的索引算法,建立了文件索引层,实现数据的快速检索和调用;所述核心业务层:以分布式信息存储与检索平台为基础,调用数据通过专家模型库进行分析,发现窃密攻击行为以及数据回溯,实现核心专家模型算法,包括行为匹配算法,攻击行为挖掘算法,智能可疑行为发现算法,机器自动学习算法,模糊匹配算法,通过通用接口存储在数据存储中心的分布式存储平台中,计算时,通过接口发起作业,由数据存储中心的作业调度服务进程负责调度,由数据计算服务进程负责计算处理,并把结果反馈给大数据分析平台的分析模型;所述应用展示层:应用展示层是整个系统的门户,直接面向最终用户,集成了数据展示、用户权限管理、数据日志查询、数据输入功能,并提供了针对具有不同权限用户的个性化应用操作界面和信息汇聚展现界面;提供网络空间拓扑结构、网络设备分布图、工控设备隐患图、物联网设备隐患图、安全漏洞分布统计。优选的,所述数据采集层包括IP可用性探测、窃密-APT追踪探测、TCP/UDP端口状态探测、激活协议探测、木马探测端、服务端协议数据采集、未知协议数据采集和高速探测专用发包采集平台与分布式探测采集平台接合。优选的,所述数据采集层还包括探测IP的IP端口数据,实现模拟真实IP端口协议,发送探测包;将把返回来的原始数据进行规则分析,实现判断是不是木马控制端、服务器,IP开放情况分析,IP端口数据封装清洗,所述数据采集层采集的数据通过所述数据传输层传输到所述数据存储层进行数据存储。优选的,所述数据传输层的传输方式包括单向传输设备、加密传输设备以及保垒机。优选的,所述数据存储层采用分布式存储方式、数据存储物理资源可扩展,并创建分布式的数据搜索库方便数据快速搜索,并且保存探测原始数据。优选的,所述核心业务层包括数据分析模型、数据识别模型,所述数据分析模型跟据数据业务不同,建产大数据分析模型采用Hadook、Spark、HBase平台,建立可以学习的分析模型,分析数据发现可疑威胁、木马等安全隐患,数据识别模型通过自建的以Yara规则为基础识别引擎,识别IP所在设备类型、操作系统、服务协议信息,核心业务层中的模块系统将识别分析结果存储到数据存到数据搜索库。优选的,所述应用展示层通过可视化的态势方式展示威胁态势及设备分布状态,网络结构、工控设备隐患及当安全漏洞分析情况。优选的,所述数据采集层的模式包括主动探测、流量分析和恶意样本分析,所述主动探测从平台集中控制中心获取加密的各种木马、后门、漏洞扫描和激活特征,探测策略和探测任务数据进行解密,然后根据特征、探测策略和任务要求快速进行探测数据包构建和发送,对探测反馈数据包进行快速分析处理,将处理结果通过VPN通道回传系统平台集中控制中心;所述所述流量分析通过端口镜像方式从重点窗口单位网络出口获取数据;对端口镜像数据包进行快速分析处理,通过实时流量采集、协议分析、已知安全威胁规则和威胁情报库匹配,生成安全事件监测日志,实现网络数据流行为特征收集;将处理结果通过VPN通道回传系统平台集中控制中心;所述恶意样本分析以疑似样本为工作对象,能够安全自动地的提交和分析恶意代码的工作环境,采用静态判定、动态沙箱鉴定为手段,实现对恶意代码样本的安全提交、存储、分析和研究。与现有技术相比,专利技术的有益效果是:该大数据PB级分布式信息存储与检索平台,IP可用性探测:探测IP是否存活及存状态的探测。窃密-APT追踪探测:探测IP设备是否植入木马后门的转项探测。TCP/UDP端口状态探测:探测IP设备端口开放的情况探测。激活协议探测:探测IP设备开放端口的协议、应用、操作系统版本等。木马探测端、服务端协议数据采集:模拟端口协议,采集IP端口数据,识别是否木马探测端、服务端。未知协议数据采集:探测IP端口,无法识辨数据协议的数据采集。将“杂乱”的比特数据中查找频繁特征序列,通过固定模式特征序列的频繁出现规律确定帧头位置的帧切分方法;在频繁特征序列中挖掘序列间关联规则,并聚类帧头特征近似数据帧的帧分类方法;引入基因序列比对算法进行数据帧相应字段对齐,并进行字段变化率、优势数据占比等特征量统计分析的帧头格式解析方法;以协议状态字段取值分布的分布作为基本统计量提取状态相关字段,并按字段取值定义帧状态、结合帧出现次序逆构协议状态转换过程的状态模型推断方法。通过该方法识别更新特征库。高速探测专用发包采集平台与分布式探测采集平台接合:采用分布式架构,增加发布探测速度。为了解决扫描探测工作的安全保密性问题,实现对网络节点和参与者身份信息的保护,达到防溯源、防封堵以及防监听带来的安全风险,研究一种网络匿名通信技术。主要研究一种利用互联网基础设施实现匿名通信的虚拟通信链路。基本思路是通过对互联网访问数据进行多重跳转,同时伴随多级加密处理,最终利用随机选择的一个公网IP和真实的目标服务器进行通信,保证通过互联网侦听或者服务器端反向追溯都无法获知发起端的真实信息。通过搭本文档来自技高网...

【技术保护点】
1.一种大数据PB级分布式信息存储与检索平台,其特征在于:包括数据采集层、数据传输层、数据存储层、核心业务层和应用展示层;所述数据采集层:采用分布式高速前端探针服务器,其基于分布式专门用于网络高速探测,最大发包速度为1G/s,最大镜像数据带宽10G,实现数据主、被动获取和具有数据快速处理分析能力,所述数据采集层用于完成针对海量设备的数据采集、回传;所述数据传输层:将信息采集层获取的信息进行数据的抽取、转换和加载后,通过分类信息的识别,分别将原始信息和分类信息进行上传,传输过程采用加密、单向传输模式,确保数据回传的安全性;所述数据存储层:存储来自不同数据源的数据,按业务应用需要将数据分类,对数据实行统一的管理与维护,同时,存储层通过采用专用的索引算法,建立了文件索引层,实现数据的快速检索和调用;所述核心业务层:以分布式信息存储与检索平台为基础,调用数据通过专家模型库进行分析,发现窃密攻击行为以及数据回溯,实现核心专家模型算法,包括行为匹配算法,攻击行为挖掘算法,智能可疑行为发现算法,机器自动学习算法,模糊匹配算法,通过通用接口存储在数据存储中心的分布式存储平台中,计算时,通过接口发起作业,由数据存储中心的作业调度服务进程负责调度,由数据计算服务进程负责计算处理,并把结果反馈给大数据分析平台的分析模型;所述应用展示层:应用展示层是整个系统的门户,直接面向最终用户,集成了数据展示、用户权限管理、数据日志查询、数据输入功能,并提供了针对具有不同权限用户的个性化应用操作界面和信息汇聚展现界面;提供网络空间拓扑结构、网络设备分布图、工控设备隐患图、物联网设备隐患图、安全漏洞分布统计。...

【技术特征摘要】
1.一种大数据PB级分布式信息存储与检索平台,其特征在于:包括数据采集层、数据传输层、数据存储层、核心业务层和应用展示层;所述数据采集层:采用分布式高速前端探针服务器,其基于分布式专门用于网络高速探测,最大发包速度为1G/s,最大镜像数据带宽10G,实现数据主、被动获取和具有数据快速处理分析能力,所述数据采集层用于完成针对海量设备的数据采集、回传;所述数据传输层:将信息采集层获取的信息进行数据的抽取、转换和加载后,通过分类信息的识别,分别将原始信息和分类信息进行上传,传输过程采用加密、单向传输模式,确保数据回传的安全性;所述数据存储层:存储来自不同数据源的数据,按业务应用需要将数据分类,对数据实行统一的管理与维护,同时,存储层通过采用专用的索引算法,建立了文件索引层,实现数据的快速检索和调用;所述核心业务层:以分布式信息存储与检索平台为基础,调用数据通过专家模型库进行分析,发现窃密攻击行为以及数据回溯,实现核心专家模型算法,包括行为匹配算法,攻击行为挖掘算法,智能可疑行为发现算法,机器自动学习算法,模糊匹配算法,通过通用接口存储在数据存储中心的分布式存储平台中,计算时,通过接口发起作业,由数据存储中心的作业调度服务进程负责调度,由数据计算服务进程负责计算处理,并把结果反馈给大数据分析平台的分析模型;所述应用展示层:应用展示层是整个系统的门户,直接面向最终用户,集成了数据展示、用户权限管理、数据日志查询、数据输入功能,并提供了针对具有不同权限用户的个性化应用操作界面和信息汇聚展现界面;提供网络空间拓扑结构、网络设备分布图、工控设备隐患图、物联网设备隐患图、安全漏洞分布统计。2.如权利要求1所述的一种大数据PB级分布式信息存储与检索平台,其特征在于:所述数据采集层包括IP可用性探测、窃密-APT追踪探测、TCP/UDP端口状态探测、激活协议探测、木马探测端、服务端协议数据采集、未知协议数据采集和高速探测专用发包采集平台与分布式探测采集平台接合。3.如权利要求1所述的一种大数据PB级分布式信息存储与检索平台,其特征在于:所述数据采集层还包括探测IP的IP端口数据,实现模拟真实IP端口协议,发送探测包;将把返回来的原始数据进行规则分析,实现判断是不是木马控制端、服务器,...

【专利技术属性】
技术研发人员:周升理王丹
申请(专利权)人:北京云睿科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1