一种基于大数据的网络数据采集系统技术方案

技术编号:27685765 阅读:20 留言:0更新日期:2021-03-17 03:54
本发明专利技术公开了一种基于大数据的网络数据采集系统,用于解决传统网络数据采集为固定频率,因不能动态的调整采集频率,导致对异常数据不能进行更严密监控的问题。所述系统包括采集模块,用于在第N个周期内,采集预设采集数量的网络数据;均值及方差计算模块,用于计算并记录第N个周期内采集的网络数据的均值和方差;第一更新模块,用于根据第N‑1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长。本发明专利技术能够根据网络数据中的异常数据情况动态的调整采集频率。

【技术实现步骤摘要】
一种基于大数据的网络数据采集系统
本专利技术涉及网络数据安全
,特别涉及一种基于大数据的网络数据采集系统。
技术介绍
随着互联网技术的迅速发展,网络数据已经普及到生活的各个方面,给人民的生活和工作带来的巨大的方便。但是近几年网络安全问题越来越成为大家关注的对象,尤其是网络数据安全问题,为了对网络安全进行保护,需采集海量网络数据,并从这些海量大数据中检测异常数据,继而对这些异常数据进行更加严密的监控,达到提前预防的目的。但是,目前的数据采集系统都是固定采样频率,还没有根据采集的数据能够自适应调整采样参数的网络数据采集系统,如何自适应调整采样参数以对异常数据进行更好的监控是网络数据采集领域目前急需解决的问题。
技术实现思路
本专利技术提供一种基于大数据的网络数据采集系统,用于解决传统网络数据采集为固定频率,因不能根据异常数据情况动态的调整采集频率,导致对异常数据不能进行更严密监控的问题。本专利技术提供的基于大数据的网络数据采集系统,能根据异常数据情况,动态的调整采集周期时间,从而实现了对采集频率的调整,达到对异常数据进行更严密的监控的目的。本专利技术提供的一种基于大数据的网络采集系统,包括:采集模块,用于在第N个周期内,采集预设采集数量的网络数据;均值及方差计算模块,用于计算并记录第N个周期内采集的网络数据的均值和方差;第一更新模块,用于根据第N-1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长;其中,N为不小于2的正整数,第1个周期的时长为预设初始值。在一可选实施例中,所述第一更新模块,具体用于根据以下公式更新第N+1个周期的时长:其中,TN+1为第N+1个周期的时长,η1∈(0,1),η2∈(1,2),SN-1为第N-1个周期内采集的网络数据的均值和方差,SN为第N个周期内采集的网络数据的均值和方差,TN为第N个周期的时长。在一可选实施例中,所述的基于大数据的网络数据采集系统,还包括:第一判断模块,用于判断N是否大于等于指定数量,是则触发第二判断模块工作,否则触发第一更新模块更新第N+1个周期的时长;第二判断模块,用于根据第j个周期到第N个周期的各周期时长,判断第N个周期的时长变化是否超过预定标准,是则触发第一更新模块更新第N+1个周期的时长,否则触发第二更新模块更新第N+1个周期的时长;其中,j为大于等于1且小于N的正整数,且N-j+1=M,M为所述指定数量;第二更新模块,用于根据所述第j个周期到第N个周期的时长以及这些周期内采集的网络数据的均值和方差,更新第N+1个周期的时长。在一可选实施例中,所述第二判断模块,包括:时长方差计算单元,用于计算所述第j个周期到第N个周期的时长方差;判断单元,用于判断所述时长方差是否大于预设阈值,是则确定第N个周期的时长变化超过预定标准,否则确定第N个周期的时长变化未超过预定标准。在一可选实施例中,所述第二更新更新模块,具体用于根据以下公式更新第N+1个周期的时长:其中,TN+1为第N+1个周期的时长,Ti为第i个周期的时长,Wi为第i个周期的权重,为第i个周期内采集的网络数据的均值,Si为第i个周期内采集的网络数据的方差,其中i=j,…,N。在一可选实施例中,所述第二更新更新模块更新第N+1个周期的时长时使用的各个周期的权重值为1/M。在一可选实施例中,所述第二更新更新模块更新第N+1个周期的时长时使用的各个周期的权重值为:其中,Z为使得成立的实数。在一可选实施例中,所述第一更新模块更新第N+1个周期的时长时,η1=0.5,η2=2。在一可选实施例中,所述采集模块包括:数据预处理单元,用于对采集的网络数据进行分类,将网络数据分为非噪声数据与噪声数据;数据过滤单元,用于获取所述噪声数据中符合预设噪声标准的目标噪声数据与非噪声数据中的有效数据,对所述目标噪声数据进行修正处理,并将所述修正处理后的目标噪声数据与所述有效数据合成目标网络数据,再将所述目标网络数据存入数据库;数据输出单元,用于将所述数据库中的所述目标网络数据输出至均值及方差计算模块;其中,所述数据过滤单元,具体用于根据以下步骤对所述目标噪声数据进行修正处理:步骤B1:所述数据过滤单元通过如下公式计算所述目标噪声数据对应的修正误差因子:其中,μ1为所述目标噪声数据对应的修正误差因子,C为预设的常数,C取值范围为(0,10),m为所述目标噪声数据的数量,为预设的所述目标噪声数据的偏置,取值为(0,1);Yk为第k个目标噪声数据与所述预设噪声标准之间的匹配度,Y1为所述m个目标噪声数据中与所述预设噪声标准之间的匹配度的最大值;步骤B2:所述数据过滤单元根据计算的所述修正误差因子,通过如下公式计算所述目标噪声数据的修正误差值QZ:步骤B3:所述数据过滤单元根据如下公式计算每个目标噪声数据对应的修正匹配度:当第k个目标噪声数据的Yk等于或大于预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度:Y0k=Yk(1-QZ)当第k个目标噪声数据的Yk小于所述预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度:Y0k=Yk(1+QZ)步骤B4:针对每个目标噪声数据:当当前目标噪声数据的修正匹配度等于或大于所述预设阈值时,保留所述当前目标噪声数据;当当前目标噪声数据的修正匹配度小于所述预设阈值时,剔除所述目标噪声数据。本专利技术提供的基于大数据的网络采集系统,根据采集到的网络数据中的异常数据的情况,动态的调整采集周期的时长,实现自适应调整网络数据采集的频率的目的,该系统能在海量的网络数据中出现大量的异常数据时,自动地将采集的频率调高,能对异常数据进行更加严密的监控,及时了解异常数据的情况,从而保证网络数据的安全。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术提供的一种基于大数据的网络数据采集系统实施例一的结构示意图;图2为本专利技术提供的一种基于大数据的网络数据采集系统实施例二的结构示意图;图3为本专利技术提供的一种基于大数据的网络数据采集系统实施例三的结构示意图。具体实施方式本专利技术实施例提供的基于大数据的网络数据采集系统,用于对网络数据进行采集,并对异常数据进行监控。以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发本文档来自技高网...

【技术保护点】
1.一种基于大数据的网络数据采集系统,其特征在于,包括:/n采集模块,用于在第N个周期内,采集预设采集数量的网络数据;/n均值及方差计算模块,用于计算并记录第N个周期内采集的网络数据的均值和方差;/n第一更新模块,用于根据第N-1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长;/n其中,N为不小于2的正整数,第1个周期的时长为预设初始值。/n

【技术特征摘要】
1.一种基于大数据的网络数据采集系统,其特征在于,包括:
采集模块,用于在第N个周期内,采集预设采集数量的网络数据;
均值及方差计算模块,用于计算并记录第N个周期内采集的网络数据的均值和方差;
第一更新模块,用于根据第N-1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长;
其中,N为不小于2的正整数,第1个周期的时长为预设初始值。


2.如权利要求1所述的基于大数据的网络数据采集系统,其特征在于,所述第一更新模块,具体用于根据以下公式更新第N+1个周期的时长:



其中,TN+1为第N+1个周期的时长,η1∈(0,1),η2∈(1,2),SN-1为第N-1个周期内采集的网络数据的均值和方差,SN为第N个周期内采集的网络数据的均值和方差,TN为第N个周期的时长。


3.如权利要求1所述的基于大数据的网络数据采集系统,其特征在于,还包括:
第一判断模块,用于判断N是否大于等于指定数量,是则触发第二判断模块工作,否则触发第一更新模块更新第N+1个周期的时长;
第二判断模块,用于根据第j个周期到第N个周期的各周期时长,判断第N个周期的时长变化是否超过预定标准,是则触发第一更新模块更新第N+1个周期的时长,否则触发第二更新模块更新第N+1个周期的时长;其中,j为大于等于1且小于N的正整数,且N-j+1=M,M为所述指定数量;
第二更新模块,用于根据所述第j个周期到第N个周期的时长以及这些周期内采集的网络数据的均值和方差,更新第N+1个周期的时长。


4.如权利要求3所述的基于大数据的网络数据采集系统,其特征在于,所述第二判断模块,包括:
时长方差计算单元,用于计算所述第j个周期到第N个周期的时长方差;
判断单元,用于判断所述时长方差是否大于预设阈值,是则确定第N个周期的时长变化超过预定标准,否则确定第N个周期的时长变化未超过预定标准。


5.如权利要求3或4所述的基于大数据的网络数据采集系统,其特征在于,所述第二更新更新模块,具体用于根据以下公式更新第N+1个周期的时长:



其中,TN+1为第N+1个周期的时长,Ti为第i个周期的时长,Wi为第i个周期的权重,为第i个周期内采集的网络数据的均值,Si为第i个周期内采集的网络数据的方差,其中i=j,...,N。


6.如权利要求5所述的基于大数据的网络数据采集系统,其特...

【专利技术属性】
技术研发人员:王斌董伟李孟
申请(专利权)人:北京迅达云成科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1