本申请提供一种NetFlow数据去重方法、装置、电子设备及存储介质,包括:获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行准确地去重。两个待去重的数据信息进行准确地去重。两个待去重的数据信息进行准确地去重。
【技术实现步骤摘要】
Netflow数据去重方法、装置、电子设备及存储介质
[0001]本申请涉及信息处理
,具体而言,涉及一种Netflow数据去重方法、装置、电子设备及存储介质。
技术介绍
[0002]NetFlow是一种网络监测功能,可以记录每个TCP/IP会话信息。利用Netflow日志能够提供实现十分精准的流量统计,因此,NetFlow在DDoS监控、入侵检测以及流量统计等工作中被广泛使用。
[0003]但是,NetFlow通常针对单个数据采集设备做流量统计,所以不存在设备间的去重、汇聚等机制,因此,如果一份数据流经多个采集设备,并分别被多个采集设备采集,然后被重复统计,势必会导致最终的统计结果不准确。
技术实现思路
[0004]鉴于此,本申请实施例的目的在于提供一种Netflow数据去重方法、装置、电子设备及存储介质,以解决上述问题。
[0005]第一方面,本申请实施例提供一种Netflow数据去重方法,所述方法包括:获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
[0006]针对重复的两个NetFlow数据信息,其元组信息势必相同,因此,为了快速且准确地重复的数据进行去重,在上述实现过程中,根据在预设时间段内采集到的至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息,继而针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,准确地对所述至少两个待去重的数据信息进行去重。
[0007]基于第一方面,在一种可能的设计中,所述根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重,包括:针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;对所述至少
两个待去重的数据信息中重复的数据进行去重。
[0008]在上述实现过程中,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备的情况下,针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,则能够准确地确定这两个数据信息为重复的数据,最后对所述至少两个待去重的数据信息中重复的数据进行去重。
[0009]基于第一方面,在一种可能的设计中,每个NetFlow数据信息中还包括:启动时间和结束时间;所述方法还包括:针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备;在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。
[0010]在确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备的情况下,即使采集设备的IP地址为该下一跳地址的采集设备所采集的数据的元组信息和该待去重的数据信息相同,其也有可能是重复的数据,也有可能不是重复的数据,值的一提的是,由于重复的数据中所携带的启动时间之差以及结束时间之差通常会比较小,反之,不同的数据中所携带的启动时间之差以及结束时间之差通常会比较大,因此,在上述实现过程中,在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则能够准确地确定该待比较的数据信息与该去重的数据信息重复;继而能够对所述至少两个待去重的数据信息中重复的数据进行准确地去重。
[0011]基于第一方面,在一种可能的设计中,所述方法还包括:在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息;针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息重复。
[0012]由于重复的数据中所携带的启动时间之差以及结束时间之差通常会比较小,反之,不同的数据中所携带的启动时间之差以及结束时间之差通常会比较大,因此,在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息的情况下,在上述实现过程中,针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则能够准确地确定该待查重的数据信息与该去重的数据信息重复。
[0013]基于第一方面,在一种可能的设计中,所述根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息,包括:针对所述至少两个
NetFlow数据信息中的每个NetFlow数据信息,若该NetFlow数据信息所对应的采集设备采用了NAT策略时,则按照预先确定的元组信息映射规则,对该NetFlow数据信息中的元组信息进行修改,得到修改后的NetFlow数据信息;从所述修改后的NetFlow数据信息和所述至少两个NetFlow数据信息中未被修改的NetFlow数据信息中,确定出所述至少两个待去重的数据信息。
[0014]针对任意一个元组信息为A的NetFlow数据信息,若该NetFlow数据信息被采用了NAT策略的采集设备采集到,那么利用该采集设备采集到的NetFlow数据信息中的元组信息则会从A变为B,然而,若该NetFlow数据信息被本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种NetFlow数据去重方法,其特征在于,所述方法包括:获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。2.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重,包括:针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。3.根据权利要求1所述的方法,其特征在于,每个NetFlow数据信息中还包括:启动时间和结束时间;所述方法还包括:针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备;在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息;针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息重复。5.根据权利要求1-4中任一权项所述的方法,其特征在于,所述根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息,包括:针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,...
【专利技术属性】
技术研发人员:高璐,赵明,
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。