分布式流量去重统计方法、装置、设备及存储介质制造方法及图纸

技术编号:38509242 阅读:12 留言:0更新日期:2023-08-19 16:54
本公开实施例公开了一种分布式流量去重统计方法、装置、设备及存储介质。其中,该方法包括:获取若干个目标子节点基于分布式方式采集的目标流量数据;将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。该方法能够提高分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。性能。性能。

【技术实现步骤摘要】
分布式流量去重统计方法、装置、设备及存储介质


[0001]本公开涉及网络通信
,尤其涉及一种分布式流量去重统计方法、装置、设备及存储介质。

技术介绍

[0002]随着云计算技术发展和应用,网络流量统计可以广泛应用于网络管理规划、网络用户行为分析、基于网络流量的入侵检测等丰富的场景。网络流量采集系统通常采用分布式部署方式,从各个采集节点分别采集部分流量,再将所有流量融合分析。当一个网络数据包或网络会话途径两个及以上的采集节点时,这些流量会被重复采集,影响了流量统计的准确性。
[0003]目前相关技术的分布式采集环境的流量去重统计方法通常采用基于数据指纹摘要的流量去重方法,相关技术的流量去重统计方法需要消耗大量计算资源,占用较大网络带宽,去重统计的效率较低且要求较高的实时性,流量统计准确性较低,流量查询性能不足。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种分布式流量去重统计方法、装置、设备及存储介质,能够提高分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
[0005]第一方面,本公开实施例提供了一种分布式流量去重统计方法,采用如下技术方案:
[0006]获取若干个目标子节点基于分布式方式采集的目标流量数据;
[0007]将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;
[0008]基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;
[0009]采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。
[0010]在一些实施例中,将元数据写入所述目标流量数据,包括:
[0011]获取所述目标子节点采集到所述目标流量数据的若干个采集时间;
[0012]根据预设的固定时间间隔和起始时间点,将连续的所述若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;
[0013]获取所述目标子节点部署位置的设备IP地址得到所述目标子节点的IP地址;
[0014]根据预设IP地址和预设归属区域的映射关系表,获取所述目标子节点的IP地址所属的归属区域;
[0015]将采集时间、采集时间段、所述目标子节点的IP地址、所述目标子节点的IP地址所
属的归属区域中的至少之一写入所述目标流量数据。
[0016]在一些实施例中,基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果,包括:
[0017]获取所述目标流量数据的总字节数和总会话数;
[0018]基于所述目标流量数据的源IP地址和目的IP地址对所述总字节数和总会话数进行细粒度统计;或者,
[0019]基于所述目标流量数据的源IP地址和目的IP地址所属的归属区域对所述总字节数和总会话数进行中粒度统计;或者,
[0020]基于所述目标流量数据的源IP地址对所述总字节数和总会话数进行粗粒度统计得到相应的流量统计结果。
[0021]在一些实施例中,所述方法还包括:
[0022]将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址和目的IP地址作为分组聚合字段,对所述总字节数和总会话数进行细粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址之间的全部通信流量的字节数和会话数;或者,
[0023]将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址、所述目的IP地址所属的归属区域作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址所属的归属区域之间的全部通信流量的字节数和会话数;或者,
[0024]将所述目标子节点的IP地址、采集时间段和所述目标流量数据的源IP地址作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的全部通信流量的字节数和会话数。
[0025]在一些实施例中,采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据,包括:
[0026]对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据;
[0027]基于所述聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取所述目标子节点的采集时间段内不重复流量的字节数和会话数;
[0028]基于目标统计的目标采集时间段、目标IP地址范围、目标IP地址所属的归属区域,对每个目标子节点的采集时间段内的所述不重复流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数。
[0029]在一些实施例中,对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据,包括:
[0030]基于流量并行设备关系清单和所述目标子节点的IP地址,将所述流量并行设备关系清单中的流量并行设备组名称关联至所述目标流量数据;
[0031]将第一关键字段作为分组聚合字段,对源IP地址的并行采集流量的字节数和会话数进行聚合处理,得到聚合处理数据;
[0032]其中,流量并行设备关系清单包含的数据字段至少包括:所述目标子节点的IP地址、所述流量并行设备组名称;所述第一关键字段至少包括:源IP地址、流量并行设备组名
称和采集时间段。
[0033]在一些实施例中,基于所述聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取所述目标子节点的采集时间段内不重复流量的字节数和会话数,包括:
[0034]基于所述聚合处理数据,将第二关键字段作为分组聚合字段,对具有不同的流量并行设备组名称的所述目标子节点的采集流量的字节数和会话数计算最大值,获取所述目标子节点在采集时间段内不重复流量的字节数和会话数;
[0035]基于目标统计的目标采集时间段、目标IP地址范围、目标IP地址所属的归属区域,对所述目标子节点的采集时间段内的所述去重流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数。
[0036]第二方面,本公开实施例还提供了一种分布式流量去重统计装置,采用如下技术方案:
[0037]获取单元,被配置为获取若干个目标子节点基于分布式方式采集的目标流量数据;
[0038]元数据写入单元,被配置为将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;
[0039]统计单元,被配置为基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;
[0040]去重单元,被配置为采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。...

【技术保护点】

【技术特征摘要】
1.一种分布式流量去重统计方法,其特征在于,包括:获取若干个目标子节点基于分布式方式采集的目标流量数据;将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。2.根据权利要求1所述的分布式流量去重统计方法,其特征在于,将元数据写入所述目标流量数据,包括:获取所述目标子节点采集到所述目标流量数据的若干个采集时间;根据预设的固定时间间隔和起始时间点,将连续的所述若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;获取所述目标子节点部署位置的设备IP地址得到所述目标子节点的IP地址;根据预设IP地址和预设归属区域的映射关系表,获取所述目标子节点的IP地址所属的归属区域;将采集时间、采集时间段、所述目标子节点的IP地址、所述目标子节点的IP地址所属的归属区域中的至少之一写入所述目标流量数据。3.根据权利要求2所述的分布式流量去重统计方法,其特征在于,基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果,包括:获取所述目标流量数据的总字节数和总会话数;基于所述目标流量数据的源IP地址和目的IP地址对所述总字节数和总会话数进行细粒度统计;或者,基于所述目标流量数据的源IP地址和目的IP地址所属的归属区域对所述总字节数和总会话数进行中粒度统计;或者,基于所述目标流量数据的源IP地址对所述总字节数和总会话数进行粗粒度统计得到相应的流量统计结果。4.根据权利要求3所述的分布式流量去重统计方法,其特征在于,将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址和目的IP地址作为分组聚合字段,对所述总字节数和总会话数进行细粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址之间的全部通信流量的字节数和会话数;或者,将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址、所述目的IP地址所属的归属区域作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址所属的归属区域之间的全部通信流量的字节数和会话数;或者,将所述目标子节点的IP地址、采集时间段和所述目标流量数据的源IP地址作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的全部通信流量的字节数和会话数。
5.根据权利要求2所述的分布式流量去重统计方法,其特征在于,采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据,包括:对所述目标子节点在每一个采集时间段内...

【专利技术属性】
技术研发人员:邹凯陈凯枫张渊戚友李子阳韩日富
申请(专利权)人:广州天懋信息系统股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1