【技术实现步骤摘要】
分布式流量去重统计方法、装置、设备及存储介质
[0001]本公开涉及网络通信
,尤其涉及一种分布式流量去重统计方法、装置、设备及存储介质。
技术介绍
[0002]随着云计算技术发展和应用,网络流量统计可以广泛应用于网络管理规划、网络用户行为分析、基于网络流量的入侵检测等丰富的场景。网络流量采集系统通常采用分布式部署方式,从各个采集节点分别采集部分流量,再将所有流量融合分析。当一个网络数据包或网络会话途径两个及以上的采集节点时,这些流量会被重复采集,影响了流量统计的准确性。
[0003]目前相关技术的分布式采集环境的流量去重统计方法通常采用基于数据指纹摘要的流量去重方法,相关技术的流量去重统计方法需要消耗大量计算资源,占用较大网络带宽,去重统计的效率较低且要求较高的实时性,流量统计准确性较低,流量查询性能不足。
技术实现思路
[0004]有鉴于此,本公开实施例提供了一种分布式流量去重统计方法、装置、设备及存储介质,能够提高分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
[0005]第一方面,本公开实施例提供了一种分布式流量去重统计方法,采用如下技术方案:
[0006]获取若干个目标子节点基于分布式方式采集的目标流量数据;
[0007]将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;
[0008]基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到
【技术保护点】
【技术特征摘要】
1.一种分布式流量去重统计方法,其特征在于,包括:获取若干个目标子节点基于分布式方式采集的目标流量数据;将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。2.根据权利要求1所述的分布式流量去重统计方法,其特征在于,将元数据写入所述目标流量数据,包括:获取所述目标子节点采集到所述目标流量数据的若干个采集时间;根据预设的固定时间间隔和起始时间点,将连续的所述若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;获取所述目标子节点部署位置的设备IP地址得到所述目标子节点的IP地址;根据预设IP地址和预设归属区域的映射关系表,获取所述目标子节点的IP地址所属的归属区域;将采集时间、采集时间段、所述目标子节点的IP地址、所述目标子节点的IP地址所属的归属区域中的至少之一写入所述目标流量数据。3.根据权利要求2所述的分布式流量去重统计方法,其特征在于,基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果,包括:获取所述目标流量数据的总字节数和总会话数;基于所述目标流量数据的源IP地址和目的IP地址对所述总字节数和总会话数进行细粒度统计;或者,基于所述目标流量数据的源IP地址和目的IP地址所属的归属区域对所述总字节数和总会话数进行中粒度统计;或者,基于所述目标流量数据的源IP地址对所述总字节数和总会话数进行粗粒度统计得到相应的流量统计结果。4.根据权利要求3所述的分布式流量去重统计方法,其特征在于,将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址和目的IP地址作为分组聚合字段,对所述总字节数和总会话数进行细粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址之间的全部通信流量的字节数和会话数;或者,将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址、所述目的IP地址所属的归属区域作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址所属的归属区域之间的全部通信流量的字节数和会话数;或者,将所述目标子节点的IP地址、采集时间段和所述目标流量数据的源IP地址作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的全部通信流量的字节数和会话数。
5.根据权利要求2所述的分布式流量去重统计方法,其特征在于,采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据,包括:对所述目标子节点在每一个采集时间段内...
【专利技术属性】
技术研发人员:邹凯,陈凯枫,张渊,戚友,李子阳,韩日富,
申请(专利权)人:广州天懋信息系统股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。