一种流量数据的类别识别方法及装置制造方法及图纸

技术编号:32340863 阅读:14 留言:0更新日期:2022-02-16 18:49
本申请实施例提供一种流量数据的类别识别方法及装置,涉及数据处理与识别领域,该流量数据的类别识别方法包括:获取待测的流量数据;对流量数据进行预处理,得到预处理数据;通过联合直方图对预处理数据进行特征提取,得到流量特征;通过预设的分类器对流量特征进行分类识别,得到流量类别。可见,实施这种实施方式,能够进行实时的分类,并通过联合直方图获取到多个角度的关联流量特征,从而能够提高分类的准确;另外,因为无须提取数据包的内容特征,所以该方法还能够对加密流量进行数据分类。类。类。

【技术实现步骤摘要】
一种流量数据的类别识别方法及装置


[0001]本申请涉及数据处理与识别领域,具体而言,涉及一种流量数据的类别识别方法及装置。

技术介绍

[0002]近年来,利用网络流量的统计特征和机器学习算法进行流量分类的技术受到众多研究人员的关注。然而,在实践中发现,流量的统计特征可以是一条流的字节数、包个数、持续时间等的最大值、最小值、平均值和方差,由于需要统计一条流所有数据的特征,因此只能待连接结束后才能进行分类,从而导致其无法实现实时的分类。

技术实现思路

[0003]本申请实施例的目的在于提供一种流量数据的类别识别方法及装置,能够实现实时的分类。
[0004]本申请实施例第一方面提供了一种流量数据的类别识别方法,包括:
[0005]获取待测的流量数据;
[0006]对所述流量数据进行预处理,得到预处理数据;
[0007]通过联合直方图对所述预处理数据进行特征提取,得到流量特征;
[0008]通过预设的分类器对所述流量特征进行分类识别,得到流量类别。
[0009]在上述实现过程中,该方法可以优先获取获取待测的流量数据;然后对流量数据进行预处理,得到预处理数据;再通过联合直方图对预处理数据进行特征提取,得到流量特征;最后再通过预设的分类器对流量特征进行分类识别,得到流量类别。可见,实施这种实施方式,能够进行实时的分类,并通过联合直方图获取到多个角度的关联流量特征,从而能够提高分类的准确;另外,因为无须提取数据包的内容特征,所以该方法还能够对加密流量进行数据分类。<br/>[0010]进一步地,所述获取待测的流量数据的步骤包括:
[0011]在预设时间段内,获取发往同一目的地址的待测的流量数据。
[0012]进一步地,所述对所述流量数据进行预处理,得到预处理数据的步骤包括:
[0013]对所述流量数据进行清洗处理,得到有效数据;
[0014]获取与所述有效数据相匹配的上下行字节数比例、上下行包个数比例、连接持续时间以及与同一目的地址最近连接的时间间隔;
[0015]将所述上下行字节数比例、所述上下行包个数比例、所述连接持续时间以及所述时间间隔,确定为预处理数据。
[0016]进一步地,所述通过联合直方图对所述预处理数据进行特征提取,得到流量特征的步骤包括:
[0017]通过联合直方图对所述上下行字节数比例、所述上下行包个数比例、所述连接持续时间以及所述时间间隔进行特征提取,得到初步特征;
[0018]根据预设算法对所述初步特征进行降维处理,得到流量特征。
[0019]进一步地,所述通过预设的分类器对所述流量特征进行分类识别,得到流量类别的步骤包括:
[0020]通过随机森林分类器或GBDT分类器对所述流量特征进行分类识别,得到流量类别。
[0021]本申请实施例第二方面提供了一种流量数据的类别识别装置,所述流量数据的类别识别装置包括:
[0022]获取单元,用于获取待测的流量数据;
[0023]预处理单元,用于对所述流量数据进行预处理,得到预处理数据;
[0024]提取单元,用于通过联合直方图对所述预处理数据进行特征提取,得到流量特征;
[0025]识别单元,用于通过预设的分类器对所述流量特征进行分类识别,得到流量类别。
[0026]在上述实现过程中,该流量数据的类别识别装置能够先对获取到的流量数据进行预处理,然后再通过联合直方图对预处理后的数据进行特征提取,得到多角度的具有关联性的流量特征,并基于该流量特征进行分类识别,得到准确的流量类别。可见,实施这种实施方式,能够通过流量数据的类别识别装置实现流量分类的一体化和自动化,从而提高数据分类的精度和适应能力。
[0027]进一步地,所述获取单元具体用于在预设时间段内,获取发往同一目的地址的待测的流量数据。
[0028]进一步地,所述预处理单元包括:
[0029]清洗子单元,用于对所述流量数据进行清洗处理,得到有效数据;
[0030]获取子单元,用于获取与所述有效数据相匹配的上下行字节数比例、上下行包个数比例、连接持续时间以及与同一目的地址最近连接的时间间隔;
[0031]确定子单元,用于将所述上下行字节数比例、所述上下行包个数比例、所述连接持续时间以及所述时间间隔,确定为预处理数据。
[0032]本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的流量数据的类别识别方法。
[0033]本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的流量数据的类别识别方法。
附图说明
[0034]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0035]图1为本申请实施例提供的一种流量数据的类别识别方法的流程示意图;
[0036]图2为本申请实施例提供的一种流量数据的类别识别装置的结构示意图。
具体实施方式
[0037]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0038]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0039]实施例1
[0040]请参看图1,图1为本申请实施例提供了一种流量数据的类别识别方法的流程示意图。其中,该流量数据的类别识别方法包括:
[0041]S101、在预设时间段内,获取发往同一目的地址的待测的流量数据。
[0042]本实施例中,流量数据的类型包括:即时通讯数据、文件传输数据、流媒体数据、邮件等。
[0043]在本实施例中,流量数据携带有流量类型的标记或标签。
[0044]本实施例中,该方法可以收集3分钟、5分钟、10分钟内的流量数据。
[0045]在本实施例中,该方法可以对于每个类别的流量只收集其指定时间段内的流量。
[0046]S102、对流量数据进行清洗处理,得到有效数据。
[0047]本实施例中,该方法可以优先删除无效数据(无效数据包括不包含负载的流、只有单个方向的流等)。
[0048]S103、获取与有效数据相匹配的上下行字节数比例、上下行包个数比例、连接持续时间以及与同一目的地址最近连接的时间间隔。
[0049]本实施例中,该方法可以统计指定时间段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流量数据的类别识别方法,其特征在于,所述方法包括:获取待测的流量数据;对所述流量数据进行预处理,得到预处理数据;通过联合直方图对所述预处理数据进行特征提取,得到流量特征;通过预设的分类器对所述流量特征进行分类识别,得到流量类别。2.根据权利要求1所述的流量数据的类别识别方法,其特征在于,所述获取待测的流量数据的步骤包括:在预设时间段内,获取发往同一目的地址的待测的流量数据。3.根据权利要求1所述的流量数据的类别识别方法,其特征在于,所述对所述流量数据进行预处理,得到预处理数据的步骤包括:对所述流量数据进行清洗处理,得到有效数据;获取与所述有效数据相匹配的上下行字节数比例、上下行包个数比例、连接持续时间以及与同一目的地址最近连接的时间间隔;将所述上下行字节数比例、所述上下行包个数比例、所述连接持续时间以及所述时间间隔,确定为预处理数据。4.根据权利要求3所述的流量数据的类别识别方法,其特征在于,所述通过联合直方图对所述预处理数据进行特征提取,得到流量特征的步骤包括:通过联合直方图对所述上下行字节数比例、所述上下行包个数比例、所述连接持续时间以及所述时间间隔进行特征提取,得到初步特征;根据预设算法对所述初步特征进行降维处理,得到流量特征。5.根据权利要求1所述的流量数据的类别识别方法,其特征在于,所述通过预设的分类器对所述流量特征进行分类识别,得到流量类别的步骤包括:通过随机森林分类器或GBDT分类器对所述流量特征进行...

【专利技术属性】
技术研发人员:张新
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1