一种报文类别的确定、识别方法及装置制造方法及图纸

技术编号:28116504 阅读:31 留言:0更新日期:2021-04-19 11:14
本发明专利技术提供了一种报文类别的确定、识别方法及装置,确定方法包括对报文进行采样,得到采样数据;对采样数据进行自然语言处理,得到与报文所对应的向量,其中,每一个报文唯一对应一个向量;根据向量确定报文的报文类别,解决了相关技术中流量识别效率较低问题,达到提高流量识别效率的效果。高流量识别效率的效果。高流量识别效率的效果。

【技术实现步骤摘要】
一种报文类别的确定、识别方法及装置


[0001]本专利技术涉及通信领域,具体而言,涉及一种报文类别的确定、识别方法及装置。

技术介绍

[0002]移动运营商骨干网络是通过针对流量的检测识别来实现的流量计费、监控、安全控制等。当前常见的流量识别技术包括深度报文检测(Deep Packet Inspection,简称为DPI)方法。DPI通过检测L7层的报文结构特征,具备高精度的特点,该方法也是当前流量识别产品最常用的检测手段,但是该技术需要对要识别的应用或设备进行抓包,然后对获取到的数据包进行人工离线分析,提取出DPI所需的特征标记该应用,这种分析方式,对人的能力和经验依赖大,效率较低,无法在线提升流量的识别率,导致检测、识别效率较低。
[0003]针对相关技术中,流量识别效率较低的问题,目前尚未有合理的解决办法。

技术实现思路

[0004]本专利技术实施例提供了一种报文类别的确定、识别方法及装置,以至少解决相关技术中流量识别效率较低的问题。
[0005]根据本专利技术的一个实施例,提供了一种报文类别的确定方法,包括:
[0006]对报文进行采样,得到采样数据;
[0007]对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,其中,每一个所述报文唯一对应一个所述向量;
[0008]根据所述向量确定所述报文的报文类别。
[0009]可选地,对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,包括:
[0010]在所述采样数据包括报文负载的情况下,将所述报文负载进行分词处理,得到第一序列;
[0011]将所述第一序列映射为第一向量。
[0012]可选地,将所述报文负载进行分词处理,包括:
[0013]将所述报文负载中连续的高频字节转化为一个单一的序列元素,其中,所述高频字节为所述报文负载中,字节频率高于预设阈值的字节。
[0014]可选地,将所述第一序列映射为第一向量,包括:
[0015]将所述第一序列中的每个单词转换为词向量;
[0016]将所述第一序列所对应的所有词向量加权处理后得到所述第一向量。
[0017]可选地,将所述第一序列所对应的所有词向量加权处理后得到所述向量,包括:
[0018]在第一词向量所对应的第一单词的第一词频高于第二词向量所对应的第二单词的第二词频的情况下,所述第一词向量的第一权重高于所述第二词向量的第二权重,其中,所述第一单词和所述第二单词均为所述第一序列中的单词,所述第一词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第二词频用于指示所述第二单词在所述第一
序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合;和/或,
[0019]在第一词向量所对应的第一单词的第三词频高于所述第一单词的第四词频的情况下,提高所述第一词向量的第一权重,其中,所述第一单词为所述第一序列中的单词,所述第三词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第四词频用于指示所述第一单词在第二序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合,所述第二序列集合为与所述第一序列的来源不相同的多个序列的集合。
[0020]可选地,根据所述向量确定所述报文的报文类别,包括:
[0021]将所述向量进行聚类处理,得到聚类结果;
[0022]根据所述聚类结果确定所述报文的报文类别。
[0023]可选地,根据所述聚类结果确定所述报文的报文类别,包括:
[0024]根据所述报文的来源将所述聚类结果进行购物篮模式处理,得到项集;
[0025]对所述项集进行频繁项挖掘,得到频繁项集;
[0026]对所述频繁项集进行社区发现,确定所述报文的报文类别。
[0027]可选地,对报文进行采样,包括:
[0028]对所述报文进行过滤;
[0029]对过滤后所得到的过滤报文进行采样。
[0030]可选地,对报文进行采样,还包括:
[0031]对所述报文进行均匀分布采样。
[0032]可选地,所述方法还包括:
[0033]在得到与所述报文所对应的向量之后,存储所述向量;
[0034]对目标报文进行采样,得到采样数据;
[0035]对所述采样数据进行自然语言处理,得到与所述目标报文所对应的目标向量;
[0036]将所述目标向量与存储的所述向量进行匹配,根据匹配结果确定所述目标报文的报文类别。
[0037]可选地,将所述目标向量与存储的所述向量进行匹配,根据匹配结果确定所述目标报文的报文类别,包括:
[0038]确定所述目标向量与存储的所述向量的余弦相似性,得到相似性向量;
[0039]根据预先设定的相似性阈值确定所述目标向量所对应的目标报文类别,将所述目标报文类别确定为所述目标报文的报文类别。
[0040]根据本专利技术的另一个实施例,还提供了一种报文类别的识别方法,包括:
[0041]提取报文的报文特征;
[0042]将所述报文特征与第一对应关系中所包括的报文特征进行匹配,根据匹配结果确定所述报文所属的报文类别,其中,所述第一对应关系是通过以下方式确定的:
[0043]在利用如上述任一项中所述的报文类别的确定方法确定报文的类别之后,对归属于指定类别的报文进行特征提取,得到指定类别的报文的报文特征;关联所述指定类别的报文特征和所述指定类别,得到所述对应关系。
[0044]根据本专利技术的又一个实施例,还提供了一种报文类别的确定装置,包括:
[0045]采样模块,用于对报文进行采样,得到采样数据;
[0046]处理模块,用于,对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,其中,每一个所述报文唯一对应一个所述向量;
[0047]确定模块,用于根据所述向量确定所述报文的报文类别。
[0048]根据本专利技术的再一个实施例,还提供了一种报文类别的识别装置,包括:
[0049]提取模块,用于提取报文的报文特征;
[0050]确定模块,用于将所述报文特征与第一对应关系中所包括的报文特征进行匹配,根据匹配结果确定所述报文所属的报文类别,其中,所述第一对应关系是通过以下方式确定的:
[0051]在利用如上述任一项中所述的报文类别的确定方法确定报文的类别之后,对归属于指定类别的报文进行特征提取,得到指定类别的报文的报文特征;关联所述指定类别的报文特征和所述指定类别,得到所述对应关系。
[0052]根据本专利技术的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0053]根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种报文类别的确定方法,其特征在于,包括:对报文进行采样,得到采样数据;对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,其中,每一个所述报文唯一对应一个所述向量;根据所述向量确定所述报文的报文类别。2.根据权利要求1所述的方法,其特征在于,对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,包括:在所述采样数据包括报文负载的情况下,将所述报文负载进行分词处理,得到第一序列;将所述第一序列映射为第一向量。3.根据权利要求2所述的方法,其特征在于,将所述报文负载进行分词处理,包括:将所述报文负载中连续的高频字节转化为一个单一的序列元素,其中,所述高频字节为所述报文负载中,字节频率高于预设阈值的字节。4.根据权利要求2或3所述的方法,其特征在于,将所述第一序列映射为第一向量,包括:将所述第一序列中的每个单词转换为词向量;将所述第一序列所对应的所有词向量加权处理后得到所述第一向量。5.根据权利要求4所述的方法,其特征在于,将所述第一序列所对应的所有词向量加权处理后得到所述向量,包括:在第一词向量所对应的第一单词的第一词频高于第二词向量所对应的第二单词的第二词频的情况下,所述第一词向量的第一权重高于所述第二词向量的第二权重,其中,所述第一单词和所述第二单词均为所述第一序列中的单词,所述第一词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第二词频用于指示所述第二单词在所述第一序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合;和/或,在第一词向量所对应的第一单词的第三词频高于所述第一单词的第四词频的情况下,提高所述第一词向量的第一权重,其中,所述第一单词为所述第一序列中的单词,所述第三词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第四词频用于指示所述第一单词在第二序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合,所述第二序列集合为与所述第一序列的来源不相同的多个序列的集合。6.根据权利要求1所述的方法,其特征在于,根据所述向量确定所述报文的报文类别,包括:将所述向量进行聚类处理,得到聚类结果;根据所述聚类结果确定所述报文的报文类别。7.根据权利要求6所述的方法,其特征在于,根据所述聚类结果确定所述报文的报文类别,包括:根据所述报文的来源将所述聚类结果进行购物篮模式处理,得到项集;对所述项集进行频繁项挖掘,得到频繁项集;
对所述频繁项集进行社区发现,确定所述报文的报文类别。8.根据权利要求1所述的方法,其特征在于,对报文进行采样,包括:对所述报文进行过...

【专利技术属性】
技术研发人员:杨治国何鸿业
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1