【技术实现步骤摘要】
一种报文类别的确定、识别方法及装置
[0001]本专利技术涉及通信领域,具体而言,涉及一种报文类别的确定、识别方法及装置。
技术介绍
[0002]移动运营商骨干网络是通过针对流量的检测识别来实现的流量计费、监控、安全控制等。当前常见的流量识别技术包括深度报文检测(Deep Packet Inspection,简称为DPI)方法。DPI通过检测L7层的报文结构特征,具备高精度的特点,该方法也是当前流量识别产品最常用的检测手段,但是该技术需要对要识别的应用或设备进行抓包,然后对获取到的数据包进行人工离线分析,提取出DPI所需的特征标记该应用,这种分析方式,对人的能力和经验依赖大,效率较低,无法在线提升流量的识别率,导致检测、识别效率较低。
[0003]针对相关技术中,流量识别效率较低的问题,目前尚未有合理的解决办法。
技术实现思路
[0004]本专利技术实施例提供了一种报文类别的确定、识别方法及装置,以至少解决相关技术中流量识别效率较低的问题。
[0005]根据本专利技术的一个实施例,提供了一种报文类别的确定方法,包括:
[0006]对报文进行采样,得到采样数据;
[0007]对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,其中,每一个所述报文唯一对应一个所述向量;
[0008]根据所述向量确定所述报文的报文类别。
[0009]可选地,对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,包括:
[0010]在所述采样数据包括报文负 ...
【技术保护点】
【技术特征摘要】
1.一种报文类别的确定方法,其特征在于,包括:对报文进行采样,得到采样数据;对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,其中,每一个所述报文唯一对应一个所述向量;根据所述向量确定所述报文的报文类别。2.根据权利要求1所述的方法,其特征在于,对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,包括:在所述采样数据包括报文负载的情况下,将所述报文负载进行分词处理,得到第一序列;将所述第一序列映射为第一向量。3.根据权利要求2所述的方法,其特征在于,将所述报文负载进行分词处理,包括:将所述报文负载中连续的高频字节转化为一个单一的序列元素,其中,所述高频字节为所述报文负载中,字节频率高于预设阈值的字节。4.根据权利要求2或3所述的方法,其特征在于,将所述第一序列映射为第一向量,包括:将所述第一序列中的每个单词转换为词向量;将所述第一序列所对应的所有词向量加权处理后得到所述第一向量。5.根据权利要求4所述的方法,其特征在于,将所述第一序列所对应的所有词向量加权处理后得到所述向量,包括:在第一词向量所对应的第一单词的第一词频高于第二词向量所对应的第二单词的第二词频的情况下,所述第一词向量的第一权重高于所述第二词向量的第二权重,其中,所述第一单词和所述第二单词均为所述第一序列中的单词,所述第一词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第二词频用于指示所述第二单词在所述第一序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合;和/或,在第一词向量所对应的第一单词的第三词频高于所述第一单词的第四词频的情况下,提高所述第一词向量的第一权重,其中,所述第一单词为所述第一序列中的单词,所述第三词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第四词频用于指示所述第一单词在第二序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合,所述第二序列集合为与所述第一序列的来源不相同的多个序列的集合。6.根据权利要求1所述的方法,其特征在于,根据所述向量确定所述报文的报文类别,包括:将所述向量进行聚类处理,得到聚类结果;根据所述聚类结果确定所述报文的报文类别。7.根据权利要求6所述的方法,其特征在于,根据所述聚类结果确定所述报文的报文类别,包括:根据所述报文的来源将所述聚类结果进行购物篮模式处理,得到项集;对所述项集进行频繁项挖掘,得到频繁项集;
对所述频繁项集进行社区发现,确定所述报文的报文类别。8.根据权利要求1所述的方法,其特征在于,对报文进行采样,包括:对所述报文进行过...
【专利技术属性】
技术研发人员:杨治国,何鸿业,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。