基于终端业务数据的业务类型的识别方法、系统和设备技术方案

技术编号:36609762 阅读:15 留言:0更新日期:2023-02-08 09:56
本申请涉及通信网络技术领域,公开了一种基于终端业务数据的业务类型的识别方法、系统和设备,能够在有效标签非常少的情况下准确识别终端当前的业务类型。该方法包括:获取终端的业务样本数据集;将样本数据集转换为图数据,构建表示图数据的节点间相似度的邻接矩阵,基于样本数据带有的属性特征构建特征矩阵和基于部分样本数据标记的业务类型标签构建标签矩阵;将标签矩阵和特征矩阵作为GCN模型的输入,利用GCN预先定义的层与层之间的传播公式基于邻接矩阵训练GCN模型;通过将训练好的GCN模型的输出与分类网络的输入连接得到识别模型;获取待识别的业务数据集,构建对应的特征矩阵,并将该特征矩阵输入识别模型得到识别的业务类型。别的业务类型。别的业务类型。

【技术实现步骤摘要】
基于终端业务数据的业务类型的识别方法、系统和设备


[0001]本申请涉及通信网络
,特别涉及基于终端业务数据的业务类型的自动识别技术。

技术介绍

[0002]随着信息技术的不断发展,互联网流量规模也在逐年增大,网络新业务层出不穷。伴随网络安全意识的提升,网络中包含了各种各样的加密流量,对网络的底层流量模型和上层应用模式产生了很大的冲击,如何准确识别各类应用业务的流量,提高网络管理、改善网络服务、保障网络环境安全已经成为一个巨大挑战。
[0003]传统的业务类型识别方法有基于端口的流量识别方法和基于深度包检测(DPI)的流量数据识别方法。但是,如今各种网络应用程序并未使用众所周知的端口来避免被检测到,而且某些网络应用程序在使用时可能使用动态端口号。因此,现在基于端口的流量数据分类精度不高。而基于深度包检测(DPI)的流量数据识别方法,本质上是一种数据报文过滤技术,DPI除了支持L2层数据链路层、L3层网络层、L4层传输层的报文首部解析之外,还增加了对L7层应用层有效载荷的解析,可以识别各种应用类型及其内容。但是由于目前大多数业务使用各种加密技术来禁止对包有效载荷进行检查,因此深度包检测(DPI)的分类精度也不是很高。
[0004]随着人工智能的快速发展,目前最常用的业务识别方法大多都是基于机器学习的,智能业务识别已经从传统的基于模型的业务方法转变为数据驱动的业务识别方法。基于机器学习的业务识别技术通过挖掘大量训练数据中的信息来学习业务之间的映射关系,然后根据这些映射关系建立业务识别模型,最后将训练好的模型应用于新的业务识别场景上上,以实现对业务类型的识别。然而,现有的业务类型识别解决方案大多使用机器学习中的有监督学习方法,这些方法大多依赖于海量数据集,并且要求数据集中的样本具有足够的标记信息。但是实际情况中,获取标记信息十分困难,标记样本往往非常耗时,进行人工类别标记的成本太高,而且历史数据集过少,获取成本也很昂贵。这些业务识别方法大多是基于有监督学习的微调和分类,大量未标记样本信息不能得到充分利用,未标记样本数据就被浪费了。

技术实现思路

[0005]本申请的目的在于提供一种基于终端业务数据的业务类型的识别方法、系统和设备,能够在有效标签非常少的情况下进行准确的业务识别。
[0006]本申请公开了一种基于终端业务数据的业务类型的识别方法,包括:
[0007]A获取终端的业务样本数据集,其中每个样本数据带有属性特征,部分样本数据标记有业务类型标签;
[0008]B将所述样本数据集转换为图数据,每个样本数据对应所述图数据的一个节点,构建表示所述图数据的节点间相似度的邻接矩阵,并且基于所带有的属性特征构建表示所述
样本数据集的属性特征信息的特征矩阵和基于所标记的业务类型标签构建表示所述样本数据集的标签信息的标签矩阵;
[0009]C将所述标签矩阵和所述特征矩阵作为图卷积神经网络(GCN)模型的输入,利用GCN预先定义的层与层之间的传播公式基于所述邻接矩阵,训练所述GCN模型;
[0010]D获取待识别的业务数据集,构建对应的特征矩阵,并将该特征矩阵输入识别模型,得到识别的业务类型,所述识别模型通过将已训练好的GCN模型的输出与一分类网络的输入连接得到。
[0011]在一个优选例中,所述业务类型包括以下的一者或多者:短消息通信业务、视频通信业务、视频浏览业务、图文浏览业务、邮件业务、下载业务、支付业务、直播业务;
[0012]所述属性特征包括以下的一者或多者:时间戳,源IP,目的IP,数据包的长度,中间协议,源端口号,目的端口号,标志位信息,数据包长度的最小值、最大值、方差,数据包到达的最大、最小、平均时间间隔。
[0013]在一个优选例中,所述分类网络为Softmax层或Sigmod层。
[0014]在一个优选例中,所述步骤B进一步包括以下子步骤:
[0015]基于所述图数据,计算各节点间的欧氏距离并进行归一化处理,根据归一化处理结果构建所述邻接矩阵;
[0016]将所述样本数据集的属性特征信息表示为特征矩阵形式,所述特征矩阵中的每个行向量分别对应于一个样本数据的属性特征;
[0017]将所述样本数据集的标签信息表示为标签矩阵形式,所述标签矩阵中已标记标签的样本数据的标签信息使用独热编码的行向量来表示,每个行向量对应于一种业务类型,未标记标签的样本数据的标签信息对应的行向量则为零向量。
[0018]在一个优选例中,所述传播公式为:其中H
(l)
表示第l层的输出,表示加了自环的邻接矩阵,表示关于的度矩阵,σ表示激活函数,W
(l)
表示第l层包含的可训练权重矩阵。
[0019]在一个优选例中,所述步骤C之前,还包括以下步骤:
[0020]构建所述GCN模型,所述GCN模型的图卷积层层数为2,dropout层概率为0.75或者0.5,滤波器矩阵的大小根据前一层卷积层的大小和属性特征信息的降维处理结果确定。
[0021]在一个优选例中,所述步骤B之前还包括以下步骤:
[0022]利用XGBoost算法的特征重要性排序功能对所述属性特征进行降维处理,从所有属性特征中选取使准确率最高的至少一个属性特征作为降维后的每个样本数据带有的属性特征。
[0023]在一个优选例中,所述业务样本数据集和所述待识别的业务数据集通过数据抓取单元自动抓取,所述数据抓取单元包括服务器、交换机、第一和第二服务端、第一和第二路由器;
[0024]第一服务端通过所述交换机与基站连接以控制该基站开启使终端接入;
[0025]所述服务器连接到通过第二路由器与互联网连接的核心网EPC;
[0026]所述第二服务端通过第一路由器与所述服务器连接,通过所述第二服务端远程登录所述服务器,将数据自动抓取脚本传入指定文件夹,通过expect工具与该脚本进行所述
服务器与所述第二服务端之间文件的免密传输,以实现自动抓取接入所述基站的终端的业务数据。
[0027]本申请还公开了一种基于终端业务数据的业务类型的识别系统,包括:
[0028]数据获取单元,被配置为获取终端的业务样本数据集,其中每个样本数据带有属性特征,部分样本数据标记有业务类型标签;
[0029]矩阵构建单元,被配置为将所述样本数据集转换为图数据,每个样本数据对应所述图数据的一个节点,构建表示所述图数据的节点间相似度的邻接矩阵,并且基于所带有的属性特征构建表示所述样本数据集的属性特征信息的特征矩阵和基于所标记的业务类型标签构建表示所述样本数据集的标签信息的标签矩阵;
[0030]模型训练单元,被配置为将所述标签矩阵和所述特征矩阵作为GCN模型的输入,利用GCN预先定义的层与层之间的传播公式基于所述邻接矩阵,训练所述GCN模型;
[0031]识别单元,其配置有识别模块,所述识别模块包含已训练好的GCN模型和输入与所述已训练好的GCN模型的输出连接的分类网络,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于终端业务数据的业务类型的识别方法,其特征在于,包括:A获取终端的业务样本数据集,其中每个样本数据带有属性特征,部分样本数据标记有业务类型标签;B将所述样本数据集转换为图数据,每个样本数据对应所述图数据的一个节点,构建表示所述图数据的节点间相似度的邻接矩阵,并且基于所带有的属性特征构建表示所述样本数据集的属性特征信息的特征矩阵和基于所标记的业务类型标签构建表示所述样本数据集的标签信息的标签矩阵;C将所述标签矩阵和所述特征矩阵作为GCN模型的输入,利用GCN预先定义的层与层之间的传播公式基于所述邻接矩阵,训练所述GCN模型;D获取待识别的业务数据集,构建对应的特征矩阵,并将该特征矩阵输入识别模型,得到识别的业务类型,所述识别模型通过将已训练好的GCN模型的输出与一分类网络的输入连接得到。2.如权利要求1所述的方法,其特征在于,所述业务类型包括以下的一者或多者:短消息通信业务、视频通信业务、视频浏览业务、图文浏览业务、邮件业务、下载业务、支付业务、直播业务;所述属性特征包括以下的一者或多者:时间戳,源IP,目的IP,数据包的长度,中间协议,源端口号,目的端口号,标志位信息,数据包长度的最小值、最大值、方差,数据包到达的最大、最小、平均时间间隔。3.如权利要求1所述的方法,其特征在于,所述分类网络为Softmax层或Sigmod层。4.如权利要求1所述的方法,其特征在于,所述步骤B进一步包括以下子步骤:基于所述图数据,计算各节点间的欧氏距离并进行归一化处理,根据归一化处理结果构建所述邻接矩阵;将所述样本数据集的属性特征信息表示为特征矩阵形式,所述特征矩阵中的每个行向量分别对应于一个样本数据的属性特征;将所述样本数据集的标签信息表示为标签矩阵形式,所述标签矩阵中已标记标签的样本数据的标签信息使用独热编码的行向量来表示,每个行向量对应于一种业务类型,未标记标签的样本数据的标签信息对应的行向量则为零向量。5.如权利要求1所述的方法,其特征在于,所述传播公式为:其中H
(l)
表示第l层的输出,表示加了自环的邻接矩阵,表示关于的度矩阵,σ表示激活函数,W
(l)
表示第l层包含的可训练权重矩阵。6.如权利要求1所述的方法,其特征在于,所述步骤C之前,还包括以下步骤:构建所述GCN模型,该GCN模型的图卷积层层数为2,dropout层概率为0.75或者0.5,滤波器矩阵的大小根据前一层卷积层的大小和属性特征信息的降维处理结果确定。7.如权利要求1所述的方法,其特征在于,所述步骤B之前还包括以下步骤:利用XGBoost算法的特征重要性排序功能对所述属性特征进行降维处理,从所有属性特征中选取使准确率最高的至少一个属性特征作为降维后的每个样本数据带有的属性特征。8.如权利要求1

7中任意一项所述的方法,其特征在于,所述业务样本数据集和所述待
识别的业务数据集通过数据抓取单元自动从终端抓取,所述数据抓取单元包括服务器、交换机、第一和第二服务端、第一和第二路由器;第一服务端通过所述交换机与基站连接以控制该基站开启使终端接入;所述服务器连接到通过第二路由器与互联网连接的核心网EPC;所述第...

【专利技术属性】
技术研发人员:朱晓荣关其峰吴知航
申请(专利权)人:南京星航通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1