一种应用识别模型的生成方法及装置制造方法及图纸

技术编号:23318226 阅读:60 留言:0更新日期:2020-02-11 18:55
本申请实施例公开了一种应用识别模型的生成方法及装置,该方法包括:获取Y个数据包,Y个数据包对应P个应用,P个应用中的第i个应用对应M(i)个数据包,

A generating method and device of application recognition model

【技术实现步骤摘要】
一种应用识别模型的生成方法及装置
本申请实施例涉及通信
,更具体的说,涉及应用识别模型的生成方法及装置。
技术介绍
目前,主要采用端口检测技术来检测数据流量。端口检测技术可以通过检测流量的数据包中的端口号来识别该数据包对应的协议类型。为了实现端口检测技术,需要预先向互联网数字分配机构(internetassignednumbersauthority,IANA)注册端口号与协议类型的映射关系。然后,便可根据该映射关系来确定数据包对应的协议类型。例如,假设预先向IANA注册了端口号,例如21,与协议类型,例如文件传输协议(filetransferprotocol,FTP)的映射关系,网络设备便可确定含有端口号21的数据包对应的协议类型为FTP,即该数据包为FTP数据包。上述端口检测技术只能识别出数据包对应的协议类型,但是无法识别出数据包对应的应用软件,无法满足当今市场的需求。
技术实现思路
本申请提供一种应用识别模型的生成方法及装置,以确定数据包对应的应用。第一方面,本申请提供了一种应用识别模型的生成方法,本文档来自技高网...

【技术保护点】
1.一种应用识别模型的生成方法,其特征在于,所述方法包括:/n获取Y个数据包,所述Y个数据包对应P个应用,所述P个应用中的第i个应用对应M(i)个数据包,

【技术特征摘要】
1.一种应用识别模型的生成方法,其特征在于,所述方法包括:
获取Y个数据包,所述Y个数据包对应P个应用,所述P个应用中的第i个应用对应M(i)个数据包,
提取所述P个应用中每个应用的M(i)个数据包中的每个数据包的目标参数以得到M(i)个样本,所述目标参数用于指示所述第i个应用与提供所述第i个应用的服务器建立会话连接的信息;
根据所述P个应用中每个应用的M(i)个样本训练初始识别模型得到第一应用识别模型,所述第一应用识别模型用于根据一个数据包中的目标参数确定所述数据包对应的应用。


2.根据权利要求1所述的应用识别模型的生成方法,其特征在于,所述根据所述P个应用中每个应用的M(i)个样本训练初始识别模型得到第一应用识别模型后,所述方法还包括:
采集所述第i个应用对应的N(i)个数据包;
提取所述N(i)个数据包中的每个数据包的目标参数以得到N(i)个样本;
利用所述第一应用识别模型识别所述N(i)个样本以得到识别结果,所述识别结果指示I(i)个样本对应所述第i个应用,I(i)为正整数,I(i)小于或等于N;
确定I(i)与N(i)的比值是否大于第一阈值;
在I(i)与N(i)的比值大于所述第一阈值时,存储所述第一应用识别模型;
在I(i)与N(i)的比值小于所述第一阈值时,调整所述初始识别模型,根据所述P个应用中每个应用的M(i)个样本训练所述调整后的初始识别模型以生成第二应用识别模型,所述第二应用识别模型的识别准确率大于所述第一应用识别模型的识别准确率。


3.根据权利要求1或2所述的应用识别模型的生成方法,其特征在于,在提取所述P个应用中每个应用的M(i)个数据包中的每个数据包的目标参数以得到M(i)个样本后,所述方法还包括:
判断M(i)是否小于第二阈值;所述第二阈值用于确定是否需要为所述第i个应用添加新样本;
所述根据所述P个应用中每个应用的M(i)个样本训练初始识别模型得到第一应用识别模型包括:
在M(i)小于第二阈值时,获取第i个应用的待增加样本数X(i),X(i)为正整数;根据所述M(i)个样本生成所述第i个应用的X(i)个新增样本;根据所述P个应用中每个应用的M(i)个样本和X(i)个新增样本训练所述初始识别模型得到所述第一应用识别模型;或
在M(i)大于第二阈值时,根据所述P个应用中每个应用的M(i)个样本训练初始识别模型得到所述第一应用识别模型。


4.根据权利要求3所述的应用识别模型的生成方法,其特征在于,根据所述M(i)个样本生成所述第i个应用的X(i)个新增样本包括:
为所述M(i)个样本中的每个样本生成X(i)/M(i)个新增样本以得到所述X(i)个新增样本;
其中,为所述M(i)个样本中的每个样本生成X(i)/M(i)个新增样本包括:
将所述M(i)个样本中的每个样本作为参考样本;
在所述M(i)个样本中获取与所述参考样本的汉明距离最小的X(i)/M(i)个样本;
根据所述参考样本与所述X(i)/M(i)个样本生成所述参考样本对应的X(i)/M(i)个新增样本。


5.根据权利要求3或4所述的应用识别模型的生成方法,其特征在于,所述获取第i个应用的待增加样本数X(i)包括以下方式中的任意一种:
(a)获取预设的待增加样本数X(i);
(b)获取预设的第三阈值,计算所述第三阈值与M(i)的差值得到所述第i个应用的待增加样本数X(i),所述第三阈值指示生成应用识别模型的最小样本需求数;以及
(c)确定所述P个应用中每个应用的数据包的平均数量Y/P以及所述第i个应用的期望比值R(i);所述期望比值R(i)用于指示所述第i个应用的期望样本数E(i)与所述每个应用的数据包的平均数量Y/P的比值;
根据所述P个应用中每个应用的数据包的平均数量Y/P以及所述第i个应用的期望比值R(i)计算所述第i个应用的期望样本数E(i);
计算所述E(i)与M(i)的差值得到所述第i个应用的待增加样本数X(i)。


6.根据权利要求1所述的应用识别模型的生成方法,其特征在于,根据所述P个应用中每个应用的M(i)个样本训练初始识别模型得到第一应用识别模型以后,所述方法还包括:
获取目标数据包;
提取所述目标数据包中的目标参数;
利用所述第一应...

【专利技术属性】
技术研发人员:洪汉舒董峰宋伟杨庆平
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1