数据包的识别方法及装置制造方法及图纸

技术编号:32962583 阅读:15 留言:0更新日期:2022-04-09 10:55
本申请公开了数据包的识别方法及装置,涉及人工智能领域,可以在出现新增应用的情况下,基于被标注过的新增应用生成的数据包进行模型训练,计算量小,并且训练时间短。该方法包括:获取第一目标模型,第一目标模型用于提取第一数据包的第一特征信息,确定第一数据包对应的第一应用集合中的第一应用;在满足触发条件的情况下,获取第二目标模型,第二目标模型用于提取第二数据包的第二特征信息,确定第二数据包对应的第二应用集合中的第二应用;获取第三数据包,根据第一目标模型和第二目标模型,确定第三数据包对应的第一应用或第二应用。用。用。

【技术实现步骤摘要】
数据包的识别方法及装置


[0001]本申请涉及人工智能领域,尤其涉及数据包的识别方法及装置。

技术介绍

[0002]随着互联网的高速发展,互联网应用(Application,APP)也越来越多,例如,随着互联网的高速发展,互联网应用(Application,APP)也越来越多,例如,和等等。这些应用在运行时会生成数据包,不同应用生成的数据包对网络的需求有可能不同。为了实现对不同应用生成的数据包进行差异化管理,首先需要识别每个数据包是哪个应用生成的。
[0003]目前,能够通过深度学习的方法识别数据包。例如,数据包的识别装置能够通过如下方法识别已存在的应用生成的数据包:数据包的识别装置会获取大量被标注过的数据包,该数据包为已存在的应用生成的数据包;数据包的识别装置会识别每个数据包的特征信息,例如,数据包对应的应用的关键字;数据包的识别装置会根据识别出的每个数据包的特征信息反复训练模型,并通过训练好的模型识别新接收到的已存在的应用生成的数据包。
[0004]在互联网的发展过程中,除了已存在的应用之外,还会出现新增应用。在这种情况下,上述数据包的识别装置无法识别新增应用生成的数据包。因此,数据包的识别装置会再次基于大量被标注过的数据包进行模型训练,使得训练后的模型能够识别出已存在的应用生成的数据包和新增应用生成的数据包。这一过程不仅计算量大,而且训练时间长。另外,若新增应用频繁出现,则数据包的识别装置就需要频繁地执行上述过程,数据开销与计算开销较大。

技术实现思路

[0005]本申请提供数据包的识别方法及装置,可以在出现新增应用的情况下,基于被标注过的新增应用生成的数据包进行模型训练,计算量小,并且训练时间短。
[0006]为达到上述目的,本申请的实施例采用如下技术方案:
[0007]第一方面,本申请实施例提供一种数据包的识别方法,该方法包括:第一设备获取第一目标模型,第一目标模型用于提取第一数据包的第一特征信息,确定第一数据包对应的第一应用集合中的第一应用;在满足触发条件的情况下,第一设备获取第二目标模型,第二目标模型用于提取第二数据包的第二特征信息,确定第二数据包对应的第二应用集合中的第二应用,第一应用集合中的第一应用与第二应用集合中的第二应用不同;第一设备获取第三数据包,根据第一目标模型和第二目标模型,确定第三数据包对应的第一应用或第二应用。
[0008]上述第一方面提供的方法,在使用第一目标模型后出现新增应用(新增应用即为第二应用集合中的应用)的情况下,第一设备不需要根据被标注过的第一应用的数据包和第二应用的数据包进行模型训练,得到一个既能够识别第一应用集合中的应用的数据包,又能够识别第二应用集合中的应用的数据包的模型。而第一设备可以根据被标注过的第二
应用的数据包进行模型训练,以得到第二目标模型,后续,根据第一目标模型和第二目标模型识别第一应用集合中的应用的数据包,或第二应用集合中的应用的数据包。因为被标注过的第二应用的数据包的数量要远远小于被标注过的第一应用的数据包和第二应用的数据包的数量,所以第一方面提供的方法中,第一设备的计算量小,而且训练时间短。另外,在第一方面提供的方法中,在出现新增应用的情况下,第一设备采用的是被标注过的第二应用的数据包进行模型训练,因此可以释放被标注过的第一应用的数据包,降低了数据存储的成本。
[0009]一种可能的实现方式,第一设备获取第二目标模型,包括:第一设备接收来自服务器的第一初始模型的信息和第二应用集合包含的第二应用的列表,第一初始模型是根据第二应用集合中应用的个数确定的,第二应用的列表用于指示第二应用集合中的第二应用与第一初始模型的输出端的对应关系;第一设备根据第一设备获得的已标注的第二应用的数据包训练第一初始模型,以得到第一中间模型;第一设备向服务器发送第一中间模型的信息;第一设备接收来自服务器的第二目标模型的信息,第二目标模型的信息是将来自多个第一设备的中间模型的信息进行聚合得到的;第一设备根据第二目标模型的信息和第一初始模型得到第二目标模型。基于上述方法,参与模型训练的设备,例如第一设备,可以接收来自服务器的第一初始模型的信息和第二应用集合包含的第二应用的列表,根据已标注的第二应用的数据包训练第一初始模型,得到第一中间模型,并向服务器发送第一中间模型的信息,以便服务器将来自多个第一设备的中间模型的信息进行聚合,得到第二目标模型的信息。后续,第一设备可以接收来自服务器的第二目标模型的信息,并根据第二目标模型的信息和第一初始模型,得到第二目标模型。一方面,参与模型训练的设备都可以得到最终能够识别第二应用集合中应用的数据包的模型。另一方面,上述方法中,服务器不需要进行模型训练,而是将模型训练的过程下放给参与模型训练的设备,每个参与模型训练的设备在训练模型时使用的已标注数据包的数量也小于服务器训练模型时使用的已标注数据包的数量,对于这些设备来说,计算量也不大,还可以节约模型训练的时间。
[0010]一种可能的实现方式,第一设备获取第二目标模型,还包括:第一设备获取第二应用的数据包;第一设备向服务器发送第二应用的数据包;第一设备接收来自服务器的已标注的第二应用的数据包。基于上述方法,第一设备可以将第二应用的数据包发送给服务器,方便服务器对该数据包进行标注。
[0011]一种可能的实现方式,触发条件为第二应用集合中应用的个数大于或等于第一阈值;或者,触发条件为第二应用集合中应用的数据包的个数大于或等于第二阈值;或者,触发条件为第二应用集合中应用的个数大于或等于第一阈值,并且第二应用集合中应用的数据包的数量大于或等于第二阈值。基于上述方法,在新增应用的数量达到第一阈值的情况下,或者,在不能识别的数据包的个数大于第二阈值的情况下,或者,在新增应用的数量达到第一阈值,并且不能识别的数据包的个数大于第二阈值的情况下,可以触发第一设备获取第二目标模型。如此,一方面可以避免第一设备频繁获取第二目标模型,导致第一设备的计算开销过大。另一方面可以避免第一设备长时间不获取第二目标模型,导致产生大量的未识别的数据包,影响业务的使用。
[0012]一种可能的实现方式,第一设备根据第一目标模型和第二目标模型,确定第三数据包对应的第一应用或第二应用,包括:第一设备根据第一目标模型,获取第三数据包的第
一输出熵,第一输出熵用于指示第三数据包对应的应用为第一目标模型预测的应用的概率;第一设备根据第二目标模型,获取第三数据包的第二输出熵,第二输出熵用于指示第三数据包对应的应用为第二目标模型预测的应用的概率;第一设备将第一输出熵和第二输出熵中,数值低的输出熵对应的目标模型预测的应用确定为第三数据包对应的应用。基于上述方法,第一设备可以根据第一输出熵和第二输出熵确定第三数据包对应的应用,从而实现了将第一目标模型和第二目标模型结合起来识别应用。如此,在出现新增应用的情况下,第一设备不需要根据被标注过的第一应用的数据包和第二应用的数据包进行模型训练,得到一个既能够识别第一应用集合中的应用的数据包,又能够识别第二应用集合中的应用的数据包的模型。...

【技术保护点】

【技术特征摘要】
1.一种数据包的识别方法,其特征在于,所述方法包括:第一设备获取第一目标模型,所述第一目标模型用于提取第一数据包的第一特征信息,确定所述第一数据包对应的第一应用集合中的第一应用;在满足触发条件的情况下,所述第一设备获取第二目标模型,所述第二目标模型用于提取第二数据包的第二特征信息,确定所述第二数据包对应的第二应用集合中的第二应用,所述第一应用集合中的第一应用与所述第二应用集合中的第二应用不同;所述第一设备获取第三数据包,根据所述第一目标模型和所述第二目标模型,确定所述第三数据包对应的所述第一应用或所述第二应用。2.根据权利要求1所述的方法,其特征在于,所述第一设备获取第二目标模型,包括:所述第一设备接收来自服务器的第一初始模型的信息和所述第二应用集合包含的第二应用的列表,所述第一初始模型是根据所述第二应用集合中应用的个数确定的,所述第二应用的列表用于指示所述第二应用集合中的第二应用与所述第一初始模型的输出端的对应关系;所述第一设备根据所述第一设备获得的已标注的第二应用的数据包训练所述第一初始模型,以得到第一中间模型;所述第一设备向所述服务器发送所述第一中间模型的信息;所述第一设备接收来自所述服务器的所述第二目标模型的信息,所述第二目标模型的信息是将来自多个第一设备的中间模型的信息进行聚合得到的;所述第一设备根据所述第二目标模型的信息和所述第一初始模型得到所述第二目标模型。3.根据权利要求2所述的方法,其特征在于,所述第一设备获取第二目标模型,还包括:所述第一设备获取所述第二应用的数据包;所述第一设备向所述服务器发送所述第二应用的数据包;所述第一设备接收来自所述服务器的所述已标注的第二应用的数据包。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述触发条件为所述第二应用集合中应用的个数大于或等于第一阈值;或者,所述触发条件为所述第二应用集合中应用的数据包的个数大于或等于第二阈值;或者,所述触发条件为所述第二应用集合中应用的个数大于或等于第一阈值,并且所述第二应用集合中应用的数据包的数量大于或等于第二阈值。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述第一设备根据所述第一目标模型和所述第二目标模型,确定所述第三数据包对应的所述第一应用或所述第二应用,包括:所述第一设备根据所述第一目标模型,获取所述第三数据包的第一输出熵,所述第一输出熵用于指示所述第三数据包对应的应用为所述第一目标模型预测的应用的概率;所述第一设备根据所述第二目标模型,获取所述第三数据包的第二输出熵,所述第二输出熵用于指示所述第三数据包对应的应用为所述第二目标模型预测的应用的概率;所述第一设备将所述第一输出熵和所述第二输出熵中,数值低的输出熵对应的目标模型预测的应用确定为所述第三数据包对应的应用。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:所述第一设备获取第二初始模型,所述第二初始模型是根据所述第一应用集合中应用的个数与所述第二应用集合中应用的个数确定的;所述第一设备根据所述第一目标模型和所述第二目标模型对所述第一设备获得的数据包的标注结果,训练所述第二初始模型以得到第三目标模型,所述第三目标模型用于提取第三特征信息,并根据所述第三特征信息确定所述第三特征信息对应的数据包对应的应用,所述第三特征信息包括所述第三特征信息对应的数据包的特征信息,所述第三特征信息对应的数据包为所述第一应用集合中应用的数据包,或所述第二应用集合中应用的数据包。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:所述第一设备根据获取所述第一目标模型时使用的已标注的数据包,和/或,获取所述第二目标模型时使用的已标注的数据包,训练所述第三目标模型,得到训练后的第三目标模型。8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:所述第一设备接收来自服务器的指示信息,所述指示信息用于指示所述第一设备重新训练用于识别所述第一应用的数据包和所述第二应用的数据包的第四目标模型。9.一种数据包的识别方法,其特征在于,所述方法包括:服务器获取第一目标模型的信息,所述第一目标模型用于提取第一数据包的第一特征信息,确定所述第一数据包对应的第一应用集合中的第一应用;所述服务器向第一设备发送所述第一目标模型的信息;在满足触发条件的情况下,所述服务器获取第二目标模型的信息,所述第二目标模型用于提取第二数据包的第二特征信息,确定所述第二数据包对应的第二应用集合中的第二应用,所述第一应用集合中的第一应用与所述第二应用集合中的第二应用不同;所述服务器向所述第一设备发送所述第二目标模型的信息。10.根据权利要求9所述的方法,其特征在于,所述服务器获取第二目标模型的信息,包括:所述服务器向所述第一设备发送第一初始模型的信息和所述第二应用集合包含的第二应用的列表,所述第一初始模型是根据所述第二应用集合中应用的个数确定的,所述第二应用的列表用于指示所述第二应用集合中的第二应用与所述第一初始模型的输出端的对应关系;所述服务器接收来自所述第一设备的第一中间模型的信息,所述第一中间模型是所述第一设备根据所述第一设备获得的已标注的第二应用的数据包对所述第一初始模型进行训练得到的;所述服务器向第二设备发送所述第一初始模型的信息和所述第二应用的列表;所述服务器接收来自所述第二设备的第二中间模型的信息,所述第二中间模型是所述第二设备根据所述第二设备获得的已标注的第二应用的数据包对所述第一初始模型进行训练得到的;所述服务器将所述第一中间模型的信息和所述第二中间模型的信息聚合,以得到所述第二目标模型的信息。
11.根据权利要求10所述的方法,其特征在于,所述服务器获取第二目标模型的信息,还包括:所述服务器接收来自所述第一设备的所述第二应用的数据包;所述服务器根据所述第二应用的数据包,获取所述已标注的第二应用的数据包;所述服务器向所述第一设备发送所述已标注的第二应用的数据包。12.根据权利要求9-11中任一项所述的方法,其特征在于,所述触发条件为所述第二应用集合中应用的个数大于或等于第一阈值;或者,所述触发条件为所述第二应用集合中应用的数据包的个数大于或等于第二阈值;或者,所述触发条件为所述第二应用集合中应用的个数大于或等于第一阈值,并且所述第二应用集合中应用的数据包的数量大于或等于第二阈值。13.根据权利要求9-12中任一项所述的方法,其特征在于,所述方法还包括:若所述第一目标模型和所述第二目标模型识别数据包的正确率小于或等于第三阈值,所述服务器向所述第一设备发送指示信息,所述指示信息用于指示所述第一设备重新训练用于识别所述第一应用的数据包和所述第二应用的数据包的第四目标模型。14.一种数据包的识别装置,其特征在于,所述装置包括:获取模块和确定模块;所述获取模块,用于获取第一目标模型,所述第一目标模型用于提取第一数据包的第一特征信息,确定所述第一数据包对应的第一应用集合中的第一应用;所述获取模块,还用于在满足触发条件的情况下,获取第二目标模型,所述第二目标模型用于提取第二数据包的第二特征信息,确定所述第二数据包对应的第二应用集合中的第二应用,所述第一应用集合中的第一应用与所述第二应用集合中的第二应用不同;所述确定模块,还用于获取第三数据包,根...

【专利技术属性】
技术研发人员:卢嘉勋李秉帅邵云峰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1