一种应用的识别方法、装置、服务器和存储介质制造方法及图纸

技术编号:21006838 阅读:24 留言:0更新日期:2019-04-30 22:14
本发明专利技术实施例公开了一种应用的识别方法、装置、服务器和存储介质。该方法包括:依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。本发明专利技术实施例通过预测模型实现了自动化地对网络应用及其关键信息进行识别,避免了预先对每个需要识别的应用进行协议特征和关键字段特征的分析,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。

An Application Recognition Method, Device, Server and Storage Media

【技术实现步骤摘要】
一种应用的识别方法、装置、服务器和存储介质
本专利技术实施例涉及互联网
,尤其涉及一种应用的识别方法、装置、服务器和存储介质。
技术介绍
网络应用识别是网关、防火墙等设备的管控基础。随着互联网技术的快速发展,互联网应用也越来越普及,针对互联网上日益增多的网络应用进行识别,以及识别出网络应用中的关键信息,提高应用识别的准确性、全面性,对提高网络管理监控的有效性十分重要。现有技术中,通过预先对要识别的网络应用的报文数据进行分析,确定能够唯一识别该网络应用的协议特征表示,以及该网络应用的报文数据中的关键信息对应的字段标识,并把每个网络应该的协议特征标识和字段标识作为配置信息写入到识别模板当中,从而依据写好的配置信息进行网络应用的识别和关键信息的识别。然而,互联网环境中新型的网络应用源源不断,且每个网络应用也在不定时的进行更新或升级。因此现有技术通过配置信息的识别方式,不仅降低了配置信息与实时网络应用信息的匹配度与准确度,而且为了提高配置信息的准确性,无形的增加大量的人力和时间的投入,以此反复对网络应用进行再次的报文数据分析和配置信息的更新。
技术实现思路
本专利技术实施例提供了一种应用的识别方法、装置、服务器和存储介质,能够自动化的对网络应用及其关键信息进行识别,提高识别效率和准确度,大幅度降低人力和时间的投入。第一方面,本专利技术实施例提供了一种应用的识别方法,包括:依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。第二方面,本专利技术实施例提供了一种应用的识别装置,包括:字段信息确定模块,用于依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;应用识别模块,用于向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。第三方面,本专利技术实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的应用的识别方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的应用的识别方法。本专利技术实施例通过获取网络中实时传输的待检测报文数据,提取出待检测报文数据的目标字段列表和目标字段矩阵,将目标字段列表和目标字段矩阵输入至预先训练好的预测模型当中,从而获取待检测报文数据所属的应用类型和关键信息。本专利技术实施例通过预测模型实现了自动化地对网络应用及其关键信息进行识别,避免了预先对每个需要识别的应用进行协议特征和关键字段的分析和备份,大幅度降低了人力和时间的投入,提高了网络应用的识别效率和准确度。附图说明图1为本专利技术实施例一提供的一种应用的识别方法的流程图;图2为本专利技术实施例二提供的一种应用的识别方法的流程图;图3为本专利技术实施例二提供的目标字段列表的示例图;图4为本专利技术实施例三提供的训练预测模型的流程图;图5为本专利技术实施例三提供的各类型网络应用划分的关键字段的示例图;图6为本专利技术实施例四提供的一种应用的识别装置的结构示意图;图7为本专利技术实施例五提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术实施例,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术实施例相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种应用的识别方法的流程图,本实施例可适用于识别网络应用类型及其关键信息的情况,该方法可由一种应用的识别装置来执行。该方法具体包括如下步骤:步骤110、依据实时获取的待检测报文数据,确定待检测报文数据的目标字段列表和目标字段矩阵。在本专利技术具体实施例中,报文数据可以是指网络应用基于用户行为产生的与服务器进行交互的数据,可选的,所述报文数据以HTTPPOST方式在网络中传输。相应的,在网络中进行应用的识别时,网络中实时产生的报文数据即为本实施例所述的待检测报文数据。具体的,报文数据中可以包括对应用户行为和网络数据的各种描述信息,通常由字段标识以及该字段标识关联字段内容构成,可以反映网络应用的协议特征,且体现网络应用的关键信息。相应的,在网络中进行应用的识别时,本实施例首先获取网络中实时的待检测报文数据,对待检测报文数据进行预解析,按照通用的编码格式提取出待检测报文数据的字段信息。其中,编码格式至少可以包括URL、MIME以及JSON等;依据报文数据的结构,至少可以从待检测报文数据的报文头部分和报文体部分进行字段信息的提取;并将提取的字段信息以键值对Key-Value的形式组成字段列表,从而获得网络应用识别所需的目标字段列表。相应的,目标字段列表中包括待检测报文数据中所有字段标识以及字段标识关联的字段内容。其次对目标字段列表进行转换,获得目标字段列表对应的且能够适应于对应模型的目标字段矩阵。示例性的,可以依据目标字段列表中的数据总长度对目标字段列表进行形式上的转换,得到目标字段列表对应的目标字段矩阵;也可以依据目标字段列表中数据长度最长的字段,对目标字段列中的其余字段进行数据长度的补充对齐,得到目标字段列表对应的目标字段矩阵;还可以对目标字段进行二进制的转换,得到二进制矩阵。值得注意的是,目标字段矩阵的确定方式不局限于上述方式,任何可以实现字段矩阵的转换或确定方式都可以应用于本实施例中。示例性的,获取实时的待检测报文数据,假设提取的字段信息构成的目标字段列表如下:Url:/js6/w?sid=rBfHXAaFgIhxyxsAOpFFWGXRC……x&func=ntes:pinle=1Host:mail.163.comCookie:mail_health_check_time=1477375433817。其中,目标字段列表中共包括3个字段信息,分别为字段Url、Host、Cookie以及其对应的数据项。假设字段Url关联的字段内容的数据长度为128个字节,则对其余字段信息的数据长度进行补充和对齐,可以得到3×128的目标字段矩阵。步骤120、向预先训练的预测模型输入目标字段列表和目标字段矩阵,识别待检测报文数据所属的目标应用类型和目标关键信息。在本专利技术具体实施例中,应用类型是指依据网络中各个应用的使用场景划分出的应用类型,例如邮件类、购物类、新闻类以及论坛类等应用类型。关键信息是指该应用类型下的报文数据中的关键字段所需体现的关键数据内容,例如邮件类应用的关键信息可以包括收件人、发件人以及邮件主题等。本实施例中,预测模型是指能够通过待检测报文数据的字段信息,自动识别出待检测报文数据所属的目标应用类型和目标关键信息的模型。其中,预测模型可以是基于各类型应用下样本报文数据提取出的样本字段信息以及神经网络模型预先训练好的,预测模型中进行应用类型的识别和关键信息的识别的模型可以为一个,也可以为多个。本实施例中,可以将预测模型划分为多个,首先采用预测模型中的应用类型识别模型进行应用类别的识本文档来自技高网...

【技术保护点】
1.一种应用的识别方法,其特征在于,包括:依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。

【技术特征摘要】
1.一种应用的识别方法,其特征在于,包括:依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵;向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息。2.根据权利要求1所述的方法,其特征在于,所述依据实时获取的待检测报文数据,确定所述待检测报文数据的目标字段列表和目标字段矩阵,包括:对所述待检测报文数据的预解析,根据所述待检测报文数据中字段标识以及字段标识关联的字段内容,字段内容生成目标字段列表;对所述目标字段列表进行转换,确定所述待检测报文数据的目标字段矩阵。3.根据权利要求1所述的方法,其特征在于,所述向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息,包括:向预测模型中的应用类型识别模型输入所述目标字段矩阵,确定所述待检测报文数据所属的目标应用类型,并向所述待检测报文数据标注目标应用类型的类型标识;依据所述目标应用类型的类型标识,确定预测模型中所述目标应用类型关联的关键字段识别模型;向所述目标应用类型关联的关键字段识别模型输入所述目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标识;依据所述关键字段标识,以及字段标识与字段内容之间关联关系,确定所述待检测报文数据的目标关键信息。4.根据权利要求1所述的方法,其特征在于,所述向预先训练的预测模型输入所述目标字段列表和所述目标字段矩阵,识别所述待检测报文数据所属的目标应用类型和目标关键信息,包括:向预测模型中的应用类型识别模型输入所述目标字段矩阵,确定所述待检测报文数据所属的目标应用类型,并向所述待检测报文数据标注目标应用类型的类型标识;向预测模型中的关键字段识别模型输入所述目标应用类型的类型标识和所述目标字段列表,依次确定目标字段列表中的关键字段并标注对应的关键字段标...

【专利技术属性】
技术研发人员:谢永恒张晓东万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1