特征提取的方法和装置制造方法及图纸

技术编号:24353743 阅读:22 留言:0更新日期:2020-06-03 02:07
本发明专利技术公开了一种特征提取的方法和装置。其中,该方法包括:截取待检测应用的流量数据包,得到数据包文件,其中,待检测应用的数量为一个或多个;对数据包文件进行预处理,得到数据方阵;对数据方阵进行特征提取,得到待检测应用的目标特征,其中,目标特征用于对待检测应用的应用流量进行分析,目标特征为待检测应用的所有特征中的最优特征。本发明专利技术解决了现有技术采用手动提取应用流量中的数据特征的方式所导致的特征提取效率低的技术问题。

Method and device of feature extraction

【技术实现步骤摘要】
特征提取的方法和装置
本专利技术涉及计算机网络领域,具体而言,涉及一种特征提取的方法和装置。
技术介绍
随着计算机网络技术的飞速发展,尤其是在"互联网+"时代浪潮的背景下,众多行业下的互联网应用软件如雨后春笋般迅速发展,而基于应用的识别技术,是目前各种网络设备应用层安全防护的基础,也是L4-L7层安全的关键技术点之一,由此深度数据包检测(DeepPacketInspection,简称为DPI)应运而生。DPI技术是一项通过提取应用流量中的数据特征(signature,简写为sig)来对各种应用软件或系统产生的流量进行识别,进而对应用流量进行内容、安全和网络等方面的分析、控制和管理。对于应用流量中的数据特征的提取,现在大多数工程师借用Wireshark等网络分析工具采用手工特征提取的操作方式,该方式不仅工作量大且易出错。另外,目前互联网上比较常用的特征提取工具是开源的进程抓包工具QPA,其中,QPA的核心特征提取模块可对同一网流的所有不同长度的报文进行特征提取,该过程涉及所有类型流量、注重分析,需要较多的人为干预。此外,特征提取模块存在许多特征被遗漏提取的情况,有时无法覆盖大部分流量。而分析标准协议流量采用的也是同一特征提取模块,不具有针对性,提取到的特征也比较粗糙。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种特征提取的方法和装置,以至少解决现有技术采用手动提取应用流量中的数据特征的方式所导致的特征提取效率低的技术问题。根据本专利技术实施例的一个方面,提供了一种特征提取的方法,包括:截取待检测应用的流量数据包,得到数据包文件,其中,待检测应用的数量为一个或多个;对数据包文件进行预处理,得到数据方阵;对数据方阵进行特征提取,得到待检测应用的目标特征,其中,目标特征用于对待检测应用的应用流量进行分析,目标特征为待检测应用的所有特征中的最优特征。可选地,特征提取的方法还包括:确定待检测应用对应的截取次数;基于截取次数对待检测应用的流量数据包进行多次截取处理,得到数据包文件。可选地,在每次的流量数据包截取过程中,对于相同的待检测应用截取不同账号对应的流量数据包。可选地,特征提取的方法还包括:对数据包文件进行网流过滤处理,得到预设网流,其中,待检测应用对应多个数据包文件,每个数据包文件包括多个网流,网流用于表征网络流量会话;按照每个预设网流的多个应用层负载的字节大小对字节对应的字符进行排列,得到每个预设网流对应的字符串序列;根据字符串序列对预设网流进行分组处理,得到数据方阵。可选地,特征提取的方法还包括:对数据包文件中的传输控制协议网流中的超文本传输协议流量对应的网流以及超文本传输安全协议流量对应的网流进行过滤处理,得到非超文本传输协议流量对应的网流或超非文本传输安全协议流量对应的网流;对数据包文件中的用户数据包协议网流中的域名系统协议流量对应的网流进行过滤处理,得到非域名系统协议流量对应的网流。可选地,特征提取的方法还包括:按照多个数据包文件中字符串序列的相似度对预设网流进行分组处理,得到数据方阵,其中,相似度大于预设相似度的预设网流分为一组。可选地,特征提取的方法还包括:将相同分组内具有相同数据流方向的应用层负载进行两两组合,输入至特征提取模块中,得到特征提取模块的输出结果;在输出结果指示生成特征的情况下,获取生成的至少一个待选特征;计算每个待选特征所对应的权重值;确定权重值最高的待选特征为目标特征。可选地,特征提取的方法还包括:将相同分组内具有相同数据流方向的应用层负载进行两两组合,输入至特征提取模块中,得到特征提取模块的输出结果;在输出结果指示未生成特征的情况下,获取数据包文件中具有相同或相近的字符串序列,且具有相同数据流方向的处于预设位置的应用层负载进行特征提取,得到至少一个待选特征;计算每个待选特征所对应的权重值;确定权重值最高的待选特征为目标特征。可选地,特征提取的方法还包括:根据每个待选特征所对应的特征字符串的字符串长度,得到第一数值;根据字符串长度在对应的应用层负载中的偏移相关性,得到第二数值;根据特征字符串在对应网流中的优先级,得到第三数值;根据数据包文件的第一数量与包含特征字符串的数据包文件的第二数量的比值,得到第四数值;根据特征字符串的数据流方向,得到第五数值;计算第一数值、第二数值、第三数值、第四数值以及第五数值的乘机,得到权重值。可选地,特征提取的方法还包括:在对数据方阵进行特征提取,得到待检测应用的目标特征之后,发送目标特征至内部服务器和/或云端服务器,并由内部服务器和/或云端服务器推送目标特征至网关设备,以使网关设备根据目标特征对待检测应用的应用流量进行分析。根据本专利技术实施例的另一方面,还提供了一种特征提取的装置,包括:截取模块,用于截取待检测应用的流量数据包,得到数据包文件,其中,待检测应用的数量为一个或多个;处理模块,用于对数据包文件进行预处理,得到数据方阵;提取模块,用于对数据方阵进行特征提取,得到待检测应用的目标特征,其中,目标特征用于对待检测应用的应用流量进行分析,目标特征为待检测应用的所有特征中的最优特征。根据本专利技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的特征提取的方法。根据本专利技术实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述的特征提取的方法。在本专利技术实施例中,采用自动提取特征的方式,通过截取待检测应用的流量数据包,得到数据包文件,然后再对数据包文件进行预处理,得到数据方阵,最后对述数据方阵进行特征提取,得到待检测应用的目标特征,其中,目标特征用于对待检测应用的应用流量进行分析,目标特征为待检测应用的所有特征中的最优特征。在上述过程中,待检测应用的数量为一个或多个,其中,当待检测应用为多个时,本申请可对多个待检测应用同时进行特征提取,以达到同时对多个待检测应用的应用流量进行分析的目的,进而提高了特征提取的效率。另外,本申请还对数据包文件进行预处理,从而保证了能够准确提取到特征。最后,基于数据方阵进行特征提取,从多个特征中选取最优的目标特征,使用目标特征对待检测应用的应用流量进行分析,可以进一步提高应用识别和分析的准确性。由此可见,本申请所提供的方案达到了自动提取数据特征的目的,从而实现了提高数据特征提取效率的技术效果,进而解决了现有技术采用手动提取应用流量中的数据特征的方式所导致的特征提取效率低技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种特征提取的方法流程图;图2是根据本专利技术实施例的一种可选的安全网关设备DPI引擎的流程图;图3是根据本专利技术实施例的一种可选的特征提取的方法的流程图;图4是根据本专利技术实施例的一种可选的本文档来自技高网...

【技术保护点】
1.一种特征提取的方法,其特征在于,包括:/n截取待检测应用的流量数据包,得到数据包文件,其中,所述待检测应用的数量为一个或多个;/n对所述数据包文件进行预处理,得到数据方阵;/n对所述数据方阵进行特征提取,得到所述待检测应用的目标特征,其中,所述目标特征用于对所述待检测应用的应用流量进行分析,所述目标特征为所述待检测应用的所有特征中的最优特征。/n

【技术特征摘要】
1.一种特征提取的方法,其特征在于,包括:
截取待检测应用的流量数据包,得到数据包文件,其中,所述待检测应用的数量为一个或多个;
对所述数据包文件进行预处理,得到数据方阵;
对所述数据方阵进行特征提取,得到所述待检测应用的目标特征,其中,所述目标特征用于对所述待检测应用的应用流量进行分析,所述目标特征为所述待检测应用的所有特征中的最优特征。


2.根据权利要求1所述的方法,其特征在于,截取待检测应用的流量数据包,得到数据包文件,包括:
确定所述待检测应用对应的截取次数;
基于所述截取次数对所述待检测应用的流量数据包进行多次截取处理,得到所述数据包文件。


3.根据权利要求2所述的方法,其特征在于,在每次的流量数据包截取过程中,对于相同的待检测应用截取不同账号对应的流量数据包。


4.根据权利要求1所述的方法,其特征在于,对所述数据包文件进行预处理,得到数据方阵,包括:
对所述数据包文件进行网流过滤处理,得到预设网流,其中,所述待检测应用对应多个所述数据包文件,每个所述数据包文件包括多个网流,所述网流用于表征网络流量会话;
按照每个所述预设网流的多个应用层负载的字节的大小对所述字节对应的字符进行排列,得到每个所述预设网流对应的字符串序列;
根据所述字符串序列对所述预设网流进行分组处理,得到所述数据方阵。


5.根据权利要求4所述的方法,其特征在于,对所述数据包文件进行网流过滤处理,得到预设网流,包括:
对所述数据包文件中的传输控制协议网流中的超文本传输协议流量对应的网流以及超文本传输安全协议流量对应的网流进行过滤处理,得到非超文本传输协议流量对应的网流或超非文本传输安全协议流量对应的网流;
对所述数据包文件中的用户数据包协议网流中的域名系统协议流量对应的网流进行过滤处理,得到非域名系统协议流量对应的网流。


6.根据权利要求4所述的方法,其特征在于,根据所述字符串序列对所述预设网流进行分组处理,得到所述数据方阵,包括:
按照多个所述数据包文件中所述字符串序列的相似度对所述预设网流进行分组处理,得到所述数据方阵,其中,所述相似度大于预设相似度的预设网流分为一组。


7.根据权利要求1所述的方法,其特征在于,对所述数据方阵进行特征提取,得到所述待检测应用的目标特征,包括:
将相同分组内具有相同数据流方向的应用层负载进行两两组合,输入至特征提取模块中,得到所述特征提取模块的输出结果;
在所述输出结果指示生成特征的情况下,获取生成的至少一个待选特征;

【专利技术属性】
技术研发人员:张元生
申请(专利权)人:山石网科通信技术股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1