针对压缩流量的多字符串匹配方法组成比例

技术编号：16431551 阅读：70 留言：0更新日期：2017-10-22 07:19

本发明专利技术公开一种针对压缩流量的多字符串匹配方法，核心部件是压缩流量字符串匹配引擎，它使用待匹配字符串进行构建，对压缩流量字节内容进行扫描、匹配，输出匹配结果；该引擎包括解码、匹配和字符串匹配自动机三个模块，以及处理过程所需的数据，即状态记录模块；本发明专利技术技术方案对压缩流量具有较高的多字符串匹配吞吐率，便于使用，且具有较好的扩展性。

Multi string matching method for compressed traffic

The invention discloses a method for multi string compression flow matching method, the core part is the compression flow string matching engine, which uses the matching string construction, scanning, matching of compression flow byte content, the output matching results; the engine includes decoding, matching and string matching automaton of three modules, and the process required the data, namely state record module; the technical scheme of the invention has high compression rate multi string matching throughput, easy to use, and has good scalability.

全部详细技术资料下载

【技术实现步骤摘要】
针对压缩流量的多字符串匹配方法
本专利技术属于网络
，涉及压缩流量的多模式匹配方法。
技术介绍
随着压缩技术在网络流量中的广泛应用，越来越多的Web服务器将HTTP页面内容压缩后发送给浏览器。文献[1]指出2010年7月AlexaTop1000的站点中有66％使用了HTTP压缩，而2016年10月的Top500站点中，该比例已增长为95％[2]。然而，许多基于深度包检测(DeepPacketInspection，DPI)的工具通常采用多模式匹配的方式，识别流量中的特征，例如入侵检测系统(IntrusionDetectionSystem，IDS)、入侵防御系统(IntrusionPreventionSystem，IPS)和防火墙等。这些工具面对压缩流量，通常有以下三种做法：(1)Lazy：对于压缩的数据，直接丢弃，不进行处理。然而由于越来越多的流量使用压缩技术，致使采用该方式的工具放弃太多的内容，难以有效地进行DPI。(2)Naive：也就是先将压缩流量进行完全解压，之后再对解压后的数据进行模式匹配。该方法技术成熟，实现简单，但是解压过程中对内存和CPU的需求无疑会成为整个匹配过程中的性能瓶颈。(3)Patch：通过修改客户端的请求，告知服务端自身不接收压缩数据，从而强制服务端发送原始数据。这种方式相较于Naive来说，避免了流量解压过程的开销。但是破坏了客户端与服务端之间通信数据的完整性；而且使用未压缩的流量，也抛弃了HTTP设计压缩流量的初衷，不能减少对网络带宽的使用。目前，有许多关于多模式匹配的相关专利，如文献[3,4,5,6]，但它们均...
针对压缩流量的多字符串匹配方法

【技术保护点】
针对压缩流量的多字符串匹配方法，其特征在于：核心部件是压缩流量字符串匹配引擎(101)，其包括解码模块(1011)、匹配模块(1012)和字符串匹配自动机(1013)三个处理模块，以及处理过程所需的状态记录模块(1014)；解码模块(1011)对采用gzip或DEFLATE方法压缩的内容进行哈夫曼解码，解码使得不以字节为边界的原始压缩流量(102)，变为以字节为边界的字符内容和编码字符串；匹配模块(1012)使用字符串匹配自动机(1013)直接扫描解码后的字符内容，对编码字符串则进行分类处理；字符串匹配自动机(1013)，使用现有的多字符串匹配算法，包括但不限于Aho Corasick算法，通过算法构建匹配自动机，以扫描文本字符串，输出结果；状态记录模块(1014)，保存该引擎工作过程所使用的状态、参数信息；压缩流量字符串匹配引擎(101)使用待匹配字符串(103)构建字符串匹配自动机(1013)，之后对压缩流量(102)字节内容进行扫描、匹配，输出匹配结果(104)。

【技术特征摘要】
1.针对压缩流量的多字符串匹配方法，其特征在于：核心部件是压缩流量字符串匹配引擎(101)，其包括解码模块(1011)、匹配模块(1012)和字符串匹配自动机(1013)三个处理模块，以及处理过程所需的状态记录模块(1014)；解码模块(1011)对采用gzip或DEFLATE方法压缩的内容进行哈夫曼解码，解码使得不以字节为边界的原始压缩流量(102)，变为以字节为边界的字符内容和编码字符串；匹配模块(1012)使用字符串匹配自动机(1013)直接扫描解码后的字符内容，对编码字符串则进行分类处理；字符串匹配自动机(1013)，使用现有的多字符串匹配算法，包括但不限于AhoCorasick算法，通过算法构建匹配自动机，以扫描文本字符串，输出结果；状态记录模块(1014)，保存该引擎工作过程所使用的状态、参数信息；压缩流量字符串匹配引擎(101)使用待匹配字符串(103)构建字符串匹配自动机(1013)，之后对压缩流量(102)字节内容进行扫描、匹配，输出匹配结果(104)。2.根据权利要求1所述的针对压缩流量的多字符串匹配方法，其特征在于：匹配模块(1012)对编码字符串则进行分类处理，依据待匹配字符串(103)与编码字符串之间的位置关系，将编码字符串分为三种类别进行处理，分类规则为：前缀：待匹配字符串起始于编码字符串之前，而不限结束于何处；包含：待匹配字符串完全处于编码字符...

【专利技术属性】
技术研发人员：胡成臣，孙秀文，李昊，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人