正则表达式匹配的方法和系统技术方案

技术编号：4008807 阅读：194 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种正则表达式匹配的方法和系统，属于计算机领域。该方法包括：将多个正则表达式分组，得到多个正则表达式组，其中每个正则表达式组中的每个正则表达式包括相同的字符串，称为广义字符串；将每个该正则表达式组编译成有限自动机，并建立每个正则表达式组的广义字符串与有限自动机的关联关系；用该广义字符串分别匹配待匹配的数据流，将匹配上的广义字符串作为匹配字符串；获取与该匹配字符串对应的有限自动机；根据该有限自动机对该待匹配的数据流进行正则表达式匹配并输出匹配结果。本发明专利技术缩短了数据加载的过程，减少了数据加载所消耗的时间，提高了匹配性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，特别涉及一种正则表达式匹配的方法和系统。
技术介绍
正则表达式描述了一种字符串匹配的模式，可以用来进行文本匹配，具体为在给定的字符串中寻找与给定的正则表达式相匹配的部分。正则表达式的应用范围很广，在通信行业中主要应用于对数据流量进行模式匹配检查，如进行协议解析、病毒检测和业务分大寸寸。现有技术中，进行正则表达式匹配检查需要预先将正则表达式转换成 DFA (Deterministic Finite Automata，有限自动机)，然后逻辑芯片根据编译后的DFA和输入的数据流中的字符，来执行这个DFA。但由于一般使用时，待检查的规则都不只一条，而是几千甚至上万条，单独的采用一个个的DFA对待匹配流量检查几千甚至上万次是不可能的，因此为了不遗漏待检查的规则，一般都将这几千甚至上万条规则编译成一个大型的 DFA ( 一般有几百兆字节甚至IG字节)，在匹配进行中，将待匹配的流量做为输入，以DFA报告的输出作为匹配规则。在对现有技术进行分析后，专利技术人发现现有技术至少具有如下缺点由于大型的DFA大小有几百兆字节，而一般的逻辑芯片内部无法集成这样大容量的片内存储器，只能是存储在外部的SRAM (Static Random AccessMemory，静态随机存储器)或者 SDRAM (Synchronous Dynamic Random AccessMemory，同步动态随机存储器)中，待匹配时，匹配到什么状态，就把这个状态相应的一部分DFA片段加载进入逻辑芯片内部的缓存进行工作，在匹配过程中，需不断加载与当前状态关联...

【技术保护点】
一种正则表达式匹配的方法，其特征在于，包括：将多个正则表达式分组，得到多个正则表达式组，其中每个正则表达式组中的每个正则表达式包括相同的字符串，称为广义字符串；将每个所述正则表达式组编译成有限自动机，并建立每个正则表达式组的广义字符串与有限自动机的关联关系；用所述广义字符串分别匹配待匹配的数据流，将匹配上的广义字符串作为匹配字符串；获取与所述匹配字符串对应的有限自动机；根据所述有限自动机对所述待匹配的数据流进行正则表达式匹配并输出匹配结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈建，胡新宇，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人