确定自动机的空间压缩方法技术

技术编号：3854018 阅读：282 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种确定自动机的空间压缩方法，包括：对确定自动机中的各个状态做分簇操作，得到多个用于表示状态集合的簇；将确定自动机中各个状态的转移边按簇分类，得到多个簇矩阵、与所述簇矩阵对应的位图以及一个剩余矩阵；其中，所述簇矩阵包括指向同一簇的转移边，所述位图用于描述所对应簇矩阵中相关元素的有效性；所述剩余矩阵包括确定自动机中未被包含到所述簇矩阵中的剩余转移边；为所述簇矩阵中的各行提取基值，然后将所述簇矩阵转换成一个偏移量矩阵，再将偏移量矩阵中的各行合并，增加用于标记可合并状态的索引数组，得到所述簇矩阵的压缩矩阵。本发明专利技术不仅在压缩效果上有所提高，而且在实现正则表达式匹配时在匹配速度上有很大的提高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全领域，特别涉及。
技术介绍
正则表达式(Regular Expression)是计算机科学中用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。利用正则表达式来匹配那些符合某个模式的文本内容的方法也被称为正则表达式匹配算法。正则表达式匹配算法一直都是计算机科学的研究焦点之一，它被广泛应用于网络入侵检测、计算机病毒特征码匹配、网络信息内容安全、信息检索等多个领域中。确定自动机(DFA)是正则表达式匹配算法的基础，DFA在计算机中以状态转换表的方式加以存储。通常，用DFA进行正则表达式匹配的基本过程如下步骤a、对于给定的正则表达式，用经典的方法构建相应的DFA; 步骤b、采用DFA对输入的文本(或者网络流)进行匹配。这一匹配过程又包括步骤b-1 、当前状态current处于DFA的初始状态；步骤b-2、对于每一个输入的文本字符t，根据状态转换表的内容从自动机的当前状态current跳转到它的后继状态next;步骤b-3、如果后继状态next是自动机的接受状态，那么说明当前文本位置发生了一次匹配，输出匹配位置；步骤b-4、继续处理下一个字符。从上述过程可以看出，DFA是正则表达式匹配过程的核心。DFA中用于记录当前状态current到后继状态next的转换情况的状态转换表的大小 (也就是下文中所提到的DFA存储空间)对实现正则表达式匹配时所占用的计算机存储资源的多少直接相关，而正则表达式匹配的速度也和DFA 状态转换的速度有着密切的联系。近年来，随着待处理信息量的不断增强和实时处理的紧迫需求，对正则表达式...

【技术保护点】
一种确定自动机的空间压缩方法，包括：　步骤１）、对确定自动机中的各个状态做分簇操作，得到多个用于表示状态集合的簇；　步骤２）、将所述确定自动机中各个状态的转移边按步骤１）所得到的簇分类，得到多个簇矩阵、与所述簇矩阵对应的位图以及一个剩余矩阵；其中，所述簇矩阵包括指向同一簇的转移边，所述位图用于描述簇矩阵中相关元素的有效性；所述剩余矩阵包括确定自动机中未被包含到所述簇矩阵中的剩余转移边；　步骤３）、为所述簇矩阵中的各行提取基值，然后将所述簇矩阵转换成一个偏移量矩阵，再将偏移量矩阵中的各行合并，增加用于标记可合并状态的索引数组，得到所述簇矩阵的压缩矩阵。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨毅夫，刘燕兵，刘萍，郭莉，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人