确定自动机状态转换表的空间压缩方法技术

技术编号：4045900 阅读：306 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种确定自动机状态转换表的空间压缩方法，包括：将确定自动机状态转换表表示为一个ｍ×ｎ的矩阵Ａ，其中ｍ代表确定自动机中的状态的个数，ｎ代表字符集的大小；定义一个大小为ｍ的列向量Ｘ和一个大小为ｎ的行向量Ｙ；对所述的列向量Ｘ和所述的列向量Ｙ做迭代计算，直到对于任意的１≤ｉ≤ｍ，Ｘ［ｉ］是多重集Ｄｉ．中频率最高的元素，并且对于任意的１≤ｊ≤ｎ，Ｙ［ｊ］是多重集Ｄ．ｊ中频率最高的元素；其中，所述的Ｄｉ．＝｛Ａ［ｉ，ｊ］－Ｙ［ｊ］｜１≤ｊ≤ｎ｝，所述的Ｄ．ｊ＝｛Ａ［ｉ，ｊ］－Ｘ［ｉ］｜１≤ｉ≤ｍ｝；由所述的矩阵Ａ、列向量Ｘ和行向量Ｙ计算稀疏矩阵Ｒ，并压缩所得到的稀疏矩阵Ｒ；其中，Ｒ［ｉ，ｊ］＝Ａ［ｉ，ｊ］－Ｘ［ｉ］－Ｙ［ｊ］。本发明专利技术的确定自动机状态转换表的空间压缩方法在减少内存中所占用空间的同时，大大减少了空间开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索领域，特别涉及。
技术介绍
近年来，正则表达式匹配已经成为网络安全领域的一个研究焦点。网络通信过程中对实时性和高效性的需求，增强了确定自动机(DFA)在识别正则表达式过程中的重要性。然而，随着正则表达式在实际应用中的不断复杂化，由正则表达式所生成的DFA的状态规模也不断增大，DFA状态规模的不断增大使得计算机存储空间的消耗急剧增长，这种急剧增长已经成为限制正则表达式应用的一个瓶颈。基于上述原因，需要对DFA空间进行压缩， DFA空间的压缩方法已经成为学者关注的焦点。现有技术中存在DFA空间的压缩方法，如在参考文献1 “Fast and memory-efficient regular expression matching for deep packet inspection. Proceedings of the 2006 ACM/IEEE symposium on Architecture for networking and communications systems 2006, San Jose, California, USA December 03-05,2006” 中利用规则重写和规则分类的方法来简化正则表达式，文中提出把一组正则表达式集合分成若干组，每组都可用中等规模的DFA来识别。然而这一重写规则的方法仅适用于非重叠匹配的情况。在参考文献 2 “Algorithm to Accelerate Multiple Regular Expressions Matching for Deep Packet...

【技术保护点】
一种确定自动机状态转换表的空间压缩方法，包括：步骤１）、将确定自动机状态转换表表示为一个ｍ×ｎ的矩阵Ａ，其中ｍ代表确定自动机中的状态的个数，ｎ代表字符集的大小；步骤２）、定义一个大小为ｍ的列向量Ｘ和一个大小为ｎ的行向量Ｙ；步骤３）、对所述的列向量Ｘ和所述的列向量Ｙ做迭代计算，直到对于任意的１≤ｉ≤ｍ，Ｘ［ｉ］是多重集Ｄ↓［ｉ］．中频率最高的元素，并且对于任意的１≤ｊ≤ｎ，Ｙ［ｊ］是多重集Ｄ．↓［ｊ］中频率最高的元素；其中，所述的Ｄ↓［ｉ］．＝｛Ａ［ｉ，ｊ］－Ｙ［ｊ］｜１≤ｊ≤ｎ｝，所述的Ｄ．↓［ｊ］＝｛Ａ［ｉ，ｊ］－Ｘ［ｉ］｜１≤ｉ≤ｍ｝；步骤４）、由所述的矩阵Ａ、列向量Ｘ和行向量Ｙ计算稀疏矩阵Ｒ，并压缩所得到的稀疏矩阵Ｒ；其中，Ｒ［ｉ，ｊ］＝Ａ［ｉ，ｊ］－Ｘ［ｉ］－Ｙ［ｊ］。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘燕兵，何慧敏，刘萍，谭建龙，郭莉，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人