一种多模式串匹配方法和系统技术方案

技术编号:11985843 阅读:136 留言:0更新日期:2015-09-02 15:27
本发明专利技术涉及一种空间高效的多模式串匹配方法和系统。首先提出了一种新的存储模式串的数据结构—HashTrie,利用位向量表将原模式串矩阵存储为一维表的形式,避开传统方法存储自动机的状态转移矩阵问题;利用递归的哈希函数方法求出这个特殊的位向量表,以达到节约存储空间的目的;在哈希函数计算过程中,利用位运算技巧,将其转化为简单高效的位与运算操作;另外在HashTrie构造和关键词查找过程中均使用Rank技术,提高了搜索的空间效率和时间效率。本发明专利技术极大地降低了内存开销和预处理时间,更能满足实时入侵检测系统对规则生效的时效性要求,更适合于模式串集合规模较大、模式串长度较短的多模式串实时匹配问题。

【技术实现步骤摘要】

本专利技术设及信息过滤、信息检索、计算生物学等领域,具体设及一种空间高效的多 模式串匹配方法和系统。
技术介绍
近年来,随着宽带技术的发展和多媒体应用的流行,互联网技术得到极大的普及 和发展。随着网络用户飞速增长的同时,攻击模式亦飞速增长,对入侵检测系统的需求亦随 之增加。面对当前互联网协议设计缺陷、计算机系统漏洞、网络入侵攻击等日趋严峻的网络 安全问题,已有算法的存储空间和运算速度已经难W满足高速网络环境下对特征串实时匹 配的应用需求。因此,设计更加高效的多模式串匹配系统,具有重要的理论和实际意义。 文献(EfficientStringMatching:AnAidtoBibliographic Search,CommunicationsoftheACM, 333-340, 197巧提出了基于前缀捜索的多模式串匹 配算法一Aho-Corasick算法(简称AC算法),从模式串集合构建AC自动机,通过对自动机 的访问进行匹配。该算法匹配的时间复杂度正比于待扫描文本长度,不受关键词长度和文 本统计特征的影响,性能比较稳定。但是需要巨大的存储空间来存储自动机,通常不是最快 的本文档来自技高网...

【技术保护点】
一种模式串的数据存储结构,其特征在于,包括过滤散列表B、预匹配散列表F和校验散列表M,该数据存储结构通过如下步骤构建:1)读入关键词文件;2)对关键词文件进行规范化处理;3)对于规范化处理之后的关键词文件,给位向量表的长度H赋值,并初始化位向量表B和位向量表F;4)采用递归哈希函数计算过滤散列表B和预匹配散列表F两个位向量表,利用Rank技术计算校验散列表M,最终得到B、F、M。

【技术特征摘要】

【专利技术属性】
技术研发人员:张萍刘燕兵谭建龙郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1