【技术实现步骤摘要】
本专利技术设及信息过滤、信息检索、计算生物学等领域,具体设及一种空间高效的多 模式串匹配方法和系统。
技术介绍
近年来,随着宽带技术的发展和多媒体应用的流行,互联网技术得到极大的普及 和发展。随着网络用户飞速增长的同时,攻击模式亦飞速增长,对入侵检测系统的需求亦随 之增加。面对当前互联网协议设计缺陷、计算机系统漏洞、网络入侵攻击等日趋严峻的网络 安全问题,已有算法的存储空间和运算速度已经难W满足高速网络环境下对特征串实时匹 配的应用需求。因此,设计更加高效的多模式串匹配系统,具有重要的理论和实际意义。 文献(EfficientStringMatching:AnAidtoBibliographic Search,CommunicationsoftheACM, 333-340, 197巧提出了基于前缀捜索的多模式串匹 配算法一Aho-Corasick算法(简称AC算法),从模式串集合构建AC自动机,通过对自动机 的访问进行匹配。该算法匹配的时间复杂度正比于待扫描文本长度,不受关键词长度和文 本统计特征的影响,性能比较稳定。但是需要巨大的存储空间来存储自动 ...
【技术保护点】
一种模式串的数据存储结构,其特征在于,包括过滤散列表B、预匹配散列表F和校验散列表M,该数据存储结构通过如下步骤构建:1)读入关键词文件;2)对关键词文件进行规范化处理;3)对于规范化处理之后的关键词文件,给位向量表的长度H赋值,并初始化位向量表B和位向量表F;4)采用递归哈希函数计算过滤散列表B和预匹配散列表F两个位向量表,利用Rank技术计算校验散列表M,最终得到B、F、M。
【技术特征摘要】
【专利技术属性】
技术研发人员:张萍,刘燕兵,谭建龙,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。