一种基于编码关联的多模式匹配算法及系统技术方案

技术编号：8022403 阅读：266 留言：0更新日期：2012-11-29 04:38

本发明专利技术公开了一种基于编码关联的多模式匹配算法及系统。所述系统包括：关键字组输入模块，用于获取匹配关键字集合；Goto函数生成模块，用于生成辅助结构Goto函数；FailedJump函数生成模块，用于生成辅助结构FailedJump函数；匹配执行模块，用于读取搜索对象并对其进行多关键字匹配。本算法的特色在于：通过字符拆分，优化了Wang算法在Unicode编码、中文语义环境下的空间存储结构；通过利用编码关联，消除了Wang算法在编码转换后的错位匹配，并提升了Wang算法的最大跳转值，从而提升了当前编码环境下Wang算法的运行速度。本发明专利技术算法可广泛应用于对以Unicode为编码方式的关键信息扫描定位、各类电子文档中的关键字匹配检查等计算机产品中。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于编码关联的多模式匹配算法及系统
本专利技术属于文本内容处理与查找
，特别涉及一种基于编码关联的多模式匹配算法及系统。
技术介绍
电子文档，伴随着信息技术的发展与PC电脑的普及，已成为当今社会中信息的重要载体。由于电子文档的大量应用与广泛普及，对于电子文档的相关信息处理技术，如电子文档中指定关键字的索引建立、一些涉密文件的指定关键字检查等，变的愈发重要。多模式匹配算法作为一种快速的在目标内容段中寻找指定关键字的算法，是对电子文档进行关键字信息处理的核心技术，所使用多模式匹配算法的空间性能，将直接决定整个电子文档关键信息处理系统的可行性，而所使用多模式匹配算法的时间性能，将直接决定整个电子文档关键信息处理系统的执行效率。对于电子文档的关键字信息处理，第一步是解析并提取出电子文档中的有效内容字段，由于常用的电子文档，如微软Word2003系列中的doc、ppt、xls等类型文件，对于中文字符，都使用Unicode方式对其进行编码，且主流的电子文档内容解码器，大部分也采用Unicode编码作为其提取信息后的编码载体，因此，直接使用获取的Unicode编码作为下一步匹配中模式串的编码环境，可以避免繁琐而耗时的编码类型转换(如果将Unicode编码通过API函数转换为ASCII或UTF8等编码，其时间消耗一般都大于对当前文本匹配串进行一次多模式匹配的时间消耗。)，在时间、空间与稳定性上，都是较好的选择。综上，对于电子文档的中文关键字查找，其最常见而且最有效的编码环境，便是Unicode编码环境，因此有必要针对于电子文档关键字查找中的Unicode编码环境...
一种基于编码关联的多模式匹配算法及系统

【技术保护点】
一种Unicode编码环境下的建立自动状态机与失效跳转函数的方法，其特征在于，所述方法包括：根据预设的关键字分隔符，分割输入的多关键字组，得到分割后的子关键字集合；根据所得关键字组，进行字符的字节拆分，并反向生成状态转移函数Goto函数；根据所得关键字组，进行字符的字节拆分，并使用每个码值拆分后得到的低位字节，生成失效跳转函数FailedJump函数。

【技术特征摘要】
1.一种应用于电子文档中多模式匹配的方法，其特征在于，所述方法包括：根据预设的关键字分隔符，分割输入的多关键字组，得到分割后的子关键字集合；根据所得关键字组，进行字符的字节拆分，并反向生成状态转移函数Goto函数；根据所得关键字组，进行字符的字节拆分，并使用每个码值拆分后得到的低位字节，生成失效跳转函数FailedJump函数，具体为：依次将关键字集合中元素的各个字符码值进行拆分，生成拆码模式串；构造长度为当前编码范围大小的失效跳转表FailedTable，FailedTable表的初始值为当前关键字模式串组中模式串拆分前的最小模式串长度minLen的两倍再加二，即2minLen+2；依次计算各个拆码模式串的偶数位字符，即原来以Unicode编码的字符码值的低半位字符的对应跳转值，并用此跳转值重写FailedTable表中角标与当前拆码模式串的码值相等位置的跳转值，如FailedTable表同一位置值有多个对应的拆码模式串跳转值，则选取其中跳转值最小者，替换FailedTable表中对应位置的值。2.如权利要求1所述的应用于电子文档中多模式匹配的方法，其特征在于，根据预设的关键字分隔符，分割输入的多关键字组，得到分割后的子关键字集合，具体为：以Unicode编码为编码方式，设定指定的分隔符，依次以分隔符对同样以Unicode编码为编码方式的输入多关键字组进行划分，以得到待查找的关键字的集合。3.如权利要求1所述的应用于电子文档中多模式匹配的方法，其特征在于，根据所得关键字组，进行字符的字节拆分，并反向生成状态转移函数Goto函数，具体为：依次输入关键字集合中各个关键字，将每个关键字字符的各个码值进行拆分，即将一个以Unicode为编码方式的中文汉字，看做两个编码范围在0至255之间的单字节，分割关键字编码后，得到编码范围缩小，同时关键字长度加倍的拆码模式串，再使用此拆码模式串，以此模式串最后字节为起点，反向输入自动状态机，以生成状态转移函数Goto函数。4.如权利要求1所述的应用于电子文档中多模式匹配的方法，其特征在于，根据所得关键字组，进行字符的字节拆分，并使用每个码值拆分后得到的低位字节，生成失效跳转函数FailedJump函数，具体为：分别输入拆码模式串组中各拆码模式串，以拆码模式串中每个原Unicode编码的低半位字符的对应跳转值，替换FailedTable表中角标与当前拆码模式串的码值相等位置的跳转值，拆码模式串中每个码值对应的跳转值计算方程为：JumpLen＝PatterLen–i,其中JumpLen为当前码值对应的跳转值，P...

【专利技术属性】
技术研发人员：朱永强，
申请(专利权)人：成都网安科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人