海量特征串集合的匹配方法和装置制造方法及图纸

技术编号:15220160 阅读:94 留言:0更新日期:2017-04-26 20:03
本发明专利技术提出一种海量特征串集合的匹配方法和装置,该方法包括根据特征串集合中的特征串所包含字符个数确定匹配窗口长度并为当前待匹配数据设置初始偏移值;根据初始偏移值为起点对当前待匹配数据进行偏移并定位,获取匹配窗口长度内以匹配窗口末端为终点,长度为预设第一长度的字符块并作为第一字符块;在第一字符块为特征串集合的子特征串时,获取匹配窗口长度内以匹配窗口始端为起始,长度为预设第二长度的字符块并作为第二字符块;计算第二字符块的转换值并读取与转换值对应的位向量作为当前匹配向量;根据当前匹配向量对当前待匹配数据进行特征串匹配。该方法能够有效利用位向量掩码表的空间,降低过滤通过率,提升匹配速度。

Matching method and device for mass character string collection

The invention provides a mass character string matching method and device of the collection, including the method according to the feature string in the feature set string contains the number of characters to determine the matching window length and the matching data set the initial offset value; according to the initial offset value as a starting point on the current matching data migration and positioning, to find the match in the end, the window window length for the length of the first end point, preset length character block as the first character in the first character block; block feature string set sub feature string, in order to obtain matching window length matching window beginning as starting, the length of the length of the block and preset second characters as the second character second character block block; calculate conversion value and to read and convert the bit vector corresponding to the value as the current matching vector; according to the matching number of current vector matching Feature string matching. The method can effectively utilize the space of the bit vector mask table, reduce the filtering pass rate and improve the matching speed.

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种海量特征串集合的匹配方法和装置。
技术介绍
模式匹配是计算机领域重要研究方向之一,用于从目标串中发现特征串。随着互联网技术的高速发展,模式匹配被广泛地应用于网络安全、信息检索,以及生物医学等领域。模式匹配是指在文本T=t1t2...tn中找出某个给定的特征串集合P={p1,p2,...,pr

【技术保护点】
一种海量特征串集合的匹配方法,其特征在于,包括以下步骤:接收当前待匹配数据,并生成与所述当前待匹配数据对应的字符转换函数和对应的位向量掩码表;根据特征串集合中的特征串所包含字符个数确定匹配窗口长度,并为当前待匹配数据设置初始偏移值;根据所述初始偏移值为起点对所述当前待匹配数据进行偏移并定位,获取所述匹配窗口长度内以所述匹配窗口末端为终点,长度为预设第一长度的字符块并作为第一字符块;根据预设快表判断所述第一字符块是否为所述特征串集合的子特征串;在所述第一字符块为所述特征串集合的子特征串时,获取所述匹配窗口长度内以所述匹配窗口始端为起始,长度为预设第二长度的字符块并作为第二字符块;根据所述对应的字...

【技术特征摘要】
1.一种海量特征串集合的匹配方法,其特征在于,包括以下步骤:接收当前待匹配数据,并生成与所述当前待匹配数据对应的字符转换函数和对应的位向量掩码表;根据特征串集合中的特征串所包含字符个数确定匹配窗口长度,并为当前待匹配数据设置初始偏移值;根据所述初始偏移值为起点对所述当前待匹配数据进行偏移并定位,获取所述匹配窗口长度内以所述匹配窗口末端为终点,长度为预设第一长度的字符块并作为第一字符块;根据预设快表判断所述第一字符块是否为所述特征串集合的子特征串;在所述第一字符块为所述特征串集合的子特征串时,获取所述匹配窗口长度内以所述匹配窗口始端为起始,长度为预设第二长度的字符块并作为第二字符块;根据所述对应的字符转换函数计算所述第二字符块的转换值,并从所述对应的位向量掩码表读取与所述转换值对应的位向量并作为当前匹配向量;根据所述当前匹配向量对所述当前待匹配数据进行特征串匹配;在所述第一字符块不为所述特征串集合的子特征串时,以当前读入的所述第一字符块的起点位置的下一位作为所述匹配窗口的起点;基于新的匹配窗口的起点对所述当前待匹配数据进行偏移并定位,并在新的所述匹配窗口的长度内对所述第一字符块进行更新。2.如权利要求1所述的海量特征串集合的匹配方法,其特征在于,所述根据所述当前匹配向量对所述当前待匹配数据进行特征串匹配,包括:将所述当前匹配向量和预设判断向量作与运算,得到运算结果;在所述运算结果为未在所述当前待匹配数据中命中所述特征串集合中的特征串的第一运算结果时,获取所述匹配窗口长度内以所述第二字符块终点位置的下一位为起始,长度为预设第二长度的字符块并作为第三字符块,并根据所述第三字符块对所述第二字符块进行更新;在所述运算结果为在所述当前待匹配数据中命中所述特征串集合中的特征串的第二运算结果时,获取所述第二字符块对应的哈希值,并根据所述哈希值及预设哈希表对命中情况进行确认。3.如权利要求2所述的海量特征串集合的匹配方法,其特征在于,所述预设哈希表包括第一哈希表和第二哈希表,所述根据所述哈希值及预设哈希表对命中情况进行确认,包括:获取所述第一哈希表的行数和列数,并计算所述行数和列数的乘积得到乘积值;对所述哈希值和所述乘积值进行求余取模运算,得到模值;判断所述第一哈希表中与所述模值对应位的位值是否为1;在所述对应位的位值不为1时,判定所述命中情况为所述当前待匹配数据与所述特征串集合匹配失败;在所述对应位的位值为1时,根据所述哈希值判断所述第二哈希表中是否存在所述特征串集合中的特征串;在不存在所述特征串集合中的特征串时,判定所述命中情况为所述当前待匹配数据与所述特征串集合匹配失败;在存在所述特征串集合中的特征串时,判定所述命中情况为所述当前待匹配数据与所述特征串集合匹配成功。4.如权利要求3所述的海量特征串集合的匹配方法,其特征在于,在所述接收当前待匹配数据之前,还包括:根据所述特征串集合中的每个特征串的哈希值生成所述第一哈希表和所述第二哈希表。5.如权利要求1所述的海量特征串集合的匹配方法,其特征在于,所述生成与所述当前待匹配数据对应的字符转换函数和对应的位向量掩码表,包括:生成与所述当前待匹配数据所支持的编码类型对应的字符转换函数和对应的位向量掩码表。6.如权利要求1所述的海量特征串集合的匹配方法,其特征在于,在所述接收当前待匹配数据之后,还包括:获取所述特征串集合中长度...

【专利技术属性】
技术研发人员:尹延伟
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1