【技术实现步骤摘要】
本专利技术涉及,尤其涉及一种基于有限状态自动机的高效存储的快速多关键词匹配方法,属于文本或网络内容处理
技术介绍
多关键词匹配(Multiple Pattern String Matching)是计算机科学领域中的基本问题之一。其解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。多关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、生物信息学、信息检索等领域。解决快速多关键词匹配问题的经典方法之一是基于有限状态自动机的方法。该方法最初有Alfred V.Aho和Margaret J.Corasick于1975年提出,通常以专利技术者的名字简称为AC多关键词匹配方法。AC方法的突出优点在于其具有相同的最坏和平均性能,可用于处理各种关键词集合(例如不等长、大规模等),是一种高性能的多关键词匹配方法。设关键词集合为{he,hers,his,she},其对应的有限状态自动机如图1所示。有限状态自动机中每个“状态”实际代表了一个确定的关键词前缀,例如图1中状态‘5’代表了关键词前缀‘hi’。已有AC多关键词匹配方法的描述如下1)预处 ...
【技术保护点】
一种用于文本或网络内容分析的多关键词匹配方法,其特征在于该方法包括以下步骤:(1)根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;(2)根据上述字符对上述有限状态自动机进行转换,得到以字符为节点的 有限状态自动机,节点总数为m+1,m为上述关键词中的字符数,将所有节点的地址存储为一个索引表;(3)将待匹配的文本或网络数据流作为上述以字符为节点的有限状态自动机的输入,与关键词进行匹配。
【技术特征摘要】
1.一种用于文本或网络内容分析的多关键词匹配方法,其特征在于该方法包括以下步骤(1)根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;(2)根据上述字符对上述有限状态自动机进行转换,得到以字符为节点的有限状态自动机,节点总数为m+1,m为上述关键词中的字符数,将所有节点的地址存储为一个索引表;(3)将待匹配的文本或网...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。