当前位置: 首页 > 专利查询>清华大学专利>正文

一种用于文本或网络内容分析的多关键词匹配方法组成比例

技术编号:2851528 阅读:395 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于文本或网络内容分析的多关键词匹配方法,属于文本或网络内容处理技术领域。首先根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;根据字符对上述有限状态自动机进行转换,得到以字符为节点的有限状态自动机,节点总数为m+1,m为上述关键词中的字符数;将待匹配的文本或网络数据流作为以字符为节点的有限状态自动机的输入,与关键词进行匹配。本发明专利技术方法与已有的AC方法相比,没有引入任何附加计算。当关键词集合中所出现的字符数量少于最大可能字符数时,可以大大降低内存空间消耗。

【技术实现步骤摘要】

本专利技术涉及,尤其涉及一种基于有限状态自动机的高效存储的快速多关键词匹配方法,属于文本或网络内容处理

技术介绍
多关键词匹配(Multiple Pattern String Matching)是计算机科学领域中的基本问题之一。其解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。多关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、生物信息学、信息检索等领域。解决快速多关键词匹配问题的经典方法之一是基于有限状态自动机的方法。该方法最初有Alfred V.Aho和Margaret J.Corasick于1975年提出,通常以专利技术者的名字简称为AC多关键词匹配方法。AC方法的突出优点在于其具有相同的最坏和平均性能,可用于处理各种关键词集合(例如不等长、大规模等),是一种高性能的多关键词匹配方法。设关键词集合为{he,hers,his,she},其对应的有限状态自动机如图1所示。有限状态自动机中每个“状态”实际代表了一个确定的关键词前缀,例如图1中状态‘5’代表了关键词前缀‘hi’。已有AC多关键词匹配方法的描述如下1)预处理阶段实现有限状态自本文档来自技高网...

【技术保护点】
一种用于文本或网络内容分析的多关键词匹配方法,其特征在于该方法包括以下步骤:(1)根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;(2)根据上述字符对上述有限状态自动机进行转换,得到以字符为节点的 有限状态自动机,节点总数为m+1,m为上述关键词中的字符数,将所有节点的地址存储为一个索引表;(3)将待匹配的文本或网络数据流作为上述以字符为节点的有限状态自动机的输入,与关键词进行匹配。

【技术特征摘要】
1.一种用于文本或网络内容分析的多关键词匹配方法,其特征在于该方法包括以下步骤(1)根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;(2)根据上述字符对上述有限状态自动机进行转换,得到以字符为节点的有限状态自动机,节点总数为m+1,m为上述关键词中的字符数,将所有节点的地址存储为一个索引表;(3)将待匹配的文本或网...

【专利技术属性】
技术研发人员:余建明李军
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1