快速内容分析的多关键词匹配方法组成比例

技术编号：2871083 阅读：161 留言：0更新日期：2012-04-11 18:40

一种快速内容分析的多关键词匹配方法，是一种基于哈夫曼编码的多关键词匹配算法；其特征在于，包括如下步骤：　　　　１）对关键词进行预处理；　　　　２）根据字符在关键词中出现的概率，建立每个字符的哈夫曼编码，然后把每个关键词编码为一个整数；　　　　３）使用全部关键词建立一张检测表；　　　　４）对文本进行扫描；　　　　５）使用该检测表，快速的进行文本内容分析。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于内容分析领域，特别涉及一种。
技术介绍
多关键词匹配(Keywords Matching)有时也称为多模式匹配(MultiplePattern Matching)或者字典匹配(Directory Matching、Set Matching)，是一个经典的算法问题，它研究从大量数据中快速匹配多个关键词(多个模式)的技术。关键词匹配算法根据对文本还是模式进行预先处理分为索引方案和非索引方案。索引方案可以对文本先进行预先处理，再进行关键词匹配。我们主要考虑是非索引方案。这种方案由于不需要对搜索文本进行预处理，所以是网络信息监控系统的核心算法。到2002年，研究报告表明算法只能处理1Gbps带宽的数据。但是网络带宽发展速度远远快于计算机硬件发展速度，实时信息检测必须同时依靠算法改进和硬件发展。当前G带宽网络下信息监控、入侵检测系统还没有很好的方案。在保证较低误报率和漏报率下有效处理网络数据流的问题还需要进一步研究。
技术实现思路
本专利技术的目的在于，提供一种，该方法能够快速处理大量关键词。本专利技术一种，是一种基于哈夫曼编码的多关键词匹配算法；其特征在于，包括如下步骤1)对关键词进行预处理；2)根据字符在关键词中出现的概率，建立每个字符的哈夫曼编码，然后把每个关键词编码为一个整数；3)使用全部关键词建立一张检测表；4)对文本进行扫描；5)使用该检测表，快速的进行文本内容分析。其中步骤4)所述的对文本进行扫描哈夫曼从左往右一边扫描文本一边把这部分文本编码为一个整数，再使用一个检测表来判断是否匹配了任何一个关键词。具体实施例方式我们设计的一种基于哈夫曼...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：谭建龙，卜东波，张鑫，余智华，郭莉，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人