一种基于多词表的关键词快速匹配的系统技术方案

技术编号:6660916 阅读:228 留言:0更新日期:2012-04-11 18:40
本实用新型专利技术公开了一种基于多词表的关键词快速匹配的系统,包括:web服务器(1)、文本处理设备(3)、关键词服务器(2)和设于关键词服务器(2)上的词表存储设备(4);其中,web服务器(1)与文本处理设备(3)和关键词服务器(2)分别连接,文本处理设备(3)连接关键词服务器(2);本实用新型专利技术通过在服务器中设置词表存储设备,来存储按照关键词内容划分的多个词表,关键词匹配时,直接调用对应的词表,无需另行建立词表,节约了建表时间,从而提高了关键词匹配速度。另外,本实用新型专利技术由于设置了专门的关键词服务器,使关键词服务器应用范围变得广泛,既可以用于查找好友时对姓名的过滤,也可以用于对关键词的定位,可扩展性强。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本技术涉及一种基于多词表的关键词快速匹配的系统,属于文本数据检索领 域。
技术介绍
多关键词匹配时计算机科学领域中的基本问题之一,它需要解决的问题就是快速 准确地判断某一文本或数据块中是否包含给定的关键词集合中的某个或者某些关键词。随 着互联网技术的飞速发展和网络应用的普及,数据处理量日益增大。在网络应用环境中,存 在大量的实时数据处理的需求。同时网络攻击行为和手段的日益复杂化,病毒的不断涌现, 网络安全应用的关键词规模也随之不断扩大。网络内容及敏感信息过滤所用到的规则集一 般是几万条,甚至更多。现有的多关键词匹配技术,通常对任何关键词的查找都使用一个词库,对词库中 所有的词都进行查找。由于网络关键词的规模扩大,使得查找范围变大,过滤不相关的关键 词的工作量也增加,导致查找速度慢、效率低,并且查找的过程中还需要根据关键词的查找 来另行建立关键词的集合词表,会占用一定的存储空间更需要花费时间,查询效率低。以上 多关键词匹配技术的缺陷,会导致关键词匹配的速度下降,给用户带来不好的检索体验。
技术实现思路
本技术的目的在于,提供一种基于多词表的关键词快速匹配的系统,它能够 把词库中的关键词按照内容的不同划分为多个词表,从而提高了关键词的匹配速度。为解决上述技术问题,本技术采用如下的技术方案一种基于多词表的关键 词快速匹配的系统,它包括web服务器,用于将接收到的关键词查询请求发送给文本处理设备,查找词表存储 设备中与之对应的词表发送给关键词服务器;文本处理设备,用于将需要进行关键词查找的文本信息发送给关键词服务器;关键词服务器,用于结合词表和文本信息进行检索匹配,将匹配结果返回给web 服务器;设于关键词服务器上的词表存储设备,用于存储多个词表,所述词表为按照不同 内容划分的关键词的集合;其中,web服务器与文本处理设备和关键词服务器分别连接,文本处理设备连接关 键词服务器。本技术设置词表存储设备,将词库中的关键词按照内容的不同划分为多小 个词表,查找时根据关键词直接调用相应的小词表,而不是统一使用一个大词表对词库中 所有的词进行查找,减少了词表容量,进行关键词匹配时无需另行建立词表,节约了建表时 间,提高了匹配速度。所述web服务器,根据关键词所涉及的类别,查找词表存储设备中与之对应的词表,将词表发送给关键词服务器。所述的文本处理设备,根据客户端设备发出的请求,将需要进行关键词查找的文 本信息发送给关键词服务器。所述的关键词服务器,结合web服务器提供的词表和文本处理设备提供的文本进 行检索匹配。所述的文本信息是以电子形式存储的信息,并且文本长度比较大,从几个字节到 几千字节,甚至更大。用户可能对文本的内容并不感兴趣,只是想找出关键词所处的位置, 或者想快速定位到关键词的位置,查看关键词前后的内容,或者想知道被查找的文本中有 没有他输入的关键词。所述词表中的关键词的长度是不相等的。本技术所述的词表常驻在内存,不 需要查找时再根据关键词另行建立。词表按照一定的内容进行划分,对于不同的搜索或检 索,使用不同的词表。例如对于对话的内容和日志的标题就需要使用不同的词表进行过滤。前述的一种基于多词表的关键词快速匹配的系统中,所述的关键词服务器设有两 个数据接口,分别与文本处理设备和web服务器连接。其中一个接口用于接收词表,另一个 用于接收文本内容。这种结构具有使用方便,简洁,通用性强等优点。前述的一种基于多词表的关键词快速匹配的系统中,所述关键词服务器中设有结 果处理设备,用于向web服务器返回匹配结果。当前文本中有词表中的关键词时,返回匹配 成功信息,当前文本中没有词表中的关键词时,返回匹配失败信息。为了让用户使用方便, 无论是匹配成功还是匹配失败,都给用户返回一个消息,以通知用户查到的结果。与现有技术相比,本技术通过在服务器中设置词表存储设备,来存储按照词 库中关键词内容的不同划分为多个小词表,减少了词表容量,需要进行关键词匹配时,直接 从词表存储设备中调用对应的词表,无需另行建立词表,节约了建表时间,从而提高了关键 词的匹配速度。另外,本技术由于设置了专门的关键词服务器,使关键词服务器的应用 范围变得广泛,既可以用于查找好友时对姓名的过滤,也可以用于对关键词的定位,可扩展 性强,关键词服务器具有两个数据接口,分别与web服务器连接,这种结构具有使用方便, 简洁,通用性强等优点。附图说明图1是本技术的一种实施例的结构示意图;图2是本技术的一种实施例的工作流程图。附图中的标记1- web服务器,2-关键词服务器,3-文本处理设备,4-词表存储设 备,5-结果处理设备。以下结合附图和具体实施方式对本技术作进一步的说明。具体实施方式本技术的实施例一种基于多词表的关键词快速匹配的系统,结构如图1所 示;包括web服务器1,用于接收客户端设备发出的关键词查询请求并将此信息发送给文 本处理设备3,同时根据关键词所涉及的类别,查找词表存储设备4中与之对应的词表,将词表发送给关键词服务器2 ;文本处理设备3,用于根据客户端设备发出的请求,将需要进行关键词查找的文本 信息发送给关键词服务器2 ;关键词服务器2,用于结合web服务器1提供的词表和文本处理设备3提供的文本 进行检索匹配,得到匹配结果并将结果返回给web服务器1 ;设于关键词服务器2上的词表存储设备4,用于存储多个词表,所述词表为按照不 同内容划分的关键词的集合;其中,web服务器1与文本处理设备3和关键词服务器2分别连接,文本处理设备 3连接关键词服务器2。所述web服务器,根据关键词所涉及的类别,查找词表存储设备中与之对应的词 表,将词表发送给关键词服务器。所述的文本处理设备,根据客户端设备发出的请求,将需要进行关键词查找的文 本信息发送给关键词服务器。所述的关键词服务器,结合web服务器提供的词表和文本处理设备提供的文本进 行检索匹配。所述的文本信息是以电子形式存储的信息,并且文本长度比较大,从几个字节到 几千字节,甚至更大。用户可能对文本的内容并不感兴趣,只是想找出关键词所处的位置, 或者想快速定位到关键词的位置,查看关键词前后的内容,或者想知道被查找的文本中有 没有他输入的关键词。所述词表中的关键词的长度是不相等的。本技术所述的词表常驻在内存,不 需要查找时再根据关键词另行建立。词表按照一定的内容进行划分,对于不同的搜索或检 索,使用不同的词表。例如对于对话的内容和日志的标题就需要使用不同的词表进行过滤。所述的关键词服务器2具有两个数据接口,分别与文本处理设备3和web服务器 1连接;其中一个接口用于接收词表,另一个用于接收文本内容。这种结构具有使用方便, 简洁,通用性强等优点。所述关键词服务器2中设有结果处理设备5,用于向web服务器1返回匹配结果, 当前文本中有词表中的关键词时,返回匹配成功信息,当前文本中没有词表中的关键词时, 返回匹配失败信息。为了让用户使用方便,无论是匹配成功还是匹配失败,都给用户返回一 个消息,以通知用户查到的结果。本技术的工作流程(如图2所示)SlO 接收关键词查询请求;S20 :web服务器将需要进行关键词查找的文本信息发送给关键词服务器;S30 :web服本文档来自技高网...

【技术保护点】
一种基于多词表的关键词快速匹配的系统,其特征在于,包括:  web服务器(1),用于将接收到的关键词查询请求发送给文本处理设备(3),查找词表存储设备(4)中与之对应的词表发送给关键词服务器(2);  文本处理设备(3),用于将需要进行关键词查找的文本信息发送给关键词服务器(2);  关键词服务器(2),用于结合词表和文本信息进行检索匹配,将匹配结果返回给web服务器(1);  设于关键词服务器(2)上的词表存储设备(4),用于存储多个词表;  其中,web服务器(1)与文本处理设备(3)和关键词服务器(2)分别连接,文本处理设备(3)连接关键词服务器(2)。

【技术特征摘要】

【专利技术属性】
技术研发人员:熊家贵洪林伍星
申请(专利权)人:北京开心人信息技术有限公司
类型:实用新型
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1