关键词匹配方法及装置、电子设备和可读存储介质制造方法及图纸

技术编号:18497233 阅读:24 留言:0更新日期:2018-07-21 20:14
本发明专利技术实施例提供一种关键词匹配方法及装置、电子设备和可读存储介质。该方法包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。从而可以提高关键词匹配的准确性和匹配效率。

Keyword matching method and device, electronic device and readable storage medium

The embodiment of the invention provides a keyword matching method and device, an electronic device and a readable storage medium. The method includes the identification of the target word library from the local cache and the identification of the target server in which the target word library is located, the lexicon is a set of multiple keywords, and the different thesaurus are divided in dimensions and distributed on a number of servers distributed, and the dimensions are used to distinguish different scenarios; According to the identification of the target word library and the identification of the target server, the target word library is obtained from the target server, and the matching results are obtained according to the attributes of the key words to be matched and the key words in the target word library. The attribute is the specific meaning of the keyword in the target word library corresponding to the dimension. So that the accuracy and matching efficiency of keyword matching can be improved.

【技术实现步骤摘要】
关键词匹配方法及装置、电子设备和可读存储介质
本专利技术实施例涉及计算机领域,尤其涉及一种关键词匹配方法及装置、电子设备和可读存储介质。
技术介绍
现如今,各大网站或应用程序(APP)的相应页面每天都会有大量的帖子发布,有的帖子内容是符合规定的,有的帖子是违规的(如涉黄、涉暴),因此需要一种能对文本特定关键词进行匹配、检测的系统,能在用户发帖的第一时间判断该用户所发帖子是否符合规定,从而对违规的帖子及时拦截处理。现有技术中的关键词匹配系统,采用的是定制化的开发模式,定制化的开发模式具体含义是:所有关键词存储在一个关键词词库中,关键词词库中按照关键词所包含的总的字符个数存储关键词,如“开发成本”对应存储的就是4个字符“开发成本”,在关键词匹配时采用一对一的方式进行匹配。上述方式中,由于对关键词的命中有一定的局限性,因此准确性不高,且匹配效率较低。
技术实现思路
本专利技术实施例提供一种关键词匹配方法及装置、电子设备和可读存储介质,以提高关键词匹配的准确性和匹配效率。第一方面,本专利技术实施例提供一种关键词匹配方法,包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。可选的,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。可选的,所述从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,包括:从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。可选的,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。可选的,所述方法还包括:对待检测的文本进行关键词划分,得到多个待匹配关键词。第二方面,本专利技术实施例提供一种关键词匹配装置,包括:查找模块,用于从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;获取模块,用于根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;匹配模块,用于根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。可选的,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。可选的,所述查找模块用于:从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。可选的,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。可选的,所述装置还包括:划分模块,用于对待检测的文本进行关键词划分,得到多个待匹配关键词。第三方面,本专利技术实施例提供一种电子设备,包括:存储器,用于存储程序指令;处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面的关键词匹配方法。第四方面,本专利技术实施例提供一种可读存储介质,可读存储介质中存储有计算机程序,当关键词匹配装置的至少一个处理器执行该计算机程序时,关键词匹配装置执行第一方面的关键词匹配方法。第五方面,本专利技术实施例提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。关键词匹配装置的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得关键词匹配装置实施第一方面的关键词匹配方法。本实施例提供的关键词匹配方法及装置、电子设备和可读存储介质,通过从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库,根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。其中不同的词库以维度划分且被分布式缓存在多个服务器上,不同的维度下关键词的属性不同,一方面,词库以维度划分可以区分关键词在不同场景下的含义,从而可以提高关键词匹配的准确性,另一方面,采用分布式缓存可同时匹配多个词库,提高匹配效率,还可防止某一服务器宕机不能工作,提升性能。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种关键词匹配方法实施例的流程图;图2为本专利技术实施例中字典树的数据结构示意图;图3为本专利技术实施例提供的另一种关键词匹配方法实施例的流程图;图4为本专利技术实施例提供的一种关键词匹配装置实施例的结构示意图;图5为本专利技术实施例提供的另一种关键词匹配装置实施例的结构示意图;图6为本专利技术实施例提供的一种关键词匹配装置实施例的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术实施例一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。现有的关键词匹配方法中,首先所有关键词存储在一个关键词词库中,关键词词库中按照关键词所包含的总的字符个数存储关键词,如“开发成本”对应存储的就是4个字符“开发成本”,在关键词匹配时采用一对一的方式进行匹配,关键词在不同场景下含义不同,因此在关键词的匹配时对关键词的命中有一定的局限性,因此准确性不高,其次,在关键词匹配时采用一对一的方式进行匹配,因此匹配效率较低。为解决上述问题,本申请中,在存储关键词时,不同的词库以关键词的维度(用于区分不同场景)划分且被分布式缓存在多个服务器上,本地缓存中存储关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,在关键词匹配时,首先根据关键词的属性在本地缓存中查找出关键词所属的词库的标识和词库所在的服务器的标识,从服务器获取关键词所属的词库,然后进行关键词匹配,在本地缓存进行关键词匹配,词库以关键词的维度划分且被以分布式缓存的方式存储在多个服务器上,一方面可以区分关键词在不同场景下的含义,从而可以提高关键词匹配的准确性,另一方面可同时匹配多个词库,提高匹配效率。进一步地,本申请中采用字典树的数据结构存储,一方面考虑到关键词的拆分,可以节省存储容量,另一方面可以毫秒内查找出关键词本文档来自技高网...

【技术保护点】
1.一种关键词匹配方法,其特征在于,包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。

【技术特征摘要】
1.一种关键词匹配方法,其特征在于,包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。2.根据权利要求1所述的方法,其特征在于,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。3.根据权利要求2所述的方法,其特征在于,所述从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,包括:从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。4.根据权利要求1所述的方法,其特征在于,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。5.根据权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:对待检测的文本进行关键词划分,得到多个待匹配关键词。6.一种关键词匹配装置,其特征在于,包括:查找模块,用于从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不...

【专利技术属性】
技术研发人员:张忠飞
申请(专利权)人:北京城市网邻信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1