The embodiment of the invention provides a keyword matching method and device, an electronic device and a readable storage medium. The method includes the identification of the target word library from the local cache and the identification of the target server in which the target word library is located, the lexicon is a set of multiple keywords, and the different thesaurus are divided in dimensions and distributed on a number of servers distributed, and the dimensions are used to distinguish different scenarios; According to the identification of the target word library and the identification of the target server, the target word library is obtained from the target server, and the matching results are obtained according to the attributes of the key words to be matched and the key words in the target word library. The attribute is the specific meaning of the keyword in the target word library corresponding to the dimension. So that the accuracy and matching efficiency of keyword matching can be improved.
【技术实现步骤摘要】
关键词匹配方法及装置、电子设备和可读存储介质
本专利技术实施例涉及计算机领域,尤其涉及一种关键词匹配方法及装置、电子设备和可读存储介质。
技术介绍
现如今,各大网站或应用程序(APP)的相应页面每天都会有大量的帖子发布,有的帖子内容是符合规定的,有的帖子是违规的(如涉黄、涉暴),因此需要一种能对文本特定关键词进行匹配、检测的系统,能在用户发帖的第一时间判断该用户所发帖子是否符合规定,从而对违规的帖子及时拦截处理。现有技术中的关键词匹配系统,采用的是定制化的开发模式,定制化的开发模式具体含义是:所有关键词存储在一个关键词词库中,关键词词库中按照关键词所包含的总的字符个数存储关键词,如“开发成本”对应存储的就是4个字符“开发成本”,在关键词匹配时采用一对一的方式进行匹配。上述方式中,由于对关键词的命中有一定的局限性,因此准确性不高,且匹配效率较低。
技术实现思路
本专利技术实施例提供一种关键词匹配方法及装置、电子设备和可读存储介质,以提高关键词匹配的准确性和匹配效率。第一方面,本专利技术实施例提供一种关键词匹配方法,包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。可选的,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词 ...
【技术保护点】
1.一种关键词匹配方法,其特征在于,包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。
【技术特征摘要】
1.一种关键词匹配方法,其特征在于,包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。2.根据权利要求1所述的方法,其特征在于,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。3.根据权利要求2所述的方法,其特征在于,所述从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,包括:从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。4.根据权利要求1所述的方法,其特征在于,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。5.根据权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:对待检测的文本进行关键词划分,得到多个待匹配关键词。6.一种关键词匹配装置,其特征在于,包括:查找模块,用于从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不...
【专利技术属性】
技术研发人员:张忠飞,
申请(专利权)人:北京城市网邻信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。