本发明专利技术提供一种对疑似词进行处理的方法和装置,该方法包括:将获取的待检测文本通过nameko微服务框架进行分发;将分发的文本切割为单词数组;利用深度优先算法遍历单词数组的单词个体,获取疑似词;将疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;利用nameko微服务框架消费者调用代码完成对疑似词组的处理。通过本发明专利技术业务方客户端无需等待,将需要处理的数据分发到指定消息队列即可,不会影响业务服务器,处理过程独立成一套微服务,可以单独更新启动及维护,当需要改变疑似词组合时,仅在疑似词服务器上进行即可,可达到实时效果;同时,在匹配方面,疑似词树启动时只需构建一次树结构,存在内存缓存,检测速度快。
Methods and devices for handling suspected words
【技术实现步骤摘要】
对疑似词进行处理的方法和装置
本专利技术涉及计算机
,尤其涉及一种对疑似词进行处理的方法和装置。
技术介绍
服务器在待处理文本所处的消息队列里,会对一些没有出现在字典中的词我们称为“疑似词”进行处理,通常会利用服务器对疑似词的组合完成查询和更新,每查询一次就要更新一次业务代码,这样在待检测文本数据很大的情况下,会由于每次的更新和疑似词的重新匹配,导致匹配效率降低,且服务器工作负荷加重。鉴于此,急需一种对疑似词进行快速处理且不影响服务器正常运行的方法。
技术实现思路
为了解决现有技术匹配效率低,服务器负荷加重的问题,本专利技术提供一种对疑似词进行处理的方法和装置。第一方面,本专利技术提供一种对疑似词进行处理的方法,该方法包括:将获取的待检测文本通过nameko微服务框架进行分发;将分发的文本切割为单词数组;利用深度优先算法遍历单词数组的单词个体,获取疑似词;将疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;利用nameko微服务框架消费者调用代码完成对疑似词组的处理。进一步地,利用深度优先算法遍历单词数组的单词个体,获取疑似词包括;利用nameko微服务框架内多个消费者,完成深度优先算法遍历对单词数组的单词个体,获取疑似词。进一步地,利用nameko微服务框架消费者调用代码完成对疑似词组的处理包括:将疑似词组输入待处理消息队列中;nameko微服务框架消费者调用代码,对待处理消息队列中的疑似词组进行处理。进一步地,利用nameko微服务框架消费者调用代码完成对疑似词组的处理之后还包括:获取疑似词组的处理结果;利用Flask构建的web服务,对疑似词组的处理结果进行实时查看。第二方面,本专利技术提供一种对疑似词进行处理的装置,该装置包括:分发模块,用于将获取的待检测文本通过nameko微服务框架进行分发;切割模块,用于将分发的文本切割为单词数组;疑似词获取模块,用于利用深度优先算法遍历单词数组的单词个体,获取疑似词;匹配组合模块,用于将疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;处理模块,用于利用nameko微服务框架消费者调用代码完成对疑似词组的处理。进一步地,疑似词获取模块包括:遍历单元,用于利用nameko微服务框架内多个消费者,完成深度优先算法遍历对单词数组的单词个体,获取疑似词。进一步地,处理模块包括:输入消息队列单元,用于将疑似词组输入待处理消息队列中;疑似词组处理单元,用于nameko微服务框架消费者调用代码,对待处理消息队列中的疑似词组进行处理。进一步地,处理模块之后还包括:处理结果获取模块,用于获取疑似词组的处理结果;实时查看模块,用于利用Flask构建的web服务,对疑似词组的处理结果进行实时查看。第三方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面提供的对疑似词进行处理的方法的步骤。第四方面,本专利技术提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的对疑似词进行处理的方法的步骤。本专利技术提供的对疑似词进行处理的方法和装置,业务方客户端无需等待,将需要处理的数据分发到指定消息队列即可,不会影响业务服务器,处理过程独立成一套微服务,可以单独更新启动及维护,当需要改变疑似词组合时,仅在疑似词服务器上进行即可,无需整套业务代码服务器更新,可达到实时效果;同时,在匹配方面,疑似词树启动时只需构建一次树结构,存在内存缓存,检测速度快,普通的匹配过程会随着待检测文本的增大,效率耗时成本迅速增加,而采用该树行结构算法,无需根据疑似词数量匹配多次,待检测文本再大也只需要检测一次,当文本内容越多情况下,匹配效率的下降较少。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的对疑似词进行处理的方法流程示意图;图2为本专利技术另一实施例提供的对疑似词进行处理的方法流程示意图;图3为本专利技术实施例提供的对疑似词进行处理的装置框图;图4为本专利技术另一实施例提供的对疑似词进行处理的装置框图;图5为本专利技术实施例提供的电子设备框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。利用服务器对疑似词的组合完成查询和更新,每查询一次就要更新一次业务代码,这样在待检测文本数据很大的情况下,会由于每次的更新和疑似词的重新匹配,导致匹配效率降低,且服务器工作负荷加重。为了解决上述问题,本专利技术实施例提供一种对疑似词进行处理的方法,如图1所示,该方法包括:步骤S101,将获取的待检测文本通过nameko微服务框架进行分发;步骤S102,将分发的文本切割为单词数组;步骤S103,利用深度优先算法遍历单词数组的单词个体,获取疑似词;步骤S104,将疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;步骤S105,利用nameko微服务框架消费者调用代码完成对疑似词组的处理。具体为,客户端将需要检测的项目标识和文本内容通过nameko微服务框架的事件分发,将指定待检测文本丢入待处理消息队列中,这个分发过程异步,不影响业务端流程,客户端无需关心处理逻辑和流程。基于树结构,将每个词切割成单个词,利用字典将所有词构建成树结构,启动服务后只需构建一次树结构,待检测的文本先切割为单词数组,然后使用深度优先遍历算法遍历数组中的单词个体,即单个字,依次深度优先遍历疑似词树本文档来自技高网...
【技术保护点】
1.一种对疑似词进行处理的方法,其特征在于,所述方法包括:/n将获取的待检测文本通过nameko微服务框架进行分发;/n将所述分发的文本切割为单词数组;/n利用深度优先算法遍历所述单词数组的单词个体,获取疑似词;/n将所述疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;/n利用nameko微服务框架消费者调用代码完成对所述疑似词组的处理。/n
【技术特征摘要】
1.一种对疑似词进行处理的方法,其特征在于,所述方法包括:
将获取的待检测文本通过nameko微服务框架进行分发;
将所述分发的文本切割为单词数组;
利用深度优先算法遍历所述单词数组的单词个体,获取疑似词;
将所述疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;
利用nameko微服务框架消费者调用代码完成对所述疑似词组的处理。
2.根据权利要求1所述的方法,其特征在于,所述利用深度优先算法遍历所述单词数组的单词个体,获取疑似词包括;
利用nameko微服务框架内多个消费者,完成深度优先算法遍历对所述单词数组的单词个体,获取疑似词。
3.根据权利要求2所述的方法,其特征在于,所述利用nameko微服务框架消费者调用代码完成对所述疑似词组的处理包括:
将所述疑似词组输入待处理消息队列中;
nameko微服务框架消费者调用代码,对所述待处理消息队列中的疑似词组进行处理。
4.根据权利要求1所述的方法,其特征在于,所述利用nameko微服务框架消费者调用代码完成对所述疑似词组的处理之后还包括:
获取疑似词组的处理结果;
利用Flask构建的web服务,对所述疑似词组的处理结果进行实时查看。
5.一种对疑似词进行处理的装置,其特征在于,所述装置包括:
分发模块,用于将获取的待检测文本通过nameko微服务框架进行分发;
切割模块,用于将所述分发的文本切割为单词数组;
【专利技术属性】
技术研发人员:尹永华,黄培,侯亚乾,
申请(专利权)人:上海众言网络科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。