客服系统敏感词检测过滤方法和装置制造方法及图纸

技术编号:26304099 阅读:28 留言:0更新日期:2020-11-10 19:59
本发明专利技术提供了一种客服系统敏感词检测过滤方法和装置,该方法包括:构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构以生成若干树形结构;获取待测文本,提取所述待测文本的首字,在所述若干树形结构的所有首字中查询是否存在所述待测文本的首字;如果存在,则提取所述待测文本的首字后的第N个字,进入具有所述待测文本的首字的树形结构,在所述树形结构的树形分支上匹配所述第N个字,当所述树形分支上匹配不到所述第N个字时,将所述第N个字之前的所有字确定为敏感词,删除或替换确定为敏感词的所有字,N为正整数且从1开始。该方法和装置可以将客服发送的话语中的敏感词过滤掉,进而提高用户的体验。

【技术实现步骤摘要】
客服系统敏感词检测过滤方法和装置
本专利技术属于计算机
,尤其涉及一种客服系统敏感词检测过滤方法、装置、电子设备及可存储介质。
技术介绍
随着互联网技术的普及,网络服务已成为人们生活中必不可少的一部分,便利了人民的生活,在网络服务的过程中,用户和商家之间的交流往往通过客服系统实现,客服系统是用户和商家之间沟通的桥梁。客服和用户通过客服系统沟通时,难免会有一些敏感性的话语会,比如辱骂用户或者说一些敏感的话,从而影响商家的形象和品牌,现有的客服系统,对客服说的所有话语,不进行过滤便直接发送至用户端,影响用户的体验。
技术实现思路
本专利技术实施例的第一目的在于提供一种客服系统敏感词检测过滤方法,旨在解决现有客服系统无法检测和过滤客服发送的敏感词的问题。本专利技术实施例是这样实现的,一种客服系统敏感词检测过滤方法,应用于服务端,包括:构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构,不同首字的敏感词分属不同的树形结构,以生成若干树形结构;获取待测文本,提取所述待测文本的首字,在所述若干树形结构的所有首字中查询是否存在所述待测文本的首字;如果存在,则提取所述待测文本的首字后的第N个字,进入具有所述待测文本的首字的树形结构,在所述树形结构的树形分支上匹配所述第N个字,当所述树形分支上匹配不到所述第N个字时,将所述第N个字之前的所有字确定为敏感词,删除或替换确定为敏感词的所有字,以使客户端给用户显示被删除或替换后的所述待检测文本,N为正整数且从1开始。在一个实施例中,如果不存在,则提取所述待测文本的首字后的第M个字,继续在所述若干树形结构的所有首字中查询是否存在所述第M个字,当所有首字中存在所述第M个字时,则提取所述第M个字后的第K个字,进入具有所述第M个字的树形结构,在所述树形结构的树形分支上匹配所述第K个字;当所述树形分支上匹配不到所述第K个字时,将所述第M个字至所述第K个字中除所述第K个字的所有字确定为敏感词,M和K为正整数且均从1开始。在一个实施例中,所述构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构,不同首字的敏感词分属不同的树形结构,以生成若干树形结构具体包括:预先将若干敏感词固化于mysql数据库中以形成所述动态敏感词库,当客服系统启动后,服务器异步将所述动态敏感词库中具有相同首字的敏感词组合成所述树形结构。在一个实施例中,每个所述树形结构共具有X级分支节点,每个敏感词的首字为树形结构的根,首字后面的第X字为X级分支节点,X为正整数。在一个实施例中,将所有敏感词组合成的所述树形结构以首字为key的形式存储于redis数据库中。在一个实施例中,所述构建动态敏感词库还包括:获取敏感词,从所述动态敏感词库中匹配该敏感词是否存在,如果不存在,则将该敏感词更新至所述动态敏感词库中。本专利技术实施例的另一目的在于提供一种客服系统敏感词检测过滤装置,包括:敏感词库构建模块,用于构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构,不同首字的敏感词分属不同的树形结构,以生成若干树形结构;文本获取模块,用于获取待测文本,提取所述待测文本的首字,在所述若干树形结构的所有首字中查询是否存在所述待测文本的首字;文字匹配替换模块,用于如果存在,则提取所述待测文本的首字后的第N个字,进入具有所述待测文本的首字的树形结构,在所述树形结构的树形分支上匹配所述第N个字,当所述树形分支上匹配不到所述第N个字时,将所述第N个字之前的所有字确定为敏感词,删除或替换确定为敏感词的所有字,以使客户端给用户显示被删除或替换后的所述待检测文本,N为正整数且从1开始。在一个实施例中,所述敏感词库构建模块还用于预先将若干敏感词固化于mysql数据库中以形成所述动态敏感词库,当客服系统启动后,服务器异步将所述动态敏感词库中具有相同首字的敏感词组合成所述树形结构。本专利技术实施例的又一目的在于提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述客服系统敏感词检测过滤方法的步骤。本专利技术实施例的再一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述客服系统敏感词检测过滤方法的步骤。本专利技术实施例提供的一种客服系统敏感词检测过滤方法,应用于服务端,包括:构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构,不同首字的敏感词分属不同的树形结构,以生成若干树形结构;获取待测文本,提取所述待测文本的首字,在所述若干树形结构的所有首字中查询是否存在所述待测文本的首字;如果存在,则提取所述待测文本的首字后的第N个字,进入具有所述待测文本的首字的树形结构,在所述树形结构的树形分支上匹配所述第N个字,当所述树形分支上匹配不到所述第N个字时,将所述第N个字之前的所有字确定为敏感词,删除或替换确定为敏感词的所有字,以使客户端给用户显示被删除或替换后的所述待检测文本,N为正整数且从1开始。通过构建动态敏感词库,将敏感词预先加入到动态敏感词库中,将具有相同首字的敏感词生成树形结构,基于树形结构的快速检索性能,可以使得将客服输入发送的话语即所述待测文本进行快速的检测过滤,进而将敏感词过滤掉,给用户输出过滤过的话语,进而提高用户的体验。附图说明图1为本专利技术一个实施例提供的一种客服系统敏感词检测过滤方法的实现流程;图2为本专利技术另一实施例提供的一种客服系统敏感词检测过滤方法的实现流程;图3为本专利技术实施例提供的一种客服系统敏感词检测过滤装置的主要模块示意图;图4是本专利技术实施例提供的一种客服系统敏感词检测过滤方法的敏感词库的构建流程图;图5为本专利技术实施例提供的可以应用于其中的示例性系统架构图;图6为适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图;图7为本专利技术实施例提供的一种客服系统敏感词检测过滤方法的树形结构的示例图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本专利技术实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。需要指出的是,在不冲突的情况下,本专利技术中的实施例以及实施例中的特征可以互相组合。为了本文档来自技高网...

【技术保护点】
1.一种客服系统敏感词检测过滤方法,应用于服务端,其特征在于,包括:/n构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构,不同首字的敏感词分属不同的树形结构,以生成若干树形结构;/n获取待测文本,提取所述待测文本的首字,在所述若干树形结构的所有首字中查询是否存在所述待测文本的首字;/n如果存在,则提取所述待测文本的首字后的第N个字,进入具有所述待测文本的首字的树形结构,在所述树形结构的树形分支上匹配所述第N个字,当所述树形分支上匹配不到所述第N个字时,将所述第N个字之前的所有字确定为敏感词,删除或替换确定为敏感词的所有字,以使客户端给用户显示被删除或替换后的所述待检测文本,N为正整数且从1开始。/n

【技术特征摘要】
1.一种客服系统敏感词检测过滤方法,应用于服务端,其特征在于,包括:
构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构,不同首字的敏感词分属不同的树形结构,以生成若干树形结构;
获取待测文本,提取所述待测文本的首字,在所述若干树形结构的所有首字中查询是否存在所述待测文本的首字;
如果存在,则提取所述待测文本的首字后的第N个字,进入具有所述待测文本的首字的树形结构,在所述树形结构的树形分支上匹配所述第N个字,当所述树形分支上匹配不到所述第N个字时,将所述第N个字之前的所有字确定为敏感词,删除或替换确定为敏感词的所有字,以使客户端给用户显示被删除或替换后的所述待检测文本,N为正整数且从1开始。


2.根据权利要求1所述的客服系统敏感词检测过滤方法,其特征在于,如果不存在,则提取所述待测文本的首字后的第M个字,继续在所述若干树形结构的所有首字中查询是否存在所述第M个字,当所有首字中存在所述第M个字时,则提取所述第M个字后的第K个字,进入具有所述第M个字的树形结构,在所述树形结构的树形分支上匹配所述第K个字;当所述树形分支上匹配不到所述第K个字时,将所述第M个字至所述第K个字中除所述第K个字的所有字确定为敏感词,M和K为正整数且均从1开始。


3.根据权利要求1所述的客服系统敏感词检测过滤方法,其特征在于,所述构建动态敏感词库,将所述动态敏感词库中具有相同首字的敏感词组合成一个树形结构,不同首字的敏感词分属不同的树形结构,以生成若干树形结构具体包括:预先将若干敏感词固化于mysql数据库中以形成所述动态敏感词库,当客服系统启动后,服务器异步将所述动态敏感词库中具有相同首字的敏感词组合成所述树形结构。


4.根据权利要求1所述的客服系统敏感词检测过滤方法,其特征在于,每个所述树形结构共具有X级分支节点,每个敏感词的首字为树形结构的根,首字后面的第X字为X级分支节点,X为正整数。


5.根据权利要求1所述的客服系统敏感词检测...

【专利技术属性】
技术研发人员:熊欢赵坤阳林健吴林强
申请(专利权)人:杭州城市大数据运营有限公司湖州市大数据运营有限公司杭州中云数据科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1