敏感词过滤的方法、装置、移动终端及存储介质制造方法及图纸

技术编号:18350432 阅读:33 留言:0更新日期:2018-07-01 23:39
本发明专利技术公开了一种敏感词过滤的方法,包括步骤:第一转换步骤:将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;接收步骤:接收待发送的文本文件,并存储为临时文本文件;第二转换步骤:将临时文本文件转换成临时音频数据文件并存储;比对步骤:将所述敏感词树分别与临时音频数据文件进行比对;过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端。本发明专利技术还公开了一种敏感词过滤的装置、移动终端和计算机可读存储介质。本发明专利技术在很大程度上满足信息过滤的要求,而且计算量小、速度快。

【技术实现步骤摘要】
敏感词过滤的方法、装置、移动终端及存储介质
本专利技术涉及信息过滤
,尤其涉及一种敏感词过滤的方法、装置、移动终端及存储介质。
技术介绍
目前先有的文本文件内容主要有四种敏感词过滤技术,即基于因特网内容分级平台(PICS)过滤、敏感词数据库过滤、关键字或词过滤以及智能内容理解过滤。由于信息传送者一般不会主动给其与发送的文本文件按照PICS标准贴标签,所以基于PICS过滤在实际应用中效果不大;敏感词数据库过滤方式为现有技术中应用作为广泛的方式,其将长期积累的敏感词形成的敏感词数据库(敏感词文本库)对文本内容进行逐个排查,当与敏感词一致时,则对其进行过滤,但是,由于敏感词数据库是共用或为大家所熟知的,因此,信息传送者可以采用修改待发送文本文件的方式进行规避,例如在发送文本文件中带有的敏感词中间增加空格或特殊符号,或者敏感词中部分字、词以拼音替代,这样,敏感词数据库无法对其进行识别和过滤;关键字或词过滤能够实现较快的过滤速度,但是往往不考虑文本内容,漏报、错报率较高,而且关键字词更容易规避;智能内容理解过滤技术发展不成熟,同时其计算量大、速度慢。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种敏感词过滤的方法,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。本专利技术的目的之二在于提供一种敏感词过滤的装置,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。本专利技术的目的之三在于提供一种实现上述敏感词过滤的方法的移动终端。本专利技术的目的之四在于提供一种存储上述敏感词过滤的方法的计算机可读存储介质。本专利技术的目的之一采用如下技术方案实现:一种敏感词过滤的方法,包括步骤:第一转换步骤:通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;接收步骤:接收待发送的文本文件,并存储为临时文本文件;第二转换步骤:通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;比对步骤:将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。进一步地,所述敏感词查找树结构为:根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。本专利技术的目的之二采用如下技术方案实现:一种敏感词过滤的装置,包括:第一转换模块:用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;接收模块:用于接收待发送的文本文件,并存储为临时文本文件;第二转换模块:用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;比对模块:用于将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;过滤模块:用于对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。本专利技术的目的之三采用如下技术方案实现:一种移动终端,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术目的之一的敏感词过滤的方法。本专利技术的目的之四采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行以下步骤:第一转换步骤:通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;接收步骤:接收待发送的文本文件,并存储为临时文本文件;第二转换步骤:通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;比对步骤:将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。进一步地,所述敏感词查找树结构为:根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。相比现有技术,本专利技术的有益效果在于:本专利技术在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且敏感词音频数据库只需要转换一次即可对所有文本文件进行过滤,计算量小、速度快。附图说明图1为本专利技术实施例一的敏感词过滤的方法的流程图;图2为本专利技术实施例二的敏感词过滤的装置的结构框图;图3为本专利技术实施例三的移动终端的结构示意图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。实施例一请参照图1所示,本专利技术实施例一公开了一种敏感词过滤的方法,该方法可以由硬件或/和软件来执行,其包括以下步骤:110、第一转换步骤。通过文本-语音转换将敏感词文本库转换成敏感词音频数据库。根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树。敏感词文本库为常规数据库,其由被视为敏感词的若干个敏感词组整理形成,已广泛应用于互联网中。敏感词文本库经由代理服务器中的文本-语音转换单元转换形成敏感词音频数据库。该文本-语音转换单元的转换方法有多种,其为常规技术,这里不再赘述。根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树,所述敏感词查找树结构为:根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起本文档来自技高网...
敏感词过滤的方法、装置、移动终端及存储介质

【技术保护点】
1.一种敏感词过滤的方法,其特征在于,包括步骤:第一转换步骤:通过文本‑语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;接收步骤:接收待发送的文本文件,并存储为临时文本文件;第二转换步骤:通过文本‑语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;比对步骤:将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

【技术特征摘要】
1.一种敏感词过滤的方法,其特征在于,包括步骤:第一转换步骤:通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;接收步骤:接收待发送的文本文件,并存储为临时文本文件;第二转换步骤:通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;比对步骤:将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。2.如权利要求1所述的敏感词过滤的方法,其特征在于,所述敏感词查找树结构为:根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。3.一种敏感词过滤的装置,其特征在于,包括:第一转换模块:用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;接收模块:用于接收待发送的文本文件,并存储为临时文本文件;第二转换模块:用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;比对模块:用于将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中...

【专利技术属性】
技术研发人员:邱振东
申请(专利权)人:湛江正信科技服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1