一种文本敏感词过滤系统和方法技术方案

技术编号:12875879 阅读:66 留言:0更新日期:2016-02-17 12:14
本发明专利技术提供了一种文本敏感词过滤系统,其包括:第一转换单元,用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库;接收单元,用于接收待发送的文本文件;第二转换单元,用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储;判断单元,用于将所述敏感词音频数据组分别与临时音频数据文件进行比对;过滤单元,用于对临时文本文件进行过滤,并发送至接收终端。本发明专利技术还公开了一种文本敏感词过滤方法。本发明专利技术在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。

【技术实现步骤摘要】

本专利技术涉及信息过滤
,具体涉及基于语音的文本敏感词过滤系统和方法
技术介绍
目前先有的文本文件内容主要有四种敏感词过滤技术,即基于因特网内容分级平台(PICS)过滤、敏感词数据库过滤、关键字或词过滤以及智能内容理解过滤。由于信息传送者一般不会主动给其与发送的文本文件按照PICS标准贴标签,所以基于PICS过滤在实际应用中效果不大;敏感词数据库过滤方式为现有技术中应用作为广泛的方式,其将长期积累的敏感词形成的敏感词数据库(敏感词文本库)对文本内容进行逐个排查,当与敏感词一致时,则对其进行过滤,但是,由于敏感词数据库是共用或为大家所熟知的,因此,信息传送者可以采用修改待发送文本文件的方式进行规避,例如在发送文本文件中带有的敏感词中间增加空格或特殊符号,或者敏感词中部分字、词以拼音替代,这样,敏感词数据库无法对其进行识别和过滤;关键字或词过滤能够实现较快的过滤速度,但是往往不考虑文本内容,漏报、错报率较高,而且关键字词更容易规避;智能内容理解过滤技术发展不成熟,同时其计算量大、速度慢。
技术实现思路
针对以上不足,本专利技术的目的之一在于提供一种文本敏感词过滤系统,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。为了实现上述目的,本专利技术通过下列技术方案来实现:一种文本敏感词过滤系统,其包括:第一转换单元,用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组;接收单元,用于通过第一网络接收待发送的文本文件,并存储为临时文本文件;第二转换单元,用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;判断单元,用于将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置;过滤单元,用于对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。本专利技术的另一目的在于提供一种文本敏感词过滤方法,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。为了实现上述目的,本专利技术通过下列技术方案来实现:—种文本敏感词过滤方法,其包括以下步骤:步骤1、通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组;步骤2、通过第一网络接收待发送的文本文件,并存储为临时文本文件;步骤3、通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;步骤4、将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置;步骤5、对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。与现有技术相比,本专利技术的有益效果在于:本专利技术在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且敏感词音频数据库只需要转换一次即可对所有文本文件进行过滤,计算量小、速度快。【附图说明】图1是本专利技术文本敏感词过滤系统的结构框图;图2是本专利技术文本敏感词过滤方法的流程图。【具体实施方式】下面结合附图和【具体实施方式】对本专利技术的内容做进一步详细说明。请参照图1和2所示,一种文本敏感词过滤方法,其包括以下步骤:S101、通过文本-语音转换将敏感词文本库转换成敏感词音频数据库。敏感词文本库1为常规数据库,其由被视为敏感词的若干个敏感词组整理形成,已广泛应用于互联网中。敏感词文本库1经由代理服务器4中的文本-语音转换单元42转换形成敏感词音频数据库44。该文本-语音转换单元42的转换方法有多种,其为常规技术,这里不再赘述。敏感词音频数据库44包括若干个敏感词音频数据组,敏感词音频数据组与敏感词组为一一对应关系。敏感词音频数据库44存储于代理服务器4中,只有在敏感词文本库1更新后,才进行一次敏感词文本库1的音频转换,并且这时只需要对更新的敏感词组进行转换即可,计算量小。S102、通过第一网络接收待发送的文本文件,并存储为临时文本文件。待发送的文本文件1存储于发送终端上,发送终端可以是手机、平板电脑、PC机等设备,第一网络2可以为有线网络或无线网络,临时文本文件41存储于代理服务器4中,避免了重复调用文本文件1的可能性。S103、通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储。临时文本文件41通过文本-语音转换单元42转换形成临时音频数据文件43,该临时音频数据文件43也存储于代理服务器4中,同时临时文本文件41和临时音频数据文件43在内容上是相关联的,也就是临时文本文件41中的每个字均对应临时音频数据文件43中的一个音频数据,对于临时文本文件41中的标点、特殊符号、空格以及乱码等,则可直接忽略。S104、将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置。通过代理服务器4中的过滤单元45在临时音频数据文件43中遍历敏感词音频数据库44中的每个敏感词音频数据组,当临时音频数据文件43具有一致的敏感词音频数据组,则对该敏感词音频数据组以及其位置进行标记。S105、对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。在临时音频数据文件43标记的敏感词音频数据组及其位置,必然在临时文本文件41中的相应位置具有一定与该敏感词音频数据组相关联的文本内容(该文本内容中可能会出现的标点、特殊符号、空格以及乱码等),然后将这些文本内容进行删除后的临时文本文件41通过第二网络5发送给接收终端6,从而完成了文本敏感词的过滤。上述实施例只是为了说明本专利技术的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本专利技术的内容并据以实施,并不能以此限制本专利技术的保护范围。凡是根据本
技术实现思路
的实质所做出的等效的变化或修饰,都应涵盖在本专利技术的保护范围内。【主权项】1.一种文本敏感词过滤系统,其特征在于,其包括: 第一转换单元,用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组; 接收单元,用于通过第一网络接收待发送的文本文件,并存储为临时文本文件; 第二转换单本文档来自技高网
...

【技术保护点】
一种文本敏感词过滤系统,其特征在于,其包括:第一转换单元,用于通过文本‑语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组;接收单元,用于通过第一网络接收待发送的文本文件,并存储为临时文本文件;第二转换单元,用于通过文本‑语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;判断单元,用于将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置;过滤单元,用于对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨晨阳
申请(专利权)人:广州市畅运信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1