检测词汇的方法与装置制造方法及图纸

技术编号:8271491 阅读:188 留言:0更新日期:2013-01-31 03:44
本发明专利技术提供一种检测词汇的方法与装置,方法包括:步骤a:提取待检测文本中的待检测字符;步骤b:判断待检测字符是否为干扰词汇,当判断结果为是时,转为步骤c,否则转为步骤d;步骤c:提取待检测文本中与待检测字符相邻的下一个字符作为待检测字符,并转为步骤b;步骤d:将待检测字符作为待组合字符,存储到缓存区;步骤e:根据缓存区中各待组合字符获取待检测词汇;步骤f:判断待检测词汇是否为敏感词。根据本发明专利技术的检测词汇的方法与装置,能够通过去除待检测文本中的干扰词汇以有效判断敏感词。

【技术实现步骤摘要】
本专利技术涉及字符校对技术,尤其涉及一种检测词汇的方法与装置
技术介绍
随着信息的爆炸式增长,信息传递途径越来越多样化,例如可以通过论坛、短信、微博和聊天工具等多种方式传递文本信息。为了防止不良信息的传播,需要对文本信息进行过滤,达到净化信息的目的。目前对文本信息进行过滤的方式一般是检测并屏蔽敏感词,即采用敏感词库中的词汇对文本信息进行全文匹配,具体做法是把敏感词库中的所有词汇依次对文本信息进行比对,如果词汇被完全包含在文本信息中,就认为该文本信息中包含敏感词,将这些敏感词屏蔽或禁止该文本信息发布。·但是,很多敏感词为了防止被过滤掉,会在敏感词中间夹杂无意义的干扰词汇,以避开敏感词检测。例如,当“救护车”为敏感词时,会将“救护车”写成“救##护##车”的方式以避开敏感词检测。因此,需要一种方法,能够对这些夹杂干扰词汇的敏感词进行有效检测。
技术实现思路
本专利技术提供一种检测词汇的方法与装置,以解决现有技术无法检测夹杂干扰词汇的敏感词的缺陷。本专利技术第一个方面提供一种检测词汇的方法,包括步骤a :提取待检测文本中的待检测字符;步骤b:判断所述待检测字符是否为干扰词汇,当判断结果为是时,转为本文档来自技高网...

【技术保护点】
一种检测词汇的方法,其特征在于,包括:步骤a:提取待检测文本中的待检测字符;步骤b:判断所述待检测字符是否为干扰词汇,当判断结果为是时,转为步骤c,否则,转为步骤d;步骤c:提取所述待检测文本中与所述待检测字符相邻的下一个字符作为待检测字符,并转为步骤b;步骤d:将所述待检测字符作为待组合字符,存储到缓存区;步骤e:根据所述缓存区中的各待组合字符获取待检测词汇;步骤f:判断所述待所述检测词汇是否为敏感词。

【技术特征摘要】
1.一种检测词汇的方法,其特征在于,包括 步骤a :提取待检测文本中的待检测字符; 步骤b:判断所述待检测字符是否为干扰词汇,当判断结果为是时,转为步骤C,否则,转为步骤d ; 步骤c :提取所述待检测文本中与所述待检测字符相邻的下一个字符作为待检测字符,并转为步骤b; 步骤d :将所述待检测字符作为待组合字符,存储到缓存区; 步骤e :根据所述缓存区中的各待组合字符获取待检测词汇; 步骤f :判断所述待所述检测词汇是否为敏感词。2.根据权利要求I所述的检测词汇的方法,其特征在于,还包括 当判断出所述待检测词汇为敏感词时,标识所述敏感词,清空所述缓存区,转为步骤C。3.根据权利要求I或2所述的检测词汇的方法,其特征在于,所述根据各待组合字符获取待检测词汇包括 按照所述待组合字符存入所述缓存区的顺序形成所述待检测词汇。4.根据权利要求I所述的检测词汇的方法,其特征在于,在步骤e之后且在步骤f之前,还包括 根据预设的相关性词库判断所述待检测词汇是否为相关性词汇; 当判断结果出所述待检测词汇不是相关性词汇时,从所述待组合字符中去除所述待检测字符,并判断表示获取待组合字符的计数值是否达到计数最大值,当判断结果为出所述计数值达到计数最大值时,从所述待检测文本中提取与所述缓存区中的首待组合字符相邻的下一个字符作为待检测字符,清空所述缓存区并重置所述计数值,并返回步骤b,否则,将计数值加1,返回步骤c ; 当判断结果出所述待检测词汇是相关性词汇时,执行步骤f。5.根据权利要求2所述检测词汇的方法,其特征在于,还包括 当判断出所述待检测词汇不是敏感词时,判断所述待检测词汇是否为疑似敏感词,当判断结果为是时,将所述待组合字符保留在所述存储区中,返回步骤C,所述疑似敏感词为包含在敏感词中的词汇。6.一种检测词汇的装置,其特征在于,包括 第一提取模块,用于提...

【专利技术属性】
技术研发人员:胡昌玮李珩杨贝斯
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1