一种敏感词过滤方法技术

技术编号:13743225 阅读:30 留言:0更新日期:2016-09-23 04:26
本发明专利技术公开了一种敏感词过滤方法,该方法包括:采用多种敏感词过滤方法的组合,对信息进行敏感词匹配;其中,多种敏感词过滤方法的组合包括:敏感词直接过滤方法,敏感词转换敏感字过滤方法,敏感词步长分析过滤方法,敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。采用本发明专利技术能够过滤各种经过干扰、修饰过的敏感词。

【技术实现步骤摘要】

本专利技术涉及计算机通信网络
,特别涉及一种敏感词过滤方法
技术介绍
垃圾信息主要出现在论坛,留言板社交平台和购物平台。通常的垃圾信息为广告或者非法宣传等欺诈信息,主要是为了提供信息和联系手段,单纯形的垃圾信息,无效信息并不是多数。为了使论坛,留言板,微博等公共社交网站和平台的信息数据处于一个比较安全的状态,减少欺诈,色情,反动,恐吓等言论的产生,有助于网络环境的改善和良性发展,需要将垃圾信息极大程度的找出并过滤。现有技术主要是集中在敏感词匹配技术和有监督模式的敏感词机器学习技术。采用敏感词匹配的技术是比较多的,另外还有贝叶斯方法和决策树算法,通过对文本信息中的敏感词进行逐个匹配,分析是否存在敏感词。另外,部分涉及到系统安全的过滤软件会对文本进行有害代码检测,防止诸如恶意链接,脚本等信息的发出。敏感词学习技术通常采用有监督的机器学习模式,通过TREC07P和CSMS-P实验的ROC学习曲线进行有监督方式的机器学习。通过这种方式,增加敏感词的数量,提升过滤准确度。现有技术的缺点是,只能根据敏感词进行匹配,不能匹配一些经过干扰的文字,无法全面过滤垃圾信息。只能检查简单的恶意代码,但是对恶意网站链接无法处理,尤其是采用隐晦的暗示性的恶意网站,无法分析。机器学习技术难度较大,性能也不足,而且监督方式的学习,必须采用人工分析。
技术实现思路
本专利技术的目的在于提供一种敏感词过滤方法,能够过滤各种经过干扰、修饰过的敏感词。为实现上述专利技术目的,本专利技术提供了一种敏感词过滤方法,该方法包括:采用多种敏感词过滤方法的组合,对信息进行敏感词匹配;其中,多种敏感词过滤方法的组合包括:敏感词直接过滤方法,敏感词转换敏感字过滤方法,敏感词步长分析过滤方法,敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。综上所述,本专利技术实施例提供的敏感词过滤方法,将多种敏感词过滤手段以链式组合,形成敏感词过滤链并逐个执行。如此,本专利技术的方案能够更全面彻底地过滤各种经过干扰、修饰过的敏感词,大大增强垃圾信息的拦截效果。附图说明图1为本专利技术实施例采用多种敏感词过滤方法的组合,对信息进行敏感词匹配的流程示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术所述方案作进一步地详细说明。本专利技术采用多种敏感词过滤方法的组合,对信息进行敏感词匹配,以过滤掉信息中的敏感词。进一步地,为增强垃圾信息拦截效果,在没有直接出
现的敏感词时,根据汉语语法特征对信息进行语法特征分析,拦截出可能是垃圾信息的误导信息,以供管理员参考。本专利技术在敏感词过滤过程中,能够将过滤到的特殊敏感词进行分析和存储,实现了敏感词库的自主学习,增强了过滤准确度和过滤速度。同时,本专利技术还在用户输入的信息为网址信息时,对网站内部信息进行敏感词匹配和语法特征分析,以分辨该网址是否为恶意网址。另外,本专利技术的方案还提供了日志记录功能,辅助管理员进行网站安全黑名单的设置;提供的统计分析功能,帮助管理员从侧面了解网站的活跃度和访问量。本专利技术公开了一种敏感词过滤方法:采用多种敏感词过滤方法的组合,对信息进行敏感词匹配;其中,多种敏感词过滤方法的组合包括:敏感词直接过滤方法,敏感词转换敏感字过滤方法,敏感词步长分析过滤方法,敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。其中,采用多种敏感词过滤方法的组合,对信息进行敏感词匹配具体包括以下步骤,流程示意图如图1所示:步骤A、对信息进行敏感词直接过滤,如果匹配到敏感词,则过滤掉该敏感词;如果匹配不成功,则,执行步骤B、进行敏感词转换敏感字过滤,将敏感词拆分成敏感字数组,判断数组中的所有元素是否同时出现在该信息中,如果是,则,执行步骤C、进行敏感词步长分析过滤,在敏感词步长不大于预设的敏感词步长阈值时,执行步骤D、进行敏感字上下文重组过滤,如果上下文重组过滤后的词为敏感词,则将上下文重组过滤前的词作为类敏感词保存到敏感词库中;如果上下文重组过滤后的词不是敏感词,则,执行步骤E、进行无效信息去除重组过滤,将信息中的乱码、符号和特殊字符过滤后,判断是否为敏感词,如果是,则过滤掉该敏感词。进一步地,步骤B在进行敏感词转换敏感字过滤时,判断数组中的所有元素并不同时出现在该信息中,则进行语法特征分析,在语法特征分析无法
通过时,确认所述信息为垃圾信息进行拦截,否则,发布所述信息;所述语法特征分析包括重复信息占比分析,读音相近热词替换分析和歧义词分析。进一步地,步骤E在进行无效信息去除重组过滤时,将信息中的乱码、符号和特殊字符过滤后,判断不是敏感词,则进行语法特征分析;在语法特征分析无法通过时,确认所述信息为垃圾信息进行拦截,否则,发布所述信息;所述语法特征分析包括重复信息占比分析,读音相近热词替换分析和歧义词分析。进一步地,步骤C在进行敏感词步长分析过滤时,如果敏感词步长大于预设的敏感词步长阈值时,直接执行步骤E。进一步地,一般网址信息全部是字母和数字,不包含汉字,所以,如果预先确认输入的信息为网址信息,该方法还包括:建立网址链接,并获取网站内部信息,过滤掉网站内部信息中无效的标签信息和版本信息;对经过过滤的网站内部信息进行敏感词匹配和语法特征分析。优选地,为辅助管理员优化自己的网站,本专利技术的方案还包括:对信息中出现的敏感词,以及垃圾信息的出现时间和IP地址进行记录;对所记录的信息进行统计,得到普通信息和垃圾信息的比率,垃圾信息的IP列表,以及敏感词的出现频度;将统计得到的信息以图表形式进行显示。所述敏感词保存在敏感词库中,为确保敏感词删除的有效性,该方法还包括:为敏感词库中的每个敏感词设置不同等级,在对信息进行敏感词匹配时,如果匹配到的敏感词等级达到过滤等级,则将信息中的该敏感词过滤掉;否则,保留该敏感词。为清楚说明本专利技术,下面列举具体场景进行说明。需要说明的是,发送到论坛或者留言板上的信息往往是一段话,可以是一句话,也可以是几句话,因此本专利技术的方案就是将这段话中的敏感词过滤掉,或者将这段话作为垃圾信息拦截。实施例一例如,“通过计算机程序开发领域的设计模式”,其中,“开发”作为敏感词保存在敏感词库中。在切词处理之后,进行敏感词直接过滤,与敏感词库逐条匹配,当匹配到“开发”时,即匹配到敏感词,将该敏感词“开发”过滤掉,结束分析。此时,过滤掉敏感词“开发”的方式有多种,可以选择将信息中的敏感词“开发”用“**”代替。再例如,“汉字序顺不一定影响阅读”,其中,“顺序”作为敏感词保存在敏感词库中。1)对信息进行切词处理,假设切词之后为“汉字|序顺|不一定|影响|阅读”,进行敏感词直接过滤,与敏感词库逐条匹配,没有匹配到“顺序”,则,2)进行敏感词转换敏感字过滤,将敏感词“顺序”拆分成敏感字数组,该敏感词是包含两个元素分别为“顺”和“序”的一个数组,判断这两个元素是否同时出现在该信息中,如果是,则,3)进行敏感词步长分析过滤,首先判断敏感词步长是否大于敏感词步长阈值,假设敏感词步长阈值为5,“序”和“顺”之间没有汉字,则敏感词步长为0,小于阈值5,则4)进行敏感字上下文重组过滤,将“序顺”进行上下文重组,得到“顺序”,由于“顺序”是敏感词,则将“序顺”作为类敏感词保存到敏感词库中。如此,当本文档来自技高网
...

【技术保护点】
一种敏感词过滤方法,该方法包括:采用多种敏感词过滤方法的组合,对信息进行敏感词匹配;其中,多种敏感词过滤方法的组合包括:敏感词直接过滤方法,敏感词转换敏感字过滤方法,敏感词步长分析过滤方法,敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。

【技术特征摘要】
1.一种敏感词过滤方法,该方法包括:采用多种敏感词过滤方法的组合,对信息进行敏感词匹配;其中,多种敏感词过滤方法的组合包括:敏感词直接过滤方法,敏感词转换敏感字过滤方法,敏感词步长分析过滤方法,敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。2.如权利要求1所述的方法,其特征在于,所述采用多种敏感词过滤方法的组合,对信息进行敏感词匹配具体包括:步骤A、对信息进行敏感词直接过滤,如果匹配到敏感词,则过滤掉该敏感词;如果匹配不成功,则,执行步骤B、进行敏感词转换敏感字过滤,将敏感词拆分成敏感字数组,判断数组中的所有元素是否同时出现在该信息中,如果是,则,执行步骤C、进行敏感词步长分析过滤,在敏感词步长不大于预设的敏感词步长阈值时,执行步骤D、进行敏感字上下文重组过滤,如果上下文重组过滤后的词为敏感词,则将上下文重组过滤前的词作为类敏感词保存到敏感词库中;如果上下文重组过滤后的词不是敏感词,则,执行步骤E、进行无效信息去除重组过滤,将信息中的乱码、符号和特殊字符过滤后,判断是否为敏感词,如果是,则过滤掉该敏感词。3.如权利要求2所述的方法,其特征在于,该方法进一步包括:步骤B在进行敏感词转换敏感字过滤时,判断数组中的所有元素并不同时出现在该信息中,则进行语法特征分析,在语法特征分析无法通过时,确认所述信息为垃圾信息进行拦截,否则,发布所述信息;所述语法特征分析包括重复信息占比分析,读音相近热词替换分析和歧义词分析...

【专利技术属性】
技术研发人员:王壮
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1