关键词过滤系统及方法技术方案

技术编号:7974939 阅读:192 留言:0更新日期:2012-11-15 23:11
本发明专利技术公开了一种关键词过滤系统及方法,涉及网络信息过滤技术领域,所述系统包括:文本获取模块,适于获取待过滤文本内容;扫描模块,适于对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;间距判断模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。本发明专利技术通过获取待过滤文本内容中各个关键词之间的字符间距,并通过字符间距进行判断,提高了对敏感信息的识别力,并提高了对敏感信息过滤的适应性。

【技术实现步骤摘要】

本专利技术涉及网络信息过滤
,特别涉及一种。
技术介绍
在web 2.0时代,互联网用户所产生的内容十分广泛,例如在电子布告栏系统(Bulletin Board System,BBS)论坛上发布帖子、在博客上发布文章、以及在最新兴起的微博上发布文本信息,使得互联网中每天都有海量的文本内容生成。用户产生的文本内容包罗广泛,但有些内容会涉及色情、欺诈、以及政治敏感信息,而产生的这些内容可能会影响读者的上网体验,或者带来精神上、甚至经济上的危害。无论是从净化论坛数据,还是从提升读者使用感受的角度出发,各ICP (论坛、博客、微博的提供商)必须对用户产生的数据进行及时地、有效地过滤。 现有技术中,为了及时地过滤包含敏感信息的内容,比较常用的做法是基于关键词内容的扫描技术,具体为使用与敏感信息有关的关键词扫描,比如通过扫描“色情门”、“艳照”、“偷拍”等关键词来发现与“色情门”有关的帖子,通过扫描帖子中的文本内容,只要发现所述文本内容中包含任意一个上述关键词,即可认定该内容为与“色情门”有关的敏感信息,但在实际发布文本内容的过程中,有些用户会通过对准备发布的文本内容进行“微加工”,而逃避审查和过滤。以“色情门”关键词为例,用户可以将准备发布的文本内容中的“色情门”修改为“色X门”、“色〇门”、“色情门”、“色情门”、“色X情X门”,“色XO情O门”,“色**林*情*林林林林林林林*门”等变形内容;虽然这些变化并不会影响读者对文本内容的理解,但能够轻易避开现有技术中基于关键词内容的扫描技术对文本内容中敏感信息的扫描,继续发布涉及色情、欺诈、以及政治敏感信息,从而使得现有技术中基于关键词内容的扫描技术失去意义。
技术实现思路
本专利技术要解决的技术问题是如何提高对敏感信息的识别力,并提高对敏感信息过滤的适应性。为解决上述技术问题,本专利技术提供了一种关键词过滤系统,所述系统包括文本获取模块,适于获取待过滤文本内容;扫描模块,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;判断过滤模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。其中,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。其中,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。其中,所述系统还包括有向性判断模块,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性。 其中,所述关键词词典还存有预设的所述关键词的有向性次序。其中,所述有向性判断模块具体包括次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。其中,所述文本获取模块采用网络蜘蛛抓取网页,以获取待过滤文本内容。其中,所述文本获取模块通过接收待过滤文本,以获取待过滤文本内容。本专利技术还公开了一种关键词过滤方法,所述方法包括以下步骤获取待过滤文本内容;通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。其中,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。其中,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。其中,判断所述字符间距是否超过了预设字符间距之前,还包括以下步骤根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性,若是,则执行后续步骤。其中,所述关键词词典还存有预设的所述关键词的有向性次序。其中,在判断所述各个关键词是否满足有向性时,具体包括以下步骤根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序;将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。其中,采用网络蜘蛛抓取网页,以获取待过滤文本内容。其中,通过接收待过滤文本,以获取待过滤文本内容。本专利技术通过获取待过滤文本内容中各个关键词之间的字符间距,并通过字符间距进行判断,提高了对敏感信息的识别力,并提高了对敏感信息过滤的适应性。附图说明图I是按照本专利技术一种实施方式的关键词过滤系统的结构框图;图2是按照本专利技术另一种实施方式的关键词过滤系统的结构框图;图3是按照本专利技术一种实施方式的关键词过滤方法的流程图;图4是按照本专利技术另一种实施方式的关键词过滤方法的流程图。具体实施例方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例适于说明本专利技术,但不用来限制本专利技术的范围。图I是按照本专利技术一种实施方式的关键词过滤系统的结构框图;参照图1,所述系统包括文本获取模块101,适于获取待过滤文本内容,本实施例中,所述文本获取模块101可采用网络蜘蛛抓取网页,以获取待过滤文本内容,还可通过接收待过滤文本(即论坛、博客、微博等信息服务系统接收由用户输入的待发布文本),以获取待过滤文本内容;扫描模块102,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;判断过滤模块103,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。优选地,所述关键词为能组成敏感信息的词语或单个字,所述预设的关键词词典存有需要过滤的所有关键词。所述敏感信息是由多个词语构成的词组时,例如,“美国”、“公交车”、“爆炸”这三个词各自独立存在时,不会包含任何敏感信息,但是,当这三个词同时出现在一段文本内容中时,则有很大可能形成敏感信息,在一般情况下,多个词语构成的词组作为敏感信息时为离散型信息,即无需具备有向性,并且字符间距很长,甚至整个文章篇幅中同时出现仍然可以反映出上述敏感信息,为识别该词组,本实施方式中,将该词组中的每个词作为关键词;假设所述关键词词典包括3个关键词“美国”、“公交车”及“爆炸”,与其对应的预设字符间距为50,并假设扫描结果(扫描结果的格式一 “关键词”:位置)为“公交车”:34、“美国”:48、“爆炸”:57 ;扫描结果中“美国”、“公交车”、“爆炸”三个词都出现了,并且任意两个词之间的字符间距小于50,因此在待过滤文本内容中识别为由这三个关键词所组成的敏感信息,对所述待过滤文本内容进行过滤处理或等待人工审查。优选地,所述关键词为本文档来自技高网
...

【技术保护点】
一种关键词过滤系统,其特征在于,所述系统包括:文本获取模块,适于获取待过滤文本内容;扫描模块,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距;判断过滤模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。

【技术特征摘要】
1.一种关键词过滤系统,其特征在于,所述系统包括 文本获取模块,适于获取待过滤文本内容; 扫描模块,适于通过预设的关键词词典对所述待过滤文本内容进行扫描,若所述待过滤文本内容中具有所述预设的关键词词典中所存储的关键词,则记录所述待过滤文本内容中各个关键词的位置,并根据所述待过滤文本内容中各个关键词的位置来获取所述待过滤文本内容中各个关键词之间的字符间距; 判断过滤模块,适于判断所述字符间距是否超过了预设字符间距,若否,则将所述待过滤文本内容中的所述关键词进行过滤处理。2.如权利要求I所述的系统,其特征在于,所述关键词为组成敏感信息的词语,所述预设的关键词词典存有需要过滤的所有关键词。3.如权利要求I所述的系统,其特征在于,所述关键词为组成敏感信息的单个字,所述预设的关键词词典存有需要过滤的所有关键词。4.如权利要求3所述的系统,其特征在于,所述系统还包括 有向性判断模块,适于根据所述待过滤文本内容中各个关键词的位置判断所述各个关键词是否满足有向性。5.如权利要求4所述的系统,其特征在于,所述关键词词典还存有预设的所述关键词的有向性次序。6.如权利要求5所述的系统,其特征在于,所述有向性判断模块具体包括 次序获得子模块,用于根据所述待过滤文本内容中的各个关键词的位置获得所述关键词的先后次序; 有向性匹配子模块,用于将所述关键词的先后次序与所述关键词词典中预设的所述关键词的有向性次序进行匹配,若匹配成功,则判定所述关键词满足有向性。7.如权利要求1飞中任一项所述的系统,其特征在于,所述文本获取模块采用网络蜘蛛抓取网页,以获取待过滤文本内容。8.如权利要求1飞中任一项所述的系统,其特征在于,所述文本获取模块通过接收待过滤文本,以获取待过滤...

【专利技术属性】
技术研发人员:韩孟岗李铁钧刘绪平
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1