一种基于规则的敏感文本过滤方法技术

技术编号:14693619 阅读:69 留言:0更新日期:2017-02-23 16:33
本发明专利技术提供了一种基于规则的敏感文本过滤方法,包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;该基于规则的敏感文本过滤方法添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,匹配字符时,只需要完善词库即可,不需要添加大量的规则,匹配速度快。

【技术实现步骤摘要】

本专利技术涉及信息过滤
,尤其涉及一种基于规则的敏感文本过滤方法
技术介绍
每年因为垃圾邮件、诈骗信息、个人信息泄露等内容安全问题,导致我国网民严重的经济损失。究其原因,多数垃圾广告来源于论坛,博客,微博等UGC平台上,这违反了国家的相关法律法规,并且降低了用户体验。对于垃圾信息,必须在源头上遏制垃圾信息的发布。有些UGC平台商为了应付垃圾内容,研发了审核系统,方便人工审核,并让该板块的管理员来进行人工审核,通过了才让内容发布到互联网上。另外也存在基于语义理解的反垃圾系统,系统可以分析上下文的语义,并判断是否垃圾信息的概率有多大;审核模块可以方便管理员审核,而且人工审核会比较准确,但是很难做到覆盖到100%的UGC内容,特别是产生大量UGC内容的平台,并且需要花费大量的人力;对于基于语义的反垃圾系统,可以克服上面的缺点,但是也存在一些缺点:一、机器学习需要大量的学习语料,二、系统容易误杀一些正常的文本,三、学习新的垃圾规则需要一定的时间,所以对于出现的新的垃圾内容的反垃圾需要一定的学习时间才能识别出来,四、对于误杀的内容比较难进行干预去除。另外也有些系统使用了更简单的方案,就是大量使用正则表达式,但是配置起来很不方便,针对上述的一些缺点,上述的技术方案还需要其他可以互补的方案,可以更快速智能的识别垃圾信息。因此,本领域技术人员亟需开发出一种添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,只需要完善词库即可,不需要添加大量的规则,匹配速度快的基于规则的敏感文本过滤方法。
技术实现思路
本专利技术要解决的技术问题是提供一种基于规则的敏感文本过滤方法,该基于规则的敏感文本过滤方法添加规则简单并且可快速识别敏感文本,一般管理人员就能提炼并添加规则,添加的规则马上生效,可以智能识别缩小规则库,匹配字符时,只需要完善词库即可,不需要添加大量的规则,匹配速度快。为解决上述技术问题,本专利技术提供了一种基于规则的敏感文本过滤方法,提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块,所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元;所述元数据加载模块与所述文本接收模块连接,所述文本识别解析模块与所述文本接收模块连接,所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接,所述人工审核模块与所述解析结果显示模块连接;所述基于规则的敏感文本过滤方法包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别;所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关联规则进行解析识别,所述关联规则为若干词组成违反设置的规则;所述表达式识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的表达式进行解析识别;所述关键词识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关键词进行解析识别;当字符匹配,从当前节点沿着树边有一条路径到达目标字符,沿该路径走向下一个节点继续匹配,目标字符串指针移向下个字符继续匹配;当字符不匹配,则去掉当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向root结束;重复“字符匹配”或“字符不匹配”中的任意一个过程,直到模式串走到结尾为止。优选地,所述元数据管理模块对所述基础数据管理模块的基本数据做管理,根据板块设置添加词库和规则,如果没有设置则为默认板块。优选地,还提供敏感文本匹配模块,所述敏感文本匹配模块与文本识别解析模块及解析结果显示模块连接,所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词,定位到敏感词出现的位置后,判断敏感词是否直接是禁止词,根据距离和敏感词关联的规则或者正则表达式来判断是否满足了敏感规则。优选地,所述步骤“所述敏感文本匹配模块采用SWDT-IFA算法设计定位敏感词”的实现步骤包括:所述敏感文本匹配模块将文本进行去停用词预处理,将敏感词通过敏感词决策树构建算法建立成一棵分流树,将预处理过的文本,以文本数据流方式检索敏感词决策树,记录文本中对应敏感词的频率和区域信息,通过敏感度计算公式,得出文本整体敏感度,对应网页划分为敏感、非敏感网页。优选地,所述敏感度计算公式为:Aford={a0,a1,…,ai,…,an-1本文档来自技高网...
一种基于规则的敏感文本过滤方法

【技术保护点】
一种基于规则的敏感文本过滤方法,其特征在于:提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块,所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元;所述元数据加载模块与所述文本接收模块连接,所述文本识别解析模块与所述文本接收模块连接,所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接,所述人工审核模块与所述解析结果显示模块连接;所述基于规则的敏感文本过滤方法包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别;所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关联规则进行解析识别,所述关联规则为若干词组成违反设置的规则;所述表达式识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的表达式进行解析识别;所述关键词识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关键词进行解析识别;当字符匹配,从当前节点沿着树边有一条路径到达目标字符,沿该路径走向下一个节点继续匹配,目标字符串指针移向下个字符继续匹配;当字符不匹配,则去掉当前节点失败指针所指向的字符继续匹配,匹配过程随着指针指向root结束;重复“字符匹配”或“字符不匹配”中的任意一个过程,直到模式串走到结尾为止。...

【技术特征摘要】
1.一种基于规则的敏感文本过滤方法,其特征在于:提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块,所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元;所述元数据加载模块与所述文本接收模块连接,所述文本识别解析模块与所述文本接收模块连接,所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接,所述人工审核模块与所述解析结果显示模块连接;所述基于规则的敏感文本过滤方法包括以下步骤:所述元数据加载模块把元数据加载到系统内存中并形成数据结构,所述元数据加载模块将待过滤的文本传输给所述文本接收模块,所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式,所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块,所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析;所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别;所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关联规则进行解析识别,所述关联规则为若干词组成违反设置的规则;所述表达式识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的表达式进行解析识别;所述关键词识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关键词进行解析识别;当字符匹配,从当前节点沿着树边有...

【专利技术属性】
技术研发人员:张华杰庄文弘王国彬
申请(专利权)人:深圳市彬讯科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1