一种基于规则的敏感文本过滤方法技术

技术编号：14693619 阅读：69 留言：0更新日期：2017-02-23 16:33

本发明专利技术提供了一种基于规则的敏感文本过滤方法，包括以下步骤：所述元数据加载模块把元数据加载到系统内存中并形成数据结构，所述元数据加载模块将待过滤的文本传输给所述文本接收模块，所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式，所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块，所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析；该基于规则的敏感文本过滤方法添加规则简单并且可快速识别敏感文本，一般管理人员就能提炼并添加规则，添加的规则马上生效，可以智能识别缩小规则库，匹配字符时，只需要完善词库即可，不需要添加大量的规则，匹配速度快。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息过滤
，尤其涉及一种基于规则的敏感文本过滤方法。
技术介绍
每年因为垃圾邮件、诈骗信息、个人信息泄露等内容安全问题，导致我国网民严重的经济损失。究其原因，多数垃圾广告来源于论坛，博客，微博等UGC平台上，这违反了国家的相关法律法规，并且降低了用户体验。对于垃圾信息，必须在源头上遏制垃圾信息的发布。有些UGC平台商为了应付垃圾内容，研发了审核系统，方便人工审核，并让该板块的管理员来进行人工审核，通过了才让内容发布到互联网上。另外也存在基于语义理解的反垃圾系统，系统可以分析上下文的语义，并判断是否垃圾信息的概率有多大；审核模块可以方便管理员审核，而且人工审核会比较准确，但是很难做到覆盖到100％的UGC内容，特别是产生大量UGC内容的平台，并且需要花费大量的人力；对于基于语义的反垃圾系统，可以克服上面的缺点，但是也存在一些缺点：一、机器学习需要大量的学习语料，二、系统容易误杀一些正常的文本，三、学习新的垃圾规则需要一定的时间，所以对于出现的新的垃圾内容的反垃圾需要一定的学习时间才能识别出来，四、对于误杀的内容比较难进行干预去除。另外也有些系统使用了更简单的方案，就是大量使用正则表达式，但是配置起来很不方便，针对上述的一些缺点，上述的技术方案还需要其他可以互补的方案，可以更快速智能的识别垃圾信息。因此，本领域技术人员亟需开发出一种添加规则简单并且可快速识别敏感文本，一般管理人员就能提炼并添加规则，添加的规则马上生效，可以智能识别缩小规则库，只需要完善词库即可，不需要添加大量的规则，匹配速度快的基于规则的敏感文本过滤方法。
技术实现思路
本专...
一种基于规则的敏感文本过滤方法

【技术保护点】
一种基于规则的敏感文本过滤方法，其特征在于：提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块，所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元；所述元数据加载模块与所述文本接收模块连接，所述文本识别解析模块与所述文本接收模块连接，所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接，所述人工审核模块与所述解析结果显示模块连接；所述基于规则的敏感文本过滤方法包括以下步骤：所述元数据加载模块把元数据加载到系统内存中并形成数据结构，所述元数据加载模块将待过滤的文本传输给所述文本接收模块，所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式，所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块，所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析；所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别；所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管...

【技术特征摘要】
1.一种基于规则的敏感文本过滤方法，其特征在于：提供文本接收模块、文本识别解析模块、元数据加载模块、基础数据存储模块、元数据管理模块、权限控制模块、解析结果显示模块及人工审核模块，所述文本识别解析模块包括关键词识别单元、关联规则识别单元、表达式识别单元；所述元数据加载模块与所述文本接收模块连接，所述文本识别解析模块与所述文本接收模块连接，所述文本识别解析模块与所述解析结果显示模块、所述权限控制模块与所述文本识别解析模块及人工审核模块连接，所述人工审核模块与所述解析结果显示模块连接；所述基于规则的敏感文本过滤方法包括以下步骤：所述元数据加载模块把元数据加载到系统内存中并形成数据结构，所述元数据加载模块将待过滤的文本传输给所述文本接收模块，所述元数据管理模块配置有敏感的关键词、关联规则及待识别的表达式，所述文本接收模块接收待过滤的文本并传输给所述文本识别解析模块，所述文本识别解析模块采用AC自动机算法构建trie树对文本进行解析；所述关键词识别单元将所述文本识别解析模块中的待过滤的文本与元数据管理模块中的关键词进行解析识别；所述关联规则识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关联规则进行解析识别，所述关联规则为若干词组成违反设置的规则；所述表达式识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的表达式进行解析识别；所述关键词识别单元将所述文本识别解析模块中的待过滤的文本根据元数据管理模块中的关键词进行解析识别；当字符匹配，从当前节点沿着树边有...

【专利技术属性】
技术研发人员：张华杰，庄文弘，王国彬，
申请(专利权)人：深圳市彬讯科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人