网络文本服务中敏感词过滤的方法技术

技术编号：6880730 阅读：590 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及网络信息过滤技术领域，提供了一种网络文本服务中敏感词过滤的方法。通过独立的线程将敏感词库以嵌套哈希表的方式加载到内存中，通过哈希表的逐级比对使得敏感词过滤速度仅与消息文本长度有关，大大提高了过滤效率，保证了网络服务的性能；此外，由于采用独立的线程进行控制，可选择性地对敏感词库进行更新并实时应用到网络文本服务中，从而进一步地提高了服务性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络信息过滤
，特别是涉及一种。
技术介绍
随着互联网的飞速发展，基于文本的网络服务已经深入到人们生活的各个方面。由于网络文本服务具有内容丰富、互动性强、实时性强的优势，已取代邮件、短信或电话，成为人们日常沟通中(尤其是陌生人群中)最主要的交流方式。如即时通讯anstant Messaging，简称IM)、论坛、电子邮件、博客、微博等网络服务作为一种便捷的沟通方式已经渗透到人们工作和生活的各个领域，甚至发展出了相应的网络社区，也成为移动互联网的一项重要业务。但是网络文本服务在给人们带来无障碍交流便利的同时，不可避免地也会散播一些未经证实的消息或不良内容，很多情况下均会出现违反国家法律法规并损害公众利益的言行，为了维护国家法律和公民权益，越来越多的网络文本服务中集成了敏感词过滤功能。常见的敏感词过滤功能通常是采用字典方式，简单地对服务中的文本消息进行关键词匹配，需要反复地提取词语并逐词比对。这种反复执行的敏感词查找操作会严重降低网络服务的性能，影响用户的使用速度；此外，一旦词语提取不当，也会错误屏蔽掉用户信息，降低用户通讯质量。为使得用户的网络服务不因敏感词过滤而降低速度和质量，保护合法用户的正当权益，在信息过滤的同时不影响到绝大多数用户的正常使用，准确有效的敏感词过滤显得尤为重要。
技术实现思路
(一)要解决的技术问题针对现有技术的缺点，本专利技术为了解决现有技术中的敏感词过滤方式会降低网络服务性能的问题，提供了一种，将敏感词库以嵌套哈希表的方式加载到内存中，通过哈希表的逐级比对判断是否出现敏感词，使得敏感词过滤速度仅与消息文本长度有...

【技术保护点】
１．一种网络文本服务中敏感词过滤的方法，其特征在于，所述方法包括步骤：Ｓ１，将敏感词写入数据库中；Ｓ２，在网络文本服务中开辟一个新的线程读取数据库中的敏感词；Ｓ３，把敏感词数据以嵌套哈希表的方式载入内存中；Ｓ４，所述线程将网络文本服务接收到的用户文本消息与内存中敏感词的嵌套哈希表逐级比较，判断所述文本消息中是否出现了敏感词；若出现敏感词则执行步骤Ｓ５，否则跳至步骤Ｓ６；Ｓ５，对包含敏感词的所述文本消息进行处理后结束；Ｓ６，正常发送所述文本消息后结束。

【技术特征摘要】

【专利技术属性】
技术研发人员：张宁，
申请(专利权)人：北京新媒传信科技有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人