文本中不良文字信息的过滤方法及过滤系统技术方案

技术编号：13123638 阅读：96 留言：0更新日期：2016-04-06 11:30

本发明专利技术涉及文本处理技术领域，具体涉及文本中不良文字信息的过滤方法及过滤系统。该过滤方法包括：步骤1，提取待过滤文本；步骤2，利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对待过滤文本进行分词；步骤3，循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换敏感词汇后，输出替换敏感词汇后的文本。本发明专利技术解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断，并根据判断结果输出文本。由于采用了改进的分词方式，因此提高了整体过滤速度和过滤准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本处理
，具体涉及文本中不良文字信息的过滤方法及过滤系统。
技术介绍
在互联网时代，文字内容聊天普及，一些不法分子利用互联网宣传一些负面消息，或牵涉时政，或造谣传谣，或攻击网络用户，造成了负面影响。为创建一个文明和谐的互联网文字内容聊天环境，对一些敏感词汇过滤是必不可少的。现有的互联网文字过滤系统和方法，虽然也具有一定的文字筛选和过滤功能，但是在系统的整体过滤精度，过滤效率和处理大并发能力方面，传统方法在分词准确方面缺乏智能型，不能通过学习用户的特征进行智能升级。
技术实现思路
本专利技术的目的在于提供一种文本中不良文字信息的过滤方法及过滤系统，解决现有互联网文字过滤精度低、速度慢的问题。本专利技术提供了一种文本中不良文字信息的过滤方法，其包括:步骤1，提取待过滤文本；步骤2，利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对所述待过滤文本进行分词；步骤3，循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换所述敏感词汇后，输出替换敏感词汇后的文本。在一些实施例中，优选为，所述步骤2包括:若所述待过滤文本中包含英文，则将所述英文按英文字符串分词；若所述待过滤文本中包含数字，则将所述数字按数字字符串分词；从所述待过滤文本中提取不包含英文和数字的待分词字符串；利用词典中词条长度动态确定最大匹配算法中词长Max 1 en的值，通过Mex 1 en对所述待分词字符串进行分词。在一些实施例中，优选为，所述利用词典中词条长度动态确定最大匹配算法中词长Max 1 en的值，通过Mex 1...

【技术保护点】
一种文本中不良文字信息的过滤方法，其特征在于，包括：步骤1，提取待过滤文本；步骤2，利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对所述待过滤文本进行分词；步骤3，循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换所述敏感词汇后，输出替换敏感词汇后的文本。

【技术特征摘要】

【专利技术属性】
技术研发人员：高玉环，喻西香，朱山，朱光喜，
申请(专利权)人：武汉鸿瑞达信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人