文本中不良文字信息的过滤方法及过滤系统技术方案

技术编号:13123638 阅读:96 留言:0更新日期:2016-04-06 11:30
本发明专利技术涉及文本处理技术领域,具体涉及文本中不良文字信息的过滤方法及过滤系统。该过滤方法包括:步骤1,提取待过滤文本;步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对待过滤文本进行分词;步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换敏感词汇后,输出替换敏感词汇后的文本。本发明专利技术解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断,并根据判断结果输出文本。由于采用了改进的分词方式,因此提高了整体过滤速度和过滤准确度。

【技术实现步骤摘要】

本专利技术涉及文本处理
,具体涉及文本中不良文字信息的过滤方法及过滤系统
技术介绍
在互联网时代,文字内容聊天普及,一些不法分子利用互联网宣传一些负面消息,或牵涉时政,或造谣传谣,或攻击网络用户,造成了负面影响。为创建一个文明和谐的互联网文字内容聊天环境,对一些敏感词汇过滤是必不可少的。现有的互联网文字过滤系统和方法,虽然也具有一定的文字筛选和过滤功能,但是在系统的整体过滤精度,过滤效率和处理大并发能力方面,传统方法在分词准确方面缺乏智能型,不能通过学习用户的特征进行智能升级。
技术实现思路
本专利技术的目的在于提供一种文本中不良文字信息的过滤方法及过滤系统,解决现有互联网文字过滤精度低、速度慢的问题。本专利技术提供了一种文本中不良文字信息的过滤方法,其包括:步骤1,提取待过滤文本;步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待过滤文本进行分词;步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。在一些实施例中,优选为,所述步骤2包括:若所述待过滤文本中包含英文,则将所述英文按英文字符串分词;若所述待过滤文本中包含数字,则将所述数字按数字字符串分词;从所述待过滤文本中提取不包含英文和数字的待分词字符串;利用词典中词条长度动态确定最大匹配算法中词长Max 1 en的值,通过Mex 1 en对所述待分词字符串进行分词。在一些实施例中,优选为,所述利用词典中词条长度动态确定最大匹配算法中词长Max 1 en的值,通过Mex 1 en对所述待分词字符串进行分词包括:01)为待分词字符串S1赋初值;02)判断待分词字符串S1是否为空;如果未空,输出分词后的词串,及输出未记录词串;03)如果待分词字符串S1不为空,判断待分词字符串S1是否为单字,如果是单字,直接分出单字;04)如果不是单字,取待分词字符串S1左边第一个字W,通过词典中哈希表找到对应所述第一个字W的词长度WLen;05)判断所述待分词字符串的长度是否小于词长度WLen,如果小于,则进入07);06)如果不小于,取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当所述字串与某一词条匹配,输出该字串;07)如果未匹配,判断WLen是否为2,如果不是,PLen++,转04)08)如果07)的结果为是,将所述字串输出为未记录词串。在一些实施例中,优选为,步骤3包括:加载敏感词汇库;将所有分词后的词串依次在所述敏感词汇库中匹配,若匹配成功,则屏蔽匹配成功的词串;采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。在一些实施例中,优选为,若匹配不成功,则直接输出文本。在一些实施例中,优选为,在步骤2和步骤3之间,还包括:将输出的未记录词串添加到词典中。本专利技术还提供了一种文本中不良文字信息的过滤系统,其包括:提取模块,用于提取待过滤文本;分词模块,用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待过滤文本进行分词;过滤模块,用于循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。在一些实施例中,优选为,所述分词模块包括:英文分词单元,若所述待过滤文本中包含英文是,用于将所述英文按英文字符串分词;数字分词单元,若所述待过滤文本中包含数字,用于将所述数字按数字字符串分词;提取单元,用于从所述待过滤文本中提取不包含英文和数字的待分词字符串;动态分词单元,用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待分词字符串进行分词。在一些实施例中,优选为,所述动态分词单元执行的分词程序为:01)为待分词字符串S1赋初值;02)判断待分词字符串S1是否为空;如果未空,输出分词后的词串,及输出未记录词串;03)如果待分词字符串S1不为空,判断待分词字符串S1是否为单字,如果是单字,直接分出单字;04)如果不是单字,取待分词字符串S1左边第一个字W,通过词典中哈希表找到对应所述第一个字W的词长度WLen;05)判断所述待分词字符串的长度是否小于词长度WLen,如果小于,则进入07);06)如果不小于,取待分词字符串中长为WLen的字串Word与词典中长为WLen的词条逐一匹配;当所述字串与某一词条匹配,输出该字串;07)如果未匹配,判断WLen是否为2,如果不是,PLen++,转04)08)如果07)的结果为是,将所述字串输出为未记录词串。本专利技术实施例提供的文本中不良文字信息的过滤方法及过滤系统,与现有技术相比,提出利用词典中词条的长度动态地确定词长MaxLen的值,根据所确定的词长从待切分字符串左边取相应长度的字符串与词典匹配,从而解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断,并根据判断结果输出文本。由于采用了改进的分词方式,因此提高了整体过滤速度和过滤准确度。【附图说明】图1为本专利技术一个实施例中文本中不良文字信息的过滤方法的流程结构示意图。图2为本专利技术一个实施例中词典的数据结构示意图。【具体实施方式】下面通过具体的实施例结合附图对本专利技术做进一步的详细描述。考虑到目前互联网或各种信息沟通平台对文本中的不良文字处理速度慢,精确度不高的问题,本专利技术提供了文本中不良文字信息的过滤方法及过滤系统。该文本中不良文字信息的过滤方法包括:步骤1,提取待过滤文本;步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对待过滤文本进行分词;步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换敏感词汇后,输出替换敏感词汇后的文本。—种文本中不良文字信息的过滤系统包括:提取模块,用于提取待过滤文本;分词模块,用于利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对待过滤文本进行分词;过滤模块,用于循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换敏感词汇后,输出替换敏感词汇后的文本。提出利用词典中词条的长度动态地确定词长MaxLen的值,根据所确定的词长从待切分字符串左边取相应长度的字符串与词典匹配,从而解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断,并根据判断结果输出文本。由于采用了改进的分词方式,因此提高了整体过滤速度和过滤准确度。下面,对技术具体描述:本方法主要应用于信息沟通平台中文本信息传送前的文本过滤。具体为:—种文本中不良文字信息的过滤方法,其特征在于,包括:步骤101,提取待过滤文本;当用户之间进行信息沟通时,用户通常将信息传送到平台服务器,平台服务器提取该信息,并将其确定为待过滤文本。在对该信息进行过滤时需要提高过滤速度,以不延迟用户间沟通速度为准,保证用户间顺畅的信息沟通。步骤102,利用词典中词条长度动态确定最大匹配算法中词长Max当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种文本中不良文字信息的过滤方法,其特征在于,包括:步骤1,提取待过滤文本;步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待过滤文本进行分词;步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:高玉环喻西香朱山朱光喜
申请(专利权)人:武汉鸿瑞达信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1