一种针对跳字类关键词的过滤方法技术

技术编号:11906342 阅读:68 留言:0更新日期:2015-08-19 19:34
一种文字处理方法,特别是一种针对跳字类关键词的过滤方法,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。

【技术实现步骤摘要】

本专利技术涉及一种文字处理方法,特别是。
技术介绍
目前网络作为传播信息的主要工具,不仅提供了人们所需要的资源,还充斥着大 量的垃圾信息,特别是一些论坛上,充斥着大量的垃圾信息,为了防止这些垃圾信息通过用 户发帖的方式进行传播,实现网络信息安全,最有效的解决方法就是对这些内容信息进行 关键词过滤,但用户如果在写关键词的时候中间穿插一些别的词汇而达到规避过滤的目 的,现有技术就很难将其识别。 专利技术目的 本专利技术的目的在于提供,采用本方法对信息进行检 测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处 理。 实现本专利技术目的的技术方案是:,其特征在 于:包括以下步骤: 1. 1.对文本进行预处理,去除H T M L标签、换行符、表情标签; 1. 2.从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段; 1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n, 并后移n个字作为下一次分词的起点; 1. 4.返回步骤1. 2; 1. 5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到 步骤1. 3 ; 1.6. 得出第一匹配结果; 1.7. 将步骤1.2.中的被处理文本从其尾部取出不超过词典最大长度的汉字串作为匹 配字段; 1.8. 在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n, 并前移n个字作为下一次分词的起点; 1. 9.返回步骤1. 7 ; 1. 10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到 步骤1. 8 ; 1. 11.得出第二匹配结果,取第一匹配结果与第二匹配结果的并集; 1.12.计算并集中各个词项t的权重值,公式如下:【主权项】1. ,其特征在于:包括w下步骤: 1. 1.对文本进行预处理,去除HTML标签、换行符、表情标签; 1. 2.从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段; 1. 3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n, 并后移n个字作为下一次分词的起点; 1.4.返回步骤1.2; 1. 5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到 步骤1. 3 ; 1.6. 得出第一匹配结果; 1.7. 将步骤1.2.中的被处理文本从其尾部取出不超过词典最大长度的汉字串作为匹 配字段; 1. 8.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n, 并前移n个字作为下一次分词的起点; 1. 9.返回步骤1. 7 ; 1. 10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到 步骤1. 8 ; 1. 11.得出第二匹配结果,取第一匹配结果与第二匹配结果的并集; 1. 12.计算并集中各个词项t的权重值,公式如下:其中,词频TF是指词项在一篇文档中出现的次数,定义为r巧^<1,表示词项t在 文档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的 文档的数目; 1. 13.所有词项的权重计算出来之后我们按照权重的大小倒叙排序,选出50~100个 高频词项用来表示文档; 1. 14.从W往处理过的文本中提取跳字类型的关键词,形成特征词典; 1. 15.将特征词典中的跳字类型的关键词通过正则表达式表达; 1. 16.用正则表达式与步骤1. 13选出的50~100个高频词项进行匹配; 1. 17.若匹配成功则将其存储; 1. 18.对存储词项选择相应的处理方式,如提示、删除或锁定。2. 根据权利要求1所述的,其特征在于:步骤1. 15 中所述的正则表达式如下: A{B}C,X{Y}Z对应的正则表达式为((A. {0,B}C)I狂.{0,刊幻)。【专利摘要】一种文字处理方法,特别是,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。【IPC分类】G06F17-30【公开号】CN104850609【申请号】CN201510231694【专利技术人】蒋大可, 何俊, 莫燕峰 【申请人】湖北光谷天下传媒股份有限公司【公开日】2015年8月19日【申请日】2015年5月8日本文档来自技高网...

【技术保护点】
一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:1.1.对文本进行预处理,去除HTML标签、换行符、表情标签;1.2.从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段;1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;1.4.返回步骤1.2;1.5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;1.6.得出第一匹配结果;1.7.将步骤1.2.中的被处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;1.8.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;1.9.返回步骤1.7;1.10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;1.11.得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;1.12.计算并集中各个词项 t的权重值,公式如下:其中,词频TF是指词项在一篇文档中出现的次数,定义为,表示词项t在文档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目;1.13.所有词项的权重计算出来之后我们按照权重的大小倒叙排序,选出50~100个高频词项用来表示文档;1.14.从以往处理过的文本中提取跳字类型的关键词,形成特征词典;1.15.将特征词典中的跳字类型的关键词通过正则表达式表达;1.16.用正则表达式与步骤1.13选出的50~100个高频词项进行匹配;1.17.若匹配成功则将其存储;1.18.对存储词项选择相应的处理方式,如提示、删除或锁定。...

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋大可何俊莫燕峰
申请(专利权)人:湖北光谷天下传媒股份有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1