【技术实现步骤摘要】
本专利技术涉及一种文字处理方法,特别是。
技术介绍
目前网络作为传播信息的主要工具,不仅提供了人们所需要的资源,还充斥着大 量的垃圾信息,特别是一些论坛上,充斥着大量的垃圾信息,为了防止这些垃圾信息通过用 户发帖的方式进行传播,实现网络信息安全,最有效的解决方法就是对这些内容信息进行 关键词过滤,但用户如果在写关键词的时候中间穿插一些别的词汇而达到规避过滤的目 的,现有技术就很难将其识别。 专利技术目的 本专利技术的目的在于提供,采用本方法对信息进行检 测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处 理。 实现本专利技术目的的技术方案是:,其特征在 于:包括以下步骤: 1. 1.对文本进行预处理,去除H T M L标签、换行符、表情标签; 1. 2.从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段; 1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n, 并后移n个字作为下一次分词的起点; 1. 4.返回步骤1. 2; 1. 5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到 步骤1. 3 ; 1.6. 得出第一匹配结果; 1.7. 将步骤1.2.中的被处理文本从其尾部取出不超过词典最大长度的汉字串作为匹 配字段; 1.8. 在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n, 并前移n个字作为下一次分词的起点; 1. 9.返回步骤1. 7 ; 1. 10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到 ...
【技术保护点】
一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:1.1.对文本进行预处理,去除HTML标签、换行符、表情标签;1.2.从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字段;1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;1.4.返回步骤1.2;1.5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;1.6.得出第一匹配结果;1.7.将步骤1.2.中的被处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;1.8.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;1.9.返回步骤1.7;1.10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;1.11.得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;1.12.计算并集中各个词项 t的权重值,公式如下:其中,词频TF是指词项在一篇文档中出现的次数,定义为,表示词项t在文档d中出现的次数;逆文档率IDF是指词项出现在所有 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:蒋大可,何俊,莫燕峰,
申请(专利权)人:湖北光谷天下传媒股份有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。