【技术实现步骤摘要】
一种垃圾文本识别方法
本专利技术涉及一种垃圾文本识别方法,尤其涉及计算机数据处理
技术介绍
随着互联技术的发展,文字内容越来越丰富,伴之而来的是越来越多的垃圾文本。这些垃圾文本中,除了常见的商业广告,还存在一些反动、诈骗等信息。这些信息的传播,不仅影响人们的日常生活,而且危害社会的安全稳定。因此,需要针对这些垃圾文本进行识别,以便对这些垃圾文本进行过滤或者删除。
技术实现思路
本专利技术提出了一种垃圾文本识别方法,能够应用于邮件、短信及其他互联网文本的垃圾文本识别,为采取措施抑制垃圾文本的蔓延提供帮助,满足实际应用需求。为实现上述目的,本专利技术提供一种垃圾文本识别方法,包括以下步骤:步骤1、将待识别文本进行间隔式滑动窗口分词处理,分词结果与分词词典进行匹配,得到关键词;步骤2、依据每个关键词的特征贡献比大小,选出待识别文本的特征词;步骤3、比较待识别文本的特征词特征贡献比与预设阈值的大小;步骤4、输出待识别文本的识别结果。作为上述技术 ...
【技术保护点】
1.一种垃圾文本识别方法,其特征在于,包括以下步骤:/n步骤1、将待识别文本进行间隔式滑动窗口分词处理,分词结果与分词词典进行匹配,得到关键词;/n步骤2、依据每个关键词的特征贡献比大小,选出待识别文本的特征词;/n步骤3、比较待识别文本的特征词特征贡献比与预设阈值的大小;/n步骤4、输出待识别文本的识别结果。/n
【技术特征摘要】
1.一种垃圾文本识别方法,其特征在于,包括以下步骤:
步骤1、将待识别文本进行间隔式滑动窗口分词处理,分词结果与分词词典进行匹配,得到关键词;
步骤2、依据每个关键词的特征贡献比大小,选出待识别文本的特征词;
步骤3、比较待识别文本的特征词特征贡献比与预设阈值的大小;
步骤4、输出待识别文本的识别结果。
2.根据权利要求1所述的垃圾文本识别方法,其特征在于:步骤2所述特征词的构建方法包括如下步骤:
步骤11、通过两个长度为n的滑动窗口在待识别文本上进行滑动,借助中间的间隔来过滤掉待识别文本中所插入的异常字符;
步骤12、在步骤11基础上,引入一个分词词典。通过与词典进行匹配,获得关键词结果。
3.根据权利要求1所述的垃圾文本识别方法,其特征在于:将样本分为垃圾文本和非垃圾文本;
计算待识别文本的所有关键词的特征贡献比,选取特征贡献比大于预设值的关键词作为用来判别待识别文本是否为垃圾文本的特征词;
计算待识别文本特征词垃圾特征贡献度的权重,当权重大于阈值时判定待识别文本为垃圾文本。
4.根据权利要求3所述的垃圾文本识别方法,其特征在于:所述垃圾文本样本,存储有敏感词和/或垃圾特征和/或垃圾各式特征。
5.根据权利要求1所述的垃圾文本识别方法,其特征在于:所述计算待识别文本的每个关键词的特征贡献比具体包括:
对于待识别文本每个关键词,根据公式1计算该特征词的特征贡献比:
式中t为该关键词,R(t)为...
【专利技术属性】
技术研发人员:刘星辰,陈晓峰,麻沁甜,
申请(专利权)人:上海勃池信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。