The invention discloses a Bayesian spam filtering method based on IDF TF Chinese segmentation, the method includes: establishing Chinese mail training text set; according to the stop word thesaurus of Chinese mail training text set TF IDF Chinese segmentation, and update the stop word dictionary; through the mail Chinese training text set feature word extraction TF IDF Chinese segmentation algorithm according to the feature extraction and feature weight update feature word thesaurus; the TF IDF Chinese after word segmentation feature words and characteristic words weight input to the Bayesian filter performs message classification; classification results feedback to the log database. The invention has low false positive rate and high executing efficiency in the Chinese spam filtering.
【技术实现步骤摘要】
一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法
本专利技术涉及一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法,尤其涉及在中文电子邮件进行垃圾邮件过滤过程中,通过TF-IDF中文分词算法对中文邮件内容进行分词,并提取特征词及计算特征词权值,之后把特征词及其权值输入到贝叶斯分类器中判定邮件是否为垃圾邮件,实现对垃圾邮件的过滤。
技术介绍
网络已经成为当今社会人类生活不可分割的一部分。网络技术的高速发展,让人类的生活以及工作方式有了巨大的改变,人类的生活质量和工作的效率得到了巨大的提升。近些年,电子邮件作为网络技术中新兴的通信技术,改变了以往书信等浪费人力、物力和财力的通信方式。人与人之间的沟通、学习和工作变得简单高效。但电子邮件给我们的生活带来便捷的同时,也让一些为获得某种利益而发送大量不合法邮件的个人或企业困扰着电子邮件用户。垃圾邮件的泛滥对电子邮件用户的生活和工作产生了巨大的负面影响。用户邮箱中如果充斥着大量的垃圾邮件,这不仅没有对电子邮件用户的学习和工作带来更高的效率,反而会使电子邮件用户浪费大量的时间和精力去处理垃圾邮件。面对日益增多的垃圾邮件的困扰,一种可靠有效的垃圾邮件过滤技术已经成为了发展必要。贝叶斯算法以其高效、易于实现、扩展性好的特点,已广泛的应用在垃圾邮件过滤技术中。此外,贝叶斯算法能够通过对邮件样本的训练,自动学习样本内容来对垃圾邮件进行过滤。在现有的垃圾邮件过滤技术中,贝叶斯算法在垃圾邮件过滤中显现出了极好的应用效果。尤其在对英文电子邮件分类时,较简单的贝叶斯垃圾邮件过滤器的准确率已经达99%以上。而在对中文邮件的垃圾邮件判 ...
【技术保护点】
一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法其特征在于,主要包括以下步骤:(1)收集中文邮件训练样本集,包括垃圾邮件及合法邮件,建立中文邮件训练文本集;(2)根据停用词词库对中文邮件训练文本集进行TF‑IDF中文分词,并更新停用词词库;(3)通过TF‑IDF中文分词算法对中文邮件训练文本集中的垃圾邮件和合法邮件进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;(4)把TF‑IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器;(5)贝叶斯分类器根据输入的中文邮件内容中的特征词及特征词权值判断邮件是否为垃圾邮件,并把结果反馈到日志库。
【技术特征摘要】
1.一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法其特征在于,主要包括以下步骤:(1)收集中文邮件训练样本集,包括垃圾邮件及合法邮件,建立中文邮件训练文本集;(2)根据停用词词库对中文邮件训练文本集进行TF-IDF中文分词,并更新停用词词库;(3)通过TF-IDF中文分词算法对中文邮件训练文本集中的垃圾邮件和合法邮件进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;(4)把TF-IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器;(5)贝叶斯分类器根据输入的中文邮件内容中的特征词及特征词权值判断邮件是否为垃圾邮件,并把结果反馈到日志库。2.根据权利要求1所述的一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法其特征在于:所述步骤(2)中,在中文邮件内容进行分词过程中,调用中科院ictclas中文分词插件以及停用词词库,过滤掉中文邮件内容中的停用词,进而实现中文邮件内容特征词的精准提取,并对中文邮件内容中出现的新的停用词进行停用词词库更新。3.根据权利要求1和权利要求2所述的一种基于TF...
【专利技术属性】
技术研发人员:崔玉文,石乐义,刘晓彤,陈鸿龙,郭宏斌,孙慧,薛智宇,李剑蓝,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。