一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法技术

技术编号:16066971 阅读:51 留言:0更新日期:2017-08-22 18:17
本发明专利技术公开了一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法,所述方法包括:建立中文邮件训练文本集;根据停用词词库对中文邮件训练文本集进行TF‑IDF中文分词,并更新停用词词库;通过TF‑IDF中文分词算法对中文邮件训练文本集进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;把TF‑IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器执行邮件分类;分类结果反馈到日志库。本发明专利技术在中文垃圾邮件过滤中误报率低,执行效率高。

A Bayesian spam filtering method based on IDF TF Chinese participle

The invention discloses a Bayesian spam filtering method based on IDF TF Chinese segmentation, the method includes: establishing Chinese mail training text set; according to the stop word thesaurus of Chinese mail training text set TF IDF Chinese segmentation, and update the stop word dictionary; through the mail Chinese training text set feature word extraction TF IDF Chinese segmentation algorithm according to the feature extraction and feature weight update feature word thesaurus; the TF IDF Chinese after word segmentation feature words and characteristic words weight input to the Bayesian filter performs message classification; classification results feedback to the log database. The invention has low false positive rate and high executing efficiency in the Chinese spam filtering.

【技术实现步骤摘要】
一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法
本专利技术涉及一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法,尤其涉及在中文电子邮件进行垃圾邮件过滤过程中,通过TF-IDF中文分词算法对中文邮件内容进行分词,并提取特征词及计算特征词权值,之后把特征词及其权值输入到贝叶斯分类器中判定邮件是否为垃圾邮件,实现对垃圾邮件的过滤。
技术介绍
网络已经成为当今社会人类生活不可分割的一部分。网络技术的高速发展,让人类的生活以及工作方式有了巨大的改变,人类的生活质量和工作的效率得到了巨大的提升。近些年,电子邮件作为网络技术中新兴的通信技术,改变了以往书信等浪费人力、物力和财力的通信方式。人与人之间的沟通、学习和工作变得简单高效。但电子邮件给我们的生活带来便捷的同时,也让一些为获得某种利益而发送大量不合法邮件的个人或企业困扰着电子邮件用户。垃圾邮件的泛滥对电子邮件用户的生活和工作产生了巨大的负面影响。用户邮箱中如果充斥着大量的垃圾邮件,这不仅没有对电子邮件用户的学习和工作带来更高的效率,反而会使电子邮件用户浪费大量的时间和精力去处理垃圾邮件。面对日益增多的垃圾邮件的困扰,一种可靠有效的垃圾邮件过滤技术已经成为了发展必要。贝叶斯算法以其高效、易于实现、扩展性好的特点,已广泛的应用在垃圾邮件过滤技术中。此外,贝叶斯算法能够通过对邮件样本的训练,自动学习样本内容来对垃圾邮件进行过滤。在现有的垃圾邮件过滤技术中,贝叶斯算法在垃圾邮件过滤中显现出了极好的应用效果。尤其在对英文电子邮件分类时,较简单的贝叶斯垃圾邮件过滤器的准确率已经达99%以上。而在对中文邮件的垃圾邮件判定及过滤中,由于中文的特殊性,误报率一直很高。如果在中文邮件进行分类之前,能够做到邮件内容的精确分词,将会大大降低中文邮件分类的误报率。TF-IDF(TermFrequency–InverseDocumentFrequency)分词算法由两部分构成:TF(TermFrequency,特性项频率即词频)和IDF(InverseDocumentFrequency,逆向文档频率)。其中,词频(TF)指的是特征词在所选取的文档中出现的次数,这就说明当计算词频时,需要对文本中的词语组合进行划分,划分后再统计词语的个数。逆向文档频率(IDF)指的是特征词普遍重要性的度量。估量特征词的逆向文档频率是通过对建立的语料库统计特征词出现的程度。逆向文档频率(IDF)可以有效降低作用较小的高频特征词的权值,从而削弱对文本分类的影响,同时也对词频比较低而作用比较大的特征词进行评估赋予较大权值,提高文本分类的准确性。
技术实现思路
本专利技术为降低中文邮件中垃圾邮件过滤的误报率,以提高准确性,在朴素贝叶斯垃圾邮件过滤方法的基础上,引入TF-IDF中文分词算法对邮件内容进行特征词精确提取以及特征词权值的估量,实现一种针对中文内容的垃圾邮件高效过滤方法。为达到上述目的,提出的一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法,主要包括以下步骤:(1)收集中文邮件训练样本集,包括垃圾邮件及合法邮件,建立中文邮件训练文本集;(2)根据停用词词库对中文邮件训练文本集进行TF-IDF中文分词,并更新停用词词库;(3)通过TF-IDF中文分词算法对中文邮件训练文本集中的垃圾邮件和合法邮件进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;(4)把TF-IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器;(5)贝叶斯分类器根据输入的中文邮件内容中的特征词及特征词权值判断邮件是否为垃圾邮件,并把结果反馈到日志库。所述步骤(2)中,在中文邮件内容进行分词过程中,调用中科院ictclas中文分词插件以及停用词词库,过滤掉中文邮件内容中的停用词,进而实现中文邮件内容特征词的精准提取,并对中文邮件内容中出现的新的停用词进行停用词词库更新。所述步骤(3)中,对于中文邮件进行特征词提取过程,通过TF-IDF中文分词对邮件内容提取的特征词和统计后的特征词权值与特征词词库内包含的特征词进行比对,如果存在相同的特征词,更新词库中相应的特征词权值,如果不存在,添加新的特征词及其权值到特征词词库。所述步骤(4)中,把经过TF-IDF中文分词后的中文邮件训练集或者新邮件产生的特征词以及特征词权值输入到贝叶斯分类器中,通过输入的特征词和建立的特征词词库计算电子邮件属于垃圾邮件的概率,当垃圾邮件的概率大于设定的阈值时,可判断电子邮件为垃圾邮件,否则为合法邮件。所述步骤(5)中,为降低噪声特征词对邮件分类准确率的影响,在贝叶斯分类器对电子邮件分类之后建立条件反馈,把电子邮件的内容和分类结果反馈至日志库,之后把日志库作为样本训练集进行样本训练。以上技术方案可以看出,在本专利技术中,较之现有的针对中文邮件的贝叶斯垃圾邮件过滤方法而言,把TF-IDF中文分词算法与贝叶斯分类算法相结合,通过TF-IDF中文分词算法直接自动对中文邮件内容进行特征词精确提取,无需人工收集垃圾邮件特征词来建立特征词库,从而避免了人工处理中主观性导致的不准确性,提高垃圾邮件过滤中的准确率。此外,经过贝叶斯分类之后的电子邮件会反馈到日志库,通过定期把日志库记录的邮件类型以及邮件内容自动建立新的规则训练集,用于重构垃圾邮件过滤中特征词词库的关键特征词及其权值,进而自动更新垃圾邮件的分类规则,提高垃圾邮件过滤的可靠性和准确性。附图说明为了更清楚的说明本专利技术实施例中的技术方案,下面结合附图与具体实施方案对本专利技术做进一步说明:图1为专利技术公开的基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法流程图;图2为专利技术公开的TF-IDF中文邮件分词流程图;图3为专利技术公开的基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法反馈流程图。具体实施方式请参阅图1,其为本专利技术基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法流程图。步骤(1):收集中文邮件训练样本集,包括垃圾邮件及合法邮件,建立中文邮件训练文本集。所述步骤(1)的中文邮件训练样本集是一定数量的垃圾邮件和合法邮件的集合。垃圾邮件过滤是根据邮件内容中特定文本的表达,对邮件进行是否为垃圾邮件的判断,进而进行垃圾邮件过滤。在基于贝叶斯分类器的垃圾邮件分类过程中,首先要收集一定数量的邮件建立训练样本集。根据训练样本集建立特征库,进而依据邮件中的某些特征在特征库中的表现统计属于某个类别的概率,从而实现邮件的分类。例如存在一个邮件训练样本集M={m1,m2,…,mn}。其中,该邮件训练样本集中能够表现出自身类别的文本集假设为W={w1,w2,…,wn}。此外,假设邮件文本集的内容类别表示为C={c1,c2,…,cn}。那么M={m1,m2,…,mn}为待分类文本Mq的特征向量。根据贝叶斯分类器对文本内容进行分类的过程,可令P={p1,p2,…,pn}表示W={w1,w2,…,wn}属于特定类别C={c1,c2,…,cn}的概率值。步骤(2):根据停用词词库对中文邮件训练文本集进行TF-IDF中文分词,并更新停用词词库。所述步骤(2)中,在中文邮件内容进行分词过程中,调用中科院ictclas中文分词插件以及停用词词库,过滤掉中文邮件内容中的停用词,进而实现中文邮件内容特征词的精准提取,并对中文邮件内容中出现的新的停用词进行停本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/62/201710257123.html" title="一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法原文来自X技术">基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法</a>

【技术保护点】
一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法其特征在于,主要包括以下步骤:(1)收集中文邮件训练样本集,包括垃圾邮件及合法邮件,建立中文邮件训练文本集;(2)根据停用词词库对中文邮件训练文本集进行TF‑IDF中文分词,并更新停用词词库;(3)通过TF‑IDF中文分词算法对中文邮件训练文本集中的垃圾邮件和合法邮件进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;(4)把TF‑IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器;(5)贝叶斯分类器根据输入的中文邮件内容中的特征词及特征词权值判断邮件是否为垃圾邮件,并把结果反馈到日志库。

【技术特征摘要】
1.一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法其特征在于,主要包括以下步骤:(1)收集中文邮件训练样本集,包括垃圾邮件及合法邮件,建立中文邮件训练文本集;(2)根据停用词词库对中文邮件训练文本集进行TF-IDF中文分词,并更新停用词词库;(3)通过TF-IDF中文分词算法对中文邮件训练文本集中的垃圾邮件和合法邮件进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;(4)把TF-IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器;(5)贝叶斯分类器根据输入的中文邮件内容中的特征词及特征词权值判断邮件是否为垃圾邮件,并把结果反馈到日志库。2.根据权利要求1所述的一种基于TF-IDF中文分词的贝叶斯垃圾邮件过滤方法其特征在于:所述步骤(2)中,在中文邮件内容进行分词过程中,调用中科院ictclas中文分词插件以及停用词词库,过滤掉中文邮件内容中的停用词,进而实现中文邮件内容特征词的精准提取,并对中文邮件内容中出现的新的停用词进行停用词词库更新。3.根据权利要求1和权利要求2所述的一种基于TF...

【专利技术属性】
技术研发人员:崔玉文石乐义刘晓彤陈鸿龙郭宏斌孙慧薛智宇李剑蓝
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1