一种基于多算法融合模型的垃圾邮件过滤方法技术

技术编号:18292233 阅读:33 留言:0更新日期:2018-06-24 08:09
一种基于多算法融合模型的垃圾邮件过滤方法,1)根据业务理解收集原始数据;2)进行文本预处理;3)向量化表示,针对不同的算法,采用不同的文本特征提取方式;5)融合分类器。以上一步不同分类器的预测值为输入,样本真实类别为输出,通过线性分类器学习出各分类器的权重;6)根据训练出的分类器及其权重用于预测新样本的分类结果。

【技术实现步骤摘要】
一种基于多算法融合模型的垃圾邮件过滤方法
本专利技术涉及数据挖掘
,尤其是针对垃圾邮件过滤这一主题提出了一种多算法融合的解决策略。具体而言,在传统垃圾邮件过滤技术的基础上,提出一种融合Bayes、SVM和Fasttext多种文本分类算法的垃圾邮件过滤方法。
技术介绍
随着互联网的发展,电子邮件成为人们日常生活、工作必不可少的应用。电子邮件由于其便捷、经济等特点成为互联网最广泛的应用之一,但也因为其成本低廉、传播快速的特点反而被垃圾邮件的制作者所利用。垃圾邮件广义上来讲就是未经收件人允许而发送的带有商业广告等不良信息的邮件。垃圾邮件不仅会使受害人遭受财产损失,更会造成计算机网络资源的浪费,危害互联网的发展。有鉴于此,需要一种精准、高效的方法对垃圾邮件进行判断并过滤,为电子邮件用户提供一个安全、纯净的环境。邮件过滤技术实质上把邮件分为垃圾邮件(spam)和正常邮件(ham)。目前针对垃圾邮件的技术主要有三类:基于IP的识别、基于行为的识别和基于内容的识别。其中基于内容的识别是研究的主流,而基于内容的过滤技术被划分为两类:基于规则的过滤器以及基于机器学习的算法过滤。基于规则的过滤器主要采用决策树输出的规则或粗糙集等对邮件头、邮件内容进行分析,判断邮件是否为垃圾邮件,该方法简单、高效,但是垃圾邮件的规则变化多且快,该方法不能实时适应垃圾邮件的变化,不够灵活。基于机器学习的算法过滤方法本质上是文本二分类的方法,对文本量化后采用机器学习分类方法对文本进行分类,该方法相较于基于规则的过滤方法有更高的准确率,能够通过学习不断变化的垃圾邮件的特征对判断模型进行优化更新。当前主流的垃圾邮件过滤系统大多采用以传统机器学习方法(如Bayes、LogisticRegression和SVM等)为核心的传统机器学习算法,这类算法通常较为简单,在无需大量样本的情况下就能取得不错的分类效果,但单一分类器的分类性能有限。除此之外,深度学习的相关算法(如CNN、RNN)也被应用于垃圾邮件分类之中,这类算法通常在海量数据下能取得非常不错的分类效果,但是对数据量要求高,模型复杂难训练。值得一提的是去年由Fackbook开源的FastText作为一个深层神经网络的简化版,模型简单,训练速度非常快,同时分类效果也很不错。例如CN103905289A一种垃圾邮件过滤方法,包括以下步骤:S1:建立学习库,通过对已知垃圾邮件和非垃圾邮件的分析,自学习垃圾邮件判断依据;S2:根据S1中确立的垃圾邮件判断依据,对新邮件进行判断及过滤判断出的垃圾邮件;S3:将经过判断的新邮件放入步骤S1中建立的学习库中,以不断提高所述学习库的判断准确率。
技术实现思路
本专利技术目的是,提出一种基于多算法融合模型的垃圾邮件过滤方法,希望通过训练多个垃圾邮件分类器,并采用集成的方法通过组合多个单分类器的输出结论的方式训练分类器,确定邮件的类别,对垃圾邮件进行过滤。一种基于多算法融合模型的垃圾邮件过滤方法,步骤1根据业务理解收集原始数据;步骤2进行文本预处理;步骤21邮件分词;步骤22根据业务理解,过滤掉无效字符,如停用词、常用词等;步骤3向量化表示,针对不同的算法,采用不同的文本特征提取方式;步骤31通过计数来将一个邮件文档转换为向量;步骤32通过计算词频-逆向文件频率(TF-IDF)邮件文档转换为向量;步骤33通过训练Word2VecModel将每个文档映射到一个固定大小的向量;步骤4建立模型;步骤41通过CountVectorizer向量构造Bayes分类器;步骤42通过TF-IDF向量构造SVM分类器;步骤43通过Word2Vec词向量构造Fasttext分类器;步骤5融合分类器。以上一步不同分类器的预测值为输入,样本真实类别为输出,通过线性分类器学习出各分类器的权重;步骤6根据训练出的分类器及其权重用于预测新样本的分类结果。有益效果:一种基于多算法融合模型的垃圾邮件过滤方法,通过训练多个垃圾邮件分类器,并采用集成的方法通过组合多个单分类器的输出结论的方式训练分类器,确定邮件的类别,对垃圾邮件进行过滤。本专利技术具有完整建模流程,执行多算法融合模型的垃圾邮件过滤,相比较传统的方法有着更高的准确率和查全率,从而高精度地甄别垃圾邮件。附图说明图1多算法融合模型的垃圾邮件过滤方法流程图。具体实施方式以下结合图1,具体阐述本专利技术实施方案。所描述的实施例仅为示例,基于本专利技术技术实质所做的等同变化,仍落入本专利技术保护范围。步骤1根据业务理解收集原始数据,本专利技术选择焦点科技股份有限公司旗下中国制造网的用户询盘邮件数据作为样例展示。步骤2进行文本预处理,中国制造网的询盘邮件中存在着广告、钓鱼和包含违法信息等垃圾邮件,通常情况下,这些垃圾邮件都是由人工逐一审核验证。本专利技术统计获取了少量已经打好样本标签的询盘邮件,其中正常邮件1160封,垃圾邮件750封。所有的流程操作均在Python中完成。步骤21先对邮件内容进行分词,由于询盘邮件中可能包含中英文,我们调用jieba的cut方法,完成对邮件单词的切分importjiebaraw_words_list=jieba.cut(doc)步骤22去掉一些无关的词汇,比如常用词,停用词以及询盘内容可能会包含的html网页标签defdoc_processing(words_list):”'邮件分词,过滤掉无效字符”'words_list=[wordforwordinwords_listifwordnotincommon_words]words_list=[wordforwordinwords_listifwordnotinstop_words]words_list=[wordforwordinwords_listifwordnotinhtml_words]returnwords_listwords_list=doc_processing(raw_words_list)步骤3-4向量化表示和建立模型,针对不同的算法,采用不同的文本特征提取方式,为了便于叙述,我们将向量化特征表示和模型建立统一处理,并借助于sklearn完成Bayes分类器和SVM分类器的构建,同时借助于fasttext完成对Fasttext分类器的构建。X_train,y_train分别为模型训练时的样本及标签。具体步骤如下:步骤31通过计数来将一个邮件文档转换为向量。我们采用3-gram的方法根据已经分好词的邮件文档中的词频排序从高到低进行选择构建词汇表,这样考虑到了词语前面的一个词语的信息,同时也考虑到了部分语序信息,因此区分效果会比单纯用朴素贝叶斯方法更好步骤32通过计算词频-逆向文件频率(TF-IDF)邮件文档转换为向量。TF-IDF模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。该模型主要包含了两个因素:TF与IDF,词频TF为词w在文档d中出现次数count(w,d)和文档d中总词数size(d)的比值,逆向文档频率IDF为文档总数n与词w所出现文件数docs(w,D)比值的对数。而TF-IDF=TF*IDF=(词频*词权),它综合考虑了一个词的存在感和唯一性步骤33通过训练本文档来自技高网
...
一种基于多算法融合模型的垃圾邮件过滤方法

【技术保护点】
1.一种基于多算法融合模型的垃圾邮件过滤方法,其特征是步骤1根据业务理解收集原始数据;步骤2进行文本预处理;步骤21邮件分词;步骤22根据业务理解,过滤掉无效字符,如停用词、常用词等;步骤3向量化表示,针对不同的算法,采用不同的文本特征提取方式;步骤31通过计数来将一个邮件文档转换为向量;步骤32通过计算词频‑逆向文件频率(TF‑IDF)邮件文档转换为向量;步骤33通过训练Word2Vec Model将每个词语映射到一个固定大小的向量;步骤4建立模型;步骤41通过CountVectorizer向量构造

【技术特征摘要】
1.一种基于多算法融合模型的垃圾邮件过滤方法,其特征是步骤1根据业务理解收集原始数据;步骤2进行文本预处理;步骤21邮件分词;步骤22根据业务理解,过滤掉无效字符,如停用词、常用词等;步骤3向量化表示,针对不同的算法,采用不同的文本特征提取方式;步骤31通过计数来将一个邮件文档转换为向量;步骤32通过计算词频-逆向文件频率(TF-IDF)邮件文档转换为向量;步骤33通过训练Word2VecModel将每个词语映射到一个固定大小的向量;步骤4建立模型;步骤41通过CountVectorizer向量构造Bayes分类器;步骤42通过TF-IDF向量构造SVM分类器;步骤43通过Word2Vec词向量构造Fasttext分类器;步骤5融合分类器,以上一步不同分类器的预测值为输入,样本真实类别为输出,通过线性分类器学习出各分类器的权重;步骤6根据训练出的分类器及其权重用于预测新样本的分类结果。2.根据权利要求1所述的垃圾邮件过滤方法,其特征是步骤21先对邮件内容进行分词,由于询盘邮件中可能包含中英文,调用jieba的cut方法,完成对邮件单词的切分;步骤22去掉一些无关的词汇,常用词、停用词以及询盘内容包含的html网页标签。3.根据权利要求1所述的垃圾邮件过滤方法,其特征是步骤3-4中,以向量化表示和建立模型,针对不同的算法,采用不同的文本特征提取方式;将向量化特征表示和模型建立统一处理,并借助于sklearn完成Bayes分...

【专利技术属性】
技术研发人员:钟力吴海龙
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1