一种基于多算法融合模型的垃圾邮件过滤方法技术

技术编号：18292233 阅读：33 留言：0更新日期：2018-06-24 08:09

一种基于多算法融合模型的垃圾邮件过滤方法，1)根据业务理解收集原始数据；2)进行文本预处理；3)向量化表示，针对不同的算法，采用不同的文本特征提取方式；5)融合分类器。以上一步不同分类器的预测值为输入，样本真实类别为输出，通过线性分类器学习出各分类器的权重；6)根据训练出的分类器及其权重用于预测新样本的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多算法融合模型的垃圾邮件过滤方法
本专利技术涉及数据挖掘
，尤其是针对垃圾邮件过滤这一主题提出了一种多算法融合的解决策略。具体而言，在传统垃圾邮件过滤技术的基础上，提出一种融合Bayes、SVM和Fasttext多种文本分类算法的垃圾邮件过滤方法。
技术介绍
随着互联网的发展，电子邮件成为人们日常生活、工作必不可少的应用。电子邮件由于其便捷、经济等特点成为互联网最广泛的应用之一，但也因为其成本低廉、传播快速的特点反而被垃圾邮件的制作者所利用。垃圾邮件广义上来讲就是未经收件人允许而发送的带有商业广告等不良信息的邮件。垃圾邮件不仅会使受害人遭受财产损失，更会造成计算机网络资源的浪费，危害互联网的发展。有鉴于此，需要一种精准、高效的方法对垃圾邮件进行判断并过滤，为电子邮件用户提供一个安全、纯净的环境。邮件过滤技术实质上把邮件分为垃圾邮件(spam)和正常邮件(ham)。目前针对垃圾邮件的技术主要有三类：基于IP的识别、基于行为的识别和基于内容的识别。其中基于内容的识别是研究的主流，而基于内容的过滤技术被划分为两类：基于规则的过滤器以及基于机器学习的算法过滤。基于规则的过滤器主要采用决策树输出的规则或粗糙集等对邮件头、邮件内容进行分析，判断邮件是否为垃圾邮件，该方法简单、高效，但是垃圾邮件的规则变化多且快，该方法不能实时适应垃圾邮件的变化，不够灵活。基于机器学习的算法过滤方法本质上是文本二分类的方法，对文本量化后采用机器学习分类方法对文本进行分类，该方法相较于基于规则的过滤方法有更高的准确率，能够通过学习不断变化的垃圾邮件的特征对判断模型进行优化更新...
一种基于多算法融合模型的垃圾邮件过滤方法

【技术保护点】
1.一种基于多算法融合模型的垃圾邮件过滤方法，其特征是步骤1根据业务理解收集原始数据；步骤2进行文本预处理；步骤21邮件分词；步骤22根据业务理解，过滤掉无效字符，如停用词、常用词等；步骤3向量化表示，针对不同的算法，采用不同的文本特征提取方式；步骤31通过计数来将一个邮件文档转换为向量；步骤32通过计算词频‑逆向文件频率(TF‑IDF)邮件文档转换为向量；步骤33通过训练Word2Vec Model将每个词语映射到一个固定大小的向量；步骤4建立模型；步骤41通过CountVectorizer向量构造

【技术特征摘要】
1.一种基于多算法融合模型的垃圾邮件过滤方法，其特征是步骤1根据业务理解收集原始数据；步骤2进行文本预处理；步骤21邮件分词；步骤22根据业务理解，过滤掉无效字符，如停用词、常用词等；步骤3向量化表示，针对不同的算法，采用不同的文本特征提取方式；步骤31通过计数来将一个邮件文档转换为向量；步骤32通过计算词频-逆向文件频率(TF-IDF)邮件文档转换为向量；步骤33通过训练Word2VecModel将每个词语映射到一个固定大小的向量；步骤4建立模型；步骤41通过CountVectorizer向量构造Bayes分类器；步骤42通过TF-IDF向量构造SVM分类器；步骤43通过Word2Vec词向量构造Fasttext分类器；步骤5融合分类器，以上一步不同分类器的预测值为输入，样本真实类别为输出，通过线性分类器学习出各分类器的权重；步骤6根据训练出的分类器及其权重用于预测新样本的分类结果。2.根据权利要求1所述的垃圾邮件过滤方法，其特征是步骤21先对邮件内容进行分词，由于询盘邮件中可能包含中英文，调用jieba的cut方法，完成对邮件单词的切分；步骤22去掉一些无关的词汇，常用词、停用词以及询盘内容包含的html网页标签。3.根据权利要求1所述的垃圾邮件过滤方法，其特征是步骤3-4中，以向量化表示和建立模型，针对不同的算法，采用不同的文本特征提取方式；将向量化特征表示和模型建立统一处理，并借助于sklearn完成Bayes分...

【专利技术属性】
技术研发人员：钟力，吴海龙，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人