基于分类算法的可配置垃圾邮件过滤系统及过滤方法技术方案

技术编号:19240347 阅读:23 留言:0更新日期:2018-10-24 03:55
本发明专利技术提供了一种基于分类算法的可配置垃圾邮件过滤系统,包括:训练模块、测试模块、应用模块以及中间文件生成模块,所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接;同时提供了一种基于分类算法的可配置垃圾邮件过滤方法。本发明专利技术将不同种类的垃圾邮件分类训练的结果要优秀很多。不同受众群体对于垃圾邮件的定义不同,需要过滤的邮件种类也不同,提供垃圾邮件分类过滤的功能正是符合用户的需求,提升用户体验。

【技术实现步骤摘要】
基于分类算法的可配置垃圾邮件过滤系统及过滤方法
本专利技术涉及邮件过滤
,具体地,涉及一种基于分类算法的可配置垃圾邮件过滤系统及过滤方法。
技术介绍
垃圾邮件的识别很早就引起了人们的关注,学者们尝试了不同的方法来解决这个问题。比如基于内容的垃圾邮件过滤技术,基于社会信息的垃圾邮件过滤技术等。目前基于内容的反垃圾邮件技术主要分为基于规则的过滤方法和基于概率的过滤方法。其中,基于规则的过滤方法主要有决策树算法等;基于概率的过滤方法主要有贝叶斯过滤算法等。这些垃圾邮件过滤方法考虑了邮件的内容等信息,但很有可能错把普通邮件当成垃圾邮件,或是把垃圾邮件当成普通邮件。因此,需要更有效的方法对垃圾邮件进行识别与过滤。深度学习作为新兴的机器学习方法,在语音识别、图像识别等领域取得巨大成功。在垃圾信息识别领域,深度学习方法同样有很大的建树。目前比较经典的垃圾邮件过滤方法是基于朴素贝叶斯(Bayes)算法的过滤方法。由于邮件是一个无结构的文本,需要把它表示成一个向量才能进行计算。在贝叶斯分类算法中,一般采用向量空间模型来实现邮件向量化。贝叶斯网络是一个二元组B=<G,Θ>。其中,G是一个有向无环图,图中的节点表示随机变量Xi,节点之间的有向边表示随机变量之间的条件依赖关系。Θ是节点的参数向量,每个分量是一个条件概率表,定义了对应节点的局部概率分布。贝叶斯网络结构表示了一个节点Xi在给定其父节点条件下和网络中的非后代节点条件独立。一个贝叶斯分类器就是用于分类任务的贝叶斯网络,它包含了一个代表类别变量的节点C,以及代表特征变量的节点Xi。给定一个实例x(特征变量的一组值x1,x2,…,xn),贝叶斯网络能让我们计算出每个可能的类别ck的概率P(C=ck|X=x),而分类的任务就是找出使得P(C=ck|X=x)最大的ck。根据贝叶斯定理:P(C=Ck|X=x)=P(X=x|C=ck)P(C=ck)/P(X=x)上述公式中,P(X=x)对每个类别ck都相同,不需要考虑。先验概率P(C=ck)可以用样本空间中属于类别ck中的向量总数占样本空间中的向量总数的比例表示,最后计算出P(X=x|C=ck)即可。但是,在众多垃圾邮件过滤器中,很少有对垃圾邮件进行分类过滤的软件。在日常生活中,我们发现不同年龄段、不同职业的人群对垃圾邮件有着不同的理解。例如学术会议类的邮件,大部分人平时不会去阅读这类邮件,但许多科研人员都需要通过阅读它们来了解最新的科学知识,它们对于从事科研的学者来说是提升自我的机会;又如最经典的商业广告类邮件,它们严重影响了大部分群众的邮件交流体验,但对于从事商业广告类的研究人员,这些邮件却是不可多得的样本。同理,很多外文邮件对于年轻人未必是垃圾邮件,反而有可能是工作中的机会,或是与外国朋友间的交往;但对于那些从不用外文的中、老年人来说,哪怕是看见这些不认识的文字都会觉得头痛。因此,对垃圾邮件的识别与过滤需要建立在不同受众的需求之上,对垃圾邮件进行多种分类与过滤正是解决这个问题的良好方法。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
针对现有技术中存在的上述不足,本专利技术的目的是提供一种基于分类算法的可配置垃圾邮件过滤系统及过滤方法,“可配置”垃圾邮件分类过滤的功能符合用户的需求,并可以提升用户体验。将垃圾邮件分为商业广告类、征婚交友类、英文类、学术会议类等六类,使用深度学习分类器进行垃圾邮件过滤,本专利技术不仅能有效过滤垃圾邮件,更是从垃圾邮件过滤器使用者的角度出发,提出了一种垃圾邮件分类过滤的新方案。为实现上述目的,本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面,提供了一种基于分类算法的可配置垃圾邮件过滤系统,包括:训练模块、测试模块、应用模块以及中间文件生成模块,所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接;其中:所述训练模块用于建立初步的垃圾邮件分类模型;所述测试模块用于确定初步的垃圾邮件分类模型的最优参数,并得到最优的垃圾邮件分类模型;所述应用模块用于识别并过滤不同种类的垃圾邮件,其中垃圾邮件的类别根据用户的需求具体配置;所述中间文件生成模块用于存储中间生成的文件,并应用于训练模块、测试模块以及应用模块。优选地,所述训练模块包括依次连接的训练数据集载入单元、中文分词单元A、数字矩阵生成单元A、特征选择单元和分类算法单元;其中:所述训练数据集载入单元用于载入用于训练的中文邮件数据集;中文分词单元A用于将用于训练的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本,得到分词后的邮件;数字矩阵生成单元A用于将分词后的邮件转化为数字矩阵;所述数字矩阵包括矩阵x和矩阵y,其中,矩阵x是一个m×n的矩阵,表示单词的数据部分,矩阵x的每一行表示一个单词的维数为n的词向量,矩阵x的每一列表示一个单词,m为单词个数;矩阵y是一个m×1的矩阵,表示邮件中每篇文档对应的分类;特征选择单元用于剔除不相关或亢余的特征;分类算法单元用于训练初步的垃圾邮件分类模型,将不同种类的垃圾邮件分为不同的类别进行训练,并经过分类算法得到初步的垃圾邮件分类模型。优选地,所述用于训练的中文邮件数据集包括二分类和多分类两种属性,其中:所述二分类属性,是指中文邮件数据集根据邮件类别分为垃圾邮件和普通邮件两类;所述多分类属性,是指中文邮件数据集分为具体的垃圾邮件种类;优选地,当中文邮件数据集为二分类属性时,矩阵y包括普通邮件和垃圾邮件两类,当中文邮件数据集为多分类属性时,矩阵y中有多类,分别表示不同种类的垃圾邮件。优选地,特征选择单元在剔除特征时,采用卷积神经网络的池化方法进行特征选择;优选地,所述不相关或亢余的特征在数字矩阵中表示为0项。优选地,所述分类算法采用深度学习分类算法。优选地,所述测试模块包括测试数据集载入单元、中文分词单元B、数字矩阵生成单元B以及应用模型生成单元;其中:所述测试数据集载入单元用于载入用于测试的中文邮件数据集;所述中文分词单元B用于将用于测试的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本,生成分词后的邮件;数字矩阵生成单元B用于将分词后的邮件转化为数字矩阵;所述数字矩阵包括矩阵x和矩阵y,其中,矩阵x是一个m×n的矩阵,表示单词的数据部分,矩阵x的每一行表示一个单词的维数为n的词向量,矩阵x的每一列表示一个单词,m为单词个数;矩阵y是一个m×1的矩阵,表示邮件中每篇文档对应的分类;模型优化单元用于优化训练初步的垃圾邮件分类模型的参数,根据用于测试的中文邮件数据集的准确率判断参数的优劣,并经过调整参数,得到最优的垃圾邮件分类模型。优选地,所述用于训练的中文邮件数据集包括二分类和多分类两种属性,其中:所述二分类属性,是指中文邮件数据集根据邮件类别分为垃圾邮件和普通邮件两类;所述多分类属性,是指中文邮件数据集分为具体的垃圾邮件种类。优选地,当中文邮件数据集为二分类属性时,矩阵y包括普通邮件和垃圾邮件两类,当中文邮件数据集为多分类属性时,矩阵y中有多类,分别表示不同种类的垃圾邮件。优选地,所述应用模块包括:客户端模式单元和服务器端模式单元;其中:所述客户端模式单元用于提供客户端模式,所述客户端模式具体为:在客本文档来自技高网
...

【技术保护点】
1.一种基于分类算法的可配置垃圾邮件过滤系统,其特征在于,包括:训练模块、测试模块、应用模块以及中间文件生成模块,所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接;其中:所述训练模块用于建立初步的垃圾邮件分类模型;所述测试模块用于确定初步的垃圾邮件分类模型的最优参数,并得到最优的垃圾邮件分类模型;所述应用模块用于识别并过滤不同种类的垃圾邮件,其中垃圾邮件的类别根据用户的需求具体配置;所述中间文件生成模块用于存储中间生成的文件,并应用于训练模块、测试模块以及应用模块。

【技术特征摘要】
1.一种基于分类算法的可配置垃圾邮件过滤系统,其特征在于,包括:训练模块、测试模块、应用模块以及中间文件生成模块,所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接;其中:所述训练模块用于建立初步的垃圾邮件分类模型;所述测试模块用于确定初步的垃圾邮件分类模型的最优参数,并得到最优的垃圾邮件分类模型;所述应用模块用于识别并过滤不同种类的垃圾邮件,其中垃圾邮件的类别根据用户的需求具体配置;所述中间文件生成模块用于存储中间生成的文件,并应用于训练模块、测试模块以及应用模块。2.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,所述训练模块包括依次连接的训练数据集载入单元、中文分词单元A、数字矩阵生成单元A、特征选择单元和分类算法单元;其中:所述训练数据集载入单元用于载入用于训练的中文邮件数据集;中文分词单元A用于将用于训练的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本,得到分词后的邮件;数字矩阵生成单元A用于将分词后的邮件转化为数字矩阵;所述数字矩阵包括矩阵x和矩阵y,其中,矩阵x是一个m×n的矩阵,表示单词的数据部分,矩阵x的每一行表示一个单词的维数为n的词向量,矩阵x的每一列表示一个单词,m为单词个数;矩阵y是一个m×1的矩阵,表示邮件中每篇文档对应的分类;特征选择单元用于剔除不相关或亢余的特征;分类算法单元用于训练初步的垃圾邮件分类模型,将不同种类的垃圾邮件分为不同的类别进行训练,并经过分类算法得到初步的垃圾邮件分类模型。3.根据权利要求2所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,还包括如下任一项或任多项:-所述用于训练的中文邮件数据集包括二分类和多分类两种属性,其中:所述二分类属性,是指中文邮件数据集根据邮件类别分为垃圾邮件和普通邮件两类;所述多分类属性,是指中文邮件数据集分为具体的垃圾邮件种类;当中文邮件数据集为二分类属性时,矩阵y包括普通邮件和垃圾邮件两类,当中文邮件数据集为多分类属性时,矩阵y中有多类,分别表示不同种类的垃圾邮件;-特征选择单元在剔除特征时,采用卷积神经网络的池化方法进行特征选择;-所述不相关或亢余的特征在数字矩阵中表示为0项;-所述分类算法采用深度学习分类算法。4.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,所述测试模块包括测试数据集载入单元、中文分词单元B、数字矩阵生成单元B以及应用模型生成单元;其中:所述测试数据集载入单元用于载入用于测试的中文邮件数据集;所述中文分词单元B用于将用于测试的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本,生成分词后的邮件;数字矩阵生成单元B用于将分词后的邮件转化为数字矩阵;所述数字矩阵包括矩阵x和矩阵y,其中,矩阵x是一个m×n的矩阵,表示单词的数据部分,矩阵x的每一行表示一个单词的维数为n的词向量,矩阵x的每一列表示一个单词,m为单词个数;矩阵y是一个m×1的矩阵,表示邮件中每篇文档对应的分类;模型优化单元用于优化训练初步的垃圾邮件分类模型的参数,根据用于测试的中文邮件数据集的准确率判断参数的优劣,并经过调整参数,得到最优的垃圾邮件分类模型。5.根据权利要求4所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,所述用于训练的中文邮件数据集包括二分类和多分类两种属性,其中:所述二分类属性,是指中文邮件数据集根据邮件类别分为垃圾邮件和普通邮件两类;所述多分类属性,是指中文邮件数据集分为具体的垃圾邮件种类;当中文邮件数据集为二分类属性时,矩阵y包括普通邮件和垃圾邮件两类,当中文邮件数据集为多分类属性时,矩阵y中有多类,分别表示不同...

【专利技术属性】
技术研发人员:于泽平褚乾峰张学文朱信宇苏波刘功申
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1