【技术实现步骤摘要】
基于分类算法的可配置垃圾邮件过滤系统及过滤方法
本专利技术涉及邮件过滤
,具体地,涉及一种基于分类算法的可配置垃圾邮件过滤系统及过滤方法。
技术介绍
垃圾邮件的识别很早就引起了人们的关注,学者们尝试了不同的方法来解决这个问题。比如基于内容的垃圾邮件过滤技术,基于社会信息的垃圾邮件过滤技术等。目前基于内容的反垃圾邮件技术主要分为基于规则的过滤方法和基于概率的过滤方法。其中,基于规则的过滤方法主要有决策树算法等;基于概率的过滤方法主要有贝叶斯过滤算法等。这些垃圾邮件过滤方法考虑了邮件的内容等信息,但很有可能错把普通邮件当成垃圾邮件,或是把垃圾邮件当成普通邮件。因此,需要更有效的方法对垃圾邮件进行识别与过滤。深度学习作为新兴的机器学习方法,在语音识别、图像识别等领域取得巨大成功。在垃圾信息识别领域,深度学习方法同样有很大的建树。目前比较经典的垃圾邮件过滤方法是基于朴素贝叶斯(Bayes)算法的过滤方法。由于邮件是一个无结构的文本,需要把它表示成一个向量才能进行计算。在贝叶斯分类算法中,一般采用向量空间模型来实现邮件向量化。贝叶斯网络是一个二元组B=<G,Θ>。其中,G是一个有向无环图,图中的节点表示随机变量Xi,节点之间的有向边表示随机变量之间的条件依赖关系。Θ是节点的参数向量,每个分量是一个条件概率表,定义了对应节点的局部概率分布。贝叶斯网络结构表示了一个节点Xi在给定其父节点条件下和网络中的非后代节点条件独立。一个贝叶斯分类器就是用于分类任务的贝叶斯网络,它包含了一个代表类别变量的节点C,以及代表特征变量的节点Xi。给定一个 ...
【技术保护点】
1.一种基于分类算法的可配置垃圾邮件过滤系统,其特征在于,包括:训练模块、测试模块、应用模块以及中间文件生成模块,所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接;其中:所述训练模块用于建立初步的垃圾邮件分类模型;所述测试模块用于确定初步的垃圾邮件分类模型的最优参数,并得到最优的垃圾邮件分类模型;所述应用模块用于识别并过滤不同种类的垃圾邮件,其中垃圾邮件的类别根据用户的需求具体配置;所述中间文件生成模块用于存储中间生成的文件,并应用于训练模块、测试模块以及应用模块。
【技术特征摘要】
1.一种基于分类算法的可配置垃圾邮件过滤系统,其特征在于,包括:训练模块、测试模块、应用模块以及中间文件生成模块,所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接;其中:所述训练模块用于建立初步的垃圾邮件分类模型;所述测试模块用于确定初步的垃圾邮件分类模型的最优参数,并得到最优的垃圾邮件分类模型;所述应用模块用于识别并过滤不同种类的垃圾邮件,其中垃圾邮件的类别根据用户的需求具体配置;所述中间文件生成模块用于存储中间生成的文件,并应用于训练模块、测试模块以及应用模块。2.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,所述训练模块包括依次连接的训练数据集载入单元、中文分词单元A、数字矩阵生成单元A、特征选择单元和分类算法单元;其中:所述训练数据集载入单元用于载入用于训练的中文邮件数据集;中文分词单元A用于将用于训练的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本,得到分词后的邮件;数字矩阵生成单元A用于将分词后的邮件转化为数字矩阵;所述数字矩阵包括矩阵x和矩阵y,其中,矩阵x是一个m×n的矩阵,表示单词的数据部分,矩阵x的每一行表示一个单词的维数为n的词向量,矩阵x的每一列表示一个单词,m为单词个数;矩阵y是一个m×1的矩阵,表示邮件中每篇文档对应的分类;特征选择单元用于剔除不相关或亢余的特征;分类算法单元用于训练初步的垃圾邮件分类模型,将不同种类的垃圾邮件分为不同的类别进行训练,并经过分类算法得到初步的垃圾邮件分类模型。3.根据权利要求2所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,还包括如下任一项或任多项:-所述用于训练的中文邮件数据集包括二分类和多分类两种属性,其中:所述二分类属性,是指中文邮件数据集根据邮件类别分为垃圾邮件和普通邮件两类;所述多分类属性,是指中文邮件数据集分为具体的垃圾邮件种类;当中文邮件数据集为二分类属性时,矩阵y包括普通邮件和垃圾邮件两类,当中文邮件数据集为多分类属性时,矩阵y中有多类,分别表示不同种类的垃圾邮件;-特征选择单元在剔除特征时,采用卷积神经网络的池化方法进行特征选择;-所述不相关或亢余的特征在数字矩阵中表示为0项;-所述分类算法采用深度学习分类算法。4.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,所述测试模块包括测试数据集载入单元、中文分词单元B、数字矩阵生成单元B以及应用模型生成单元;其中:所述测试数据集载入单元用于载入用于测试的中文邮件数据集;所述中文分词单元B用于将用于测试的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本,生成分词后的邮件;数字矩阵生成单元B用于将分词后的邮件转化为数字矩阵;所述数字矩阵包括矩阵x和矩阵y,其中,矩阵x是一个m×n的矩阵,表示单词的数据部分,矩阵x的每一行表示一个单词的维数为n的词向量,矩阵x的每一列表示一个单词,m为单词个数;矩阵y是一个m×1的矩阵,表示邮件中每篇文档对应的分类;模型优化单元用于优化训练初步的垃圾邮件分类模型的参数,根据用于测试的中文邮件数据集的准确率判断参数的优劣,并经过调整参数,得到最优的垃圾邮件分类模型。5.根据权利要求4所述的基于分类算法的可配置垃圾邮件过滤系统,其特征在于,所述用于训练的中文邮件数据集包括二分类和多分类两种属性,其中:所述二分类属性,是指中文邮件数据集根据邮件类别分为垃圾邮件和普通邮件两类;所述多分类属性,是指中文邮件数据集分为具体的垃圾邮件种类;当中文邮件数据集为二分类属性时,矩阵y包括普通邮件和垃圾邮件两类,当中文邮件数据集为多分类属性时,矩阵y中有多类,分别表示不同...
【专利技术属性】
技术研发人员:于泽平,褚乾峰,张学文,朱信宇,苏波,刘功申,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。