一种基于机器学习的图像垃圾邮件过滤方法技术

技术编号:20369599 阅读:51 留言:0更新日期:2019-02-16 19:53
本发明专利技术涉及一种基于机器学习的图像垃圾邮件过滤方法,属于计算机科学与人工智能技术领域。针对图像垃圾邮件的特点,选取更有利于区分判别垃圾邮件图像的HSV颜色直方图特征和纹理特征作为图像分类的基础数据;将以上两种特征数据应用于K‑NN算法、朴素贝叶斯算法、判别分析算法、SVM算法和随机森林算法为主的机器学习算法,将各算法取长补短提出一种集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析,确定HSV颜色直方图维度为16维,K‑NN算法的K值为5时可取得最好的分类效果。本方法使图像垃圾邮件过滤的准确率、召回率和F值同时提高到了97%,误判率降低到了3%以下。

An Image Spam Filtering Method Based on Machine Learning

The invention relates to an image spam filtering method based on machine learning, belonging to the field of computer science and artificial intelligence technology. According to the characteristics of image spam, the HSV color histogram features and texture features which are more conducive to distinguishing spam images are selected as the basic data for image classification. The above two feature data are applied to machine learning algorithms based on K NN algorithm, Naive Bayesian algorithm, discriminant analysis algorithm, SVM algorithm and random forest algorithm, and the advantages of each algorithm are complemented. An ensemble learning algorithm is proposed, which determines which algorithm is suitable for the classification of image features through experiments. The optimal parameter structure of the method is analyzed experimentally. The dimension of HSV color histogram is 16 dimensions, and the K value of K_NN algorithm is 5, which can achieve the best classification effect. This method improves the accuracy, recall rate and F value of image spam filtering to 97%, and reduces the error rate to less than 3%.

【技术实现步骤摘要】
一种基于机器学习的图像垃圾邮件过滤方法
本专利技术涉及一种基于机器学习的图像垃圾邮件过滤方法,属于计算机科学与技术学科的人工智能

技术介绍
目前垃圾邮件发送者为了避免基于文本的垃圾邮件过滤,将垃圾信息以图像的形式进行了显示,并将图像通过邮件发送,所以对图像垃圾邮件的过滤成为亟待解决的新问题。从资源利用角度讲,图像垃圾邮件所占空间的大小是纯文本邮件的数十倍,其传送会浪费大量的网络带宽,并占据大量的个人存储空间。从社会影响的角度讲,有效过滤掉含有不良图像的垃圾邮件,就能在一定程度上抑制广告、欺诈等不良信息带来的负面影响。从科研角度讲,对垃圾邮件图像的收集可以为针对中国基于垃圾邮件过滤方法的数据库做出贡献,也为基于图像垃圾邮件过滤提供了新的方法。现有的图像型垃圾邮件过滤技术有限制IP地址的黑名单方法,也有提取邮件的文字特征或简单的图像特征与机器学习算法相结合的过滤方法,但采用的特征数据和机器学习算法大多数比较单一,且机器学习算法多采用国外的标准图像垃圾邮件样本为数据源进行实验,这对我国的图像垃圾邮件过滤针对性不强。同时,目前已有的图像型垃圾邮件过滤方法的误报率仍然较高。所以,很有必要收集邮箱中的图像信息,对邮箱中的图像信息进行分析比对,建立适合进行垃圾邮件过滤的图像库,并对库中的图像进行标记。在此基础上,对过滤垃圾邮件的图像特征进行较全面的分析,如颜色特征(HSV(Hue,Saturation,Value,色调,饱和度,亮度)颜色直方图和颜色矩)、纹理特征、形状特征等,从较为基础的图像特征中找到适用于垃圾邮件过滤的特征。将取得的图像特征数据应用于机器学习算法,如K-NN(K-NearestNeighbor,K近邻算法)算法、朴素贝叶斯算法、判别分析算法、SVM(SupportVectorMachine,支持向量机)算法和随机森林算法等,并将各算法取长补短发挥各自的优势形成集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析并最终确定。因此,无论是个人、企业,还是国家行政事业单位,都迫切需要有效的过滤垃圾邮件的方法来改善现有的电子邮件环境。
技术实现思路
本专利技术的目的是针对垃圾邮件尤其是图像垃圾邮件存在的严重危害网络和个人隐私安全以及对我们的工作和生活造成了极大的干扰这一问题,提出了一种基于机器学习的图像垃圾邮件过滤方法,是一种新的基于结果标签投票的组合过滤方法,该方法对我国的多种垃圾邮件图像集过滤得到较高的准确率、召回率和综合性能F值,为邮件服务提供商提供一种有效过滤图像垃圾邮件的技术手段。一种基于机器学习的图像垃圾邮件过滤方法,该方法主要解决现有图像垃圾邮件过滤方法存在的以下缺陷:一是未建立针对中国的图像垃圾邮件的图像数据库,这样很难保证后续图像特征的基础数据的准确性;二是所采用的图像特征和机器学习算法单一,很难同时提高图像垃圾邮件过滤的准确率和召回率,使得过滤方法的误报率仍然较高。本专利技术的核心思想是:针对图像垃圾邮件的特点,选取更有利于区分判别垃圾邮件图像的HSV颜色直方图特征和纹理特征作为图像分类的基础数据;将以上两种特征数据应用于K-NN算法、朴素贝叶斯算法、判别分析算法、SVM算法和随机森林算法为主的机器学习算法,将各算法取长补短提出一种集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析,确定HSV颜色直方图维度为16维,K-NN算法的K值为5时可取得最好的分类效果。本专利技术相关的定义如下:定义1.图像型垃圾邮件:在收件人不是出于个人要求或是同意接受的各种形式的具备宣传性的、无法拒收的含有非正当政治目的的信息、含有虚假或隐藏诈骗的信息、含有黄赌毒的信息或是广告信息的以图像形式构成的图像邮件,都称之为图像型垃圾邮件;定义2.图像型常规邮件:是收件人有意愿查收的有实际意义的、有需求价值的和无不良信息的含有图像的邮件称之为图像型常规邮件;图像型常规邮件和图像型垃圾邮件,统称为图像型邮件;一种基于机器学习的图像垃圾邮件过滤方法,包括以下步骤:步骤一、通过从互联网以及邮箱收件为主的渠道大量收集垃圾邮件中的图像和常规邮件图像,分别获得全面的垃圾邮件图像数据库和常规邮件图像数据库,并根据这两种数据库分别生成训练集和测试集;其中,获得的垃圾邮件图像数据库的X%和常规邮件图像数据库的X%数据作为训练集;获得的垃圾邮件图像数据库的Y%和常规邮件图像数据库的Y%数据作为测试集;X%和Y%的和为1;步骤一,具体又包含如下子步骤:步骤1.1、官网上注册个人邮箱;其中,官网主要包括网易、搜狐、新浪、google以及QQ;步骤1.2、从步骤1.1注册的个人邮箱的收件箱中收集所有垃圾邮件图像和常规邮件图像,建立邮件图像数据库;步骤1.3、对步骤1.2建立的邮件图像数据库按照定义1和定义2,即图像型垃圾邮件的定义和图像型常规邮件的定义进行图像垃圾邮件和图像常规邮件的判别,并进行标记,分别形成垃圾邮件图像和常规邮件图像两种数据集;垃圾邮件图像和常规邮件图像统称为邮件图像;其中,取垃圾邮件图像的X%和常规邮件图像的X%生成训练集,剩余的垃圾邮件图像的Y%和常规邮件图像的Y%生成测试集,X%+Y%=1;步骤二、对步骤一输出的训练集中图像的图像特征进行分析,提取图像的颜色特征、纹理特征和形状特征,通过实验比对选择适合于图像分类的图像特征和分类器进行垃圾邮件与常规邮件的分类;具体包括如下子步骤:步骤2.1、通过实验分析图像的颜色特征的HSV颜色直方图和颜色矩、图像的纹理特征和图像的形状特征,并提取相关的特征值;其中,HSV颜色直方图包括H通道的颜色直方图、S通道的颜色直方图和V通道的颜色直方图;步骤2.1又包括如下子步骤:步骤2.1.1、对颜色空间进行划分,得到若干个子区间就是直方图的bin,bin中的数值是从图像颜色数据中计算出特征统计量;建立直方图并转换为一维颜色直方图,生成一维向量;其中,颜色空间进行划分,具体为:对颜色空间上的数值进行量化,通过对每一个bin中包含颜色的像素个数进行统计,得到颜色直方图;再对颜色直方图中V通道、H通道以及S通道的值进行量化,即对通道的数值进行等分;其中,在建立直方图时,不选用图像的明度信息,即V通道的值,只选取H通道和S通道进行信息统计,具体包括如下子步骤:步骤2.1.1A分别对H通道和S通道的值进行等级划分,该等级划分相当于对H通道与S通道建立给定区间范围的直方图;其中,H通道和S通道的数据分布的较为分散,H通道的数值在0至360之间,S通道的数值在0到1之间;步骤2.1.1B对步骤2.1.1A得出的H通道和S通道的直方图进行合并,得到一维的颜色直方图表示;其中,颜色矩是一种轻量级的、计算快速的颜色分布表示特征;利用颜色矩表达图像信息只需要计算9个分量即可,颜色矩适用于HSV和RGB两种通道上,因为这两种通道都含有3个颜色分量,每个分量上只需要计算3个低阶矩:一阶矩是图像像素的平均值信息,二阶矩是图像像素的方差信息,三阶矩是图像像素的偏斜度信息,这样就较全面的表示出图像的颜色分布;其中,提取颜色矩主要有如下三个步骤:步骤2.1.1C将垃圾邮件图像和常规邮件图像由RGB通道转换到HSV通道,并对HSV通道的本文档来自技高网
...

【技术保护点】
1.一种基于机器学习的图像垃圾邮件过滤方法,其特征在于:所述方法中相关的定义如下:定义1.图像型垃圾邮件:在收件人不是出于个人要求或是同意接受的各种形式的具备宣传性的、无法拒收的含有非正当政治目的的信息、含有虚假或隐藏诈骗的信息、含有黄赌毒的信息或是广告信息的以图像形式构成的图像邮件,都称之为图像型垃圾邮件;定义2.图像型常规邮件:是收件人有意愿查收的有实际意义的、有需求价值的和无不良信息的含有图像的邮件称之为图像型常规邮件;图像型常规邮件和图像型垃圾邮件,统称为图像型邮件;所述方法,包括以下步骤:步骤一、通过从互联网以及邮箱收件为主的渠道大量收集垃圾邮件中的图像和常规邮件图像,分别获得全面的垃圾邮件图像数据库和常规邮件图像数据库,并根据这两种数据库分别生成训练集和测试集;其中,获得的垃圾邮件图像数据库的X%和常规邮件图像数据库的X%数据作为训练集;获得的垃圾邮件图像数据库的Y%和常规邮件图像数据库的Y%数据作为测试集;X%和Y%的和为1;步骤一,具体又包含如下子步骤:步骤1.1、官网上注册个人邮箱;其中,官网主要包括网易、搜狐、新浪、google以及QQ;步骤1.2、从步骤1.1注册的个人邮箱的收件箱中收集所有垃圾邮件图像和常规邮件图像,建立邮件图像数据库;步骤1.3、对步骤1.2建立的邮件图像数据库按照定义1和定义2,即图像型垃圾邮件的定义和图像型常规邮件的定义进行图像垃圾邮件和图像常规邮件的判别,并进行标记,分别形成垃圾邮件图像和常规邮件图像两种数据集;垃圾邮件图像和常规邮件图像统称为邮件图像;其中,取垃圾邮件图像的X%和常规邮件图像的X%生成训练集,剩余的垃圾邮件图像的Y%和常规邮件图像的Y%生成测试集,X%+Y%=1;步骤二、对步骤一输出的训练集中图像的图像特征进行分析,提取图像的颜色特征、纹理特征和形状特征,通过实验比对选择适合于图像分类的图像特征和分类器进行垃圾邮件与常规邮件的分类,具体包括如下子步骤:步骤2.1、通过实验分析图像的颜色特征的HSV颜色直方图和颜色矩、图像的纹理特征和图像的形状特征,并提取相关的特征值;其中,HSV颜色直方图包括H通道的颜色直方图、S通道的颜色直方图和V通道的颜色直方图;步骤2.1又包括如下子步骤:步骤2.1.1、对颜色空间进行划分,得到若干个子区间就是直方图的bin,bin中的数值是从图像颜色数据中计算出特征统计量;建立直方图并转换为一维颜色直方图,生成一维向量;其中,颜色空间进行划分,具体为:对颜色空间上的数值进行量化,通过对每一个bin中包含颜色的像素个数进行统计,得到颜色直方图;再对颜色直方图中V通道、H通道以及S通道的值进行量化,即对通道的数值进行等分;其中,在建立直方图时,不选用图像的明度信息,即V通道的值,只选取H通道和S通道进行信息统计,具体包括如下子步骤:步骤2.1.1A分别对H通道和S通道的数据进行等级划分,该等级划分相当于对H通道与S通道建立给定区间范围的直方图;其中,H通道和S通道的数据分布的较为分散,H通道的数值在0至360之间,S通道的数值在0到1之间;步骤2.1.1B对步骤2.1.1A得出的H通道和S通道的直方图进行合并,得到一维的颜色直方图表示;其中,颜色矩是一种轻量级的、计算快速的颜色分布表示特征;利用颜色矩表达图像信息只需要计算9个分量即可,颜色矩适用于HSV和RGB两种通道上,因为这两种通道都含有3个颜色分量,每个分量上只需要计算3个低阶矩:一阶矩是图像像素的平均值信息,二阶矩是图像像素的方差信息,三阶矩是图像像素的偏斜度信息,这样就较全面的表示出图像的颜色分布;其中,提取颜色矩主要有如下三个步骤:步骤2.1.1C将垃圾邮件图像和常规邮件图像由RGB通道转换到HSV通道,并对HSV通道的图像数据进行计算,求出其均值、方差和斜度;步骤2.1.1D再对步骤2.1.1C求出的均值、方差和斜度进行归一化处理,得出归一化处理后的数据;步骤2.1.1E最后,将归一化处理后的数据转换为向量的形式拼接成一维向量;步骤2.1.2、提取图像的纹理特征,即先将真彩色图像转换为灰度图像,再对灰度图像进行压缩、计算灰度共生矩阵以及计算灰度共生矩阵对应的能量、熵、惯性矩和相关性数值四个量的平均值和标准差,即用8维数据来表示图像的纹理特征;其中,真彩色图像指邮件图像;步骤2.1.2主要包括如下三个子步骤:步骤2.1.2A将真彩色图像转换为灰度图像,采用统计法提取邮件图像纹理特征中的灰度共生矩阵,具体为:在图像的水平方向、垂直方向、对角线方向和反对角线方向上建立图像的灰度共生矩阵,方向角度为0°、45°、90°和135°,在邮件图像中一个像素点(x,y)和偏离的另一个像素点(x+a,y+b)的点对的灰度值为(i,j),点(x,y)在邮件图像上移动得到不同的(i,j)值,灰度值...

【技术特征摘要】
1.一种基于机器学习的图像垃圾邮件过滤方法,其特征在于:所述方法中相关的定义如下:定义1.图像型垃圾邮件:在收件人不是出于个人要求或是同意接受的各种形式的具备宣传性的、无法拒收的含有非正当政治目的的信息、含有虚假或隐藏诈骗的信息、含有黄赌毒的信息或是广告信息的以图像形式构成的图像邮件,都称之为图像型垃圾邮件;定义2.图像型常规邮件:是收件人有意愿查收的有实际意义的、有需求价值的和无不良信息的含有图像的邮件称之为图像型常规邮件;图像型常规邮件和图像型垃圾邮件,统称为图像型邮件;所述方法,包括以下步骤:步骤一、通过从互联网以及邮箱收件为主的渠道大量收集垃圾邮件中的图像和常规邮件图像,分别获得全面的垃圾邮件图像数据库和常规邮件图像数据库,并根据这两种数据库分别生成训练集和测试集;其中,获得的垃圾邮件图像数据库的X%和常规邮件图像数据库的X%数据作为训练集;获得的垃圾邮件图像数据库的Y%和常规邮件图像数据库的Y%数据作为测试集;X%和Y%的和为1;步骤一,具体又包含如下子步骤:步骤1.1、官网上注册个人邮箱;其中,官网主要包括网易、搜狐、新浪、google以及QQ;步骤1.2、从步骤1.1注册的个人邮箱的收件箱中收集所有垃圾邮件图像和常规邮件图像,建立邮件图像数据库;步骤1.3、对步骤1.2建立的邮件图像数据库按照定义1和定义2,即图像型垃圾邮件的定义和图像型常规邮件的定义进行图像垃圾邮件和图像常规邮件的判别,并进行标记,分别形成垃圾邮件图像和常规邮件图像两种数据集;垃圾邮件图像和常规邮件图像统称为邮件图像;其中,取垃圾邮件图像的X%和常规邮件图像的X%生成训练集,剩余的垃圾邮件图像的Y%和常规邮件图像的Y%生成测试集,X%+Y%=1;步骤二、对步骤一输出的训练集中图像的图像特征进行分析,提取图像的颜色特征、纹理特征和形状特征,通过实验比对选择适合于图像分类的图像特征和分类器进行垃圾邮件与常规邮件的分类,具体包括如下子步骤:步骤2.1、通过实验分析图像的颜色特征的HSV颜色直方图和颜色矩、图像的纹理特征和图像的形状特征,并提取相关的特征值;其中,HSV颜色直方图包括H通道的颜色直方图、S通道的颜色直方图和V通道的颜色直方图;步骤2.1又包括如下子步骤:步骤2.1.1、对颜色空间进行划分,得到若干个子区间就是直方图的bin,bin中的数值是从图像颜色数据中计算出特征统计量;建立直方图并转换为一维颜色直方图,生成一维向量;其中,颜色空间进行划分,具体为:对颜色空间上的数值进行量化,通过对每一个bin中包含颜色的像素个数进行统计,得到颜色直方图;再对颜色直方图中V通道、H通道以及S通道的值进行量化,即对通道的数值进行等分;其中,在建立直方图时,不选用图像的明度信息,即V通道的值,只选取H通道和S通道进行信息统计,具体包括如下子步骤:步骤2.1.1A分别对H通道和S通道的数据进行等级划分,该等级划分相当于对H通道与S通道建立给定区间范围的直方图;其中,H通道和S通道的数据分布的较为分散,H通道的数值在0至360之间,S通道的数值在0到1之间;步骤2.1.1B对步骤2.1.1A得出的H通道和S通道的直方图进行合并,得到一维的颜色直方图表示;其中,颜色矩是一种轻量级的、计算快速的颜色分布表示特征;利用颜色矩表达图像信息只需要计算9个分量即可,颜色矩适用于HSV和RGB两种通道上,因为这两种通道都含有3个颜色分量,每个分量上只需要计算3个低阶矩:一阶矩是图像像素的平均值信息,二阶矩是图像像素的方差信息,三阶矩是图像像素的偏斜度信息,这样就较全面的表示出图像的颜色分布;其中,提取颜色矩主要有如下三个步骤:步骤2.1.1C将垃圾邮件图像和常规邮件图像由RGB通道转换到HSV通道,并对HSV通道的图像数据进行计算,求出其均值、方差和斜度;步骤2.1.1D再对步骤2.1.1C求出的均值、方差和斜度进行归一化处理,得出归一化处理后的数据;步骤2.1.1E最后,将归一化处理后的数据转换为向量的形式拼接成一维向量;步骤2.1.2、提取图像的纹理特征,即先将真彩色图像转换为灰度图像,再对灰度图像进行压缩、计算灰度共生矩阵以及计算灰度共生矩阵对应的能量、熵、惯性矩和相关性数值四个量的平均值和标准差,即用8维数据来表示图像的纹理特征;其中,真彩色图像指邮件图像;步骤2.1.2主要包括如下三个子步骤:步骤2.1.2A将真彩色图像转换为灰度图像,采用统计法提取邮件图像纹理特征中的灰度共生矩阵,具体为:在图像的水平方向、垂直方向、对角线方向和反对角线方向上建立图像的灰度共生矩阵,方向角度为0°、45°、90°和135°,在邮件图像中一个像素点(x,y)和偏离的另一个像素点(x+a,y+b)的点对的灰度值为(i,j),点(x,y)在邮件图像上移动得到不同的(i,j)值,灰度值的级数L取256,i与j的组合就有L2种,统计出每一种(i,j)值出现的次数,再将它们归一化为出现的概率Pij,得到的方阵[Pij]L×L为灰度共生矩阵;步骤2.1.2B对步骤2.1.2A转换出的灰度图像进行压缩,图像灰度值的区间为[0,255],将该区间的值等分为16级,得到压缩后的灰度图像;步骤2.1.2C基于步骤2.1.2B输出的压缩后的灰度图像计算四个共生矩阵P;其中,取距离...

【专利技术属性】
技术研发人员:赵俊生候圣
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1