一种反图像型垃圾邮件的方法及装置制造方法及图纸

技术编号:4001642 阅读:241 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及图像处理技术和模式识别领域的相关技术,公开了一种利用垃圾邮件图像自动识别的方法及装置。利用图像的元数据、颜色特征和纹理特征并结合支持向量机实现对正常邮件图像和垃圾邮件图像的自动分类。首先提取出图像的元数据;其次提取出图像的颜色特征;再次提取出图像的纹理特征和形状特征;最后,利用支持向量机分类器对图像进行自动识别。本发明专利技术中,由于提取的是图像的元数据特征,以及图像的颜色、纹理和形状特征,因此本发明专利技术速度较快、效率高。

【技术实现步骤摘要】

本专利技术涉及图像处理与模式识别技术,具体涉及一种垃圾邮件图像的特征提取、 识别技术及装置。
技术介绍
经过30多年的发展,电子邮件已成为互连网非常重要的的组成部分,电子邮件在 人们交流和通信中扮演越来越重要的角色。然而,垃圾邮件的泛滥使得电子邮件受到巨大 挑战。目前,我国已成为垃圾邮件的受害者。据中国互联网信息中心(CNNIC)发布的《中国 互联网发展状况统计报告》显示,2004年1月中国网民平均每周收到垃圾邮件7. 9封,但是 2009年1月中国网民平均每周收到的垃圾邮件数量达到17. 55封,随着网民数量的增加垃 圾邮件的数量也不断的在增加。普通用户收到的垃圾邮件主要有三种纯文本格式,纯图片 格式和图片加文本格式。其中只有30%是纯文本格式,这也说明图像垃圾邮件所占比例接 近70%。垃圾邮件问题从出现之初就引起了社会各界的关注,并出现了大量的垃圾邮件检 测算法,例如IP黑名单、基于规则的垃圾邮件检测算法、基于文本内容的检测算法等、基于 行为的过滤方式。其中以基于文本内容的检测算法研究得最多,其性能也最好。然而,就像在病毒与反病毒的斗争中一样,随着反垃圾邮件技术的不断发展,垃圾 邮件制造者自身技术也在不断提高。由于基于文本内容的反垃圾邮件系统在检测文本信息 方面已经具有很高的效率,为了逃避此种系统的检测,垃圾邮件制造者将文字信息嵌入到 图像中,以图像为载体来传播垃圾信息。这种以图像为载体的垃圾邮件被称为图像型垃圾 邮件,由于其文本内容被嵌入在图像中,使得基于文本内容的反垃圾邮件系统完全失效。并 且图像型垃圾邮件的体积是文本型垃圾邮件的10-20倍,图片型垃圾邮件一方面消耗大量 的网络资源,导致网络堵塞;另一方面浪费大量的存储资源,导致社会经济的重大损失。图 像型垃圾邮件的蔓延,已给社会带来极大的负面影响。为遏制图像型垃圾邮件的蔓延,弥补基于文本内容的垃圾邮件检测系统的不足, 已经有许多学者对图像型垃圾邮件作了较深入的研究。当前主流的商业系统采用该技术利 用光学文字识别技术(OCR)来提取图像中嵌入的文字,然后利用传统的基于文本内容的垃 圾邮件检测手段识别图像型垃圾邮件。但是垃圾邮件中所嵌入的图像通常含有大量人为干 扰,使得文字识别正确率较低,效率也不高。另外一些学者则提出利用垃圾邮件中所含图像 的属性作为特征来识别图像型垃圾邮件,例如大小、宽、高、面积等。该方法虽然识别速度较 快,但仅能识别出较少的图像型垃圾邮件。反垃圾邮件领域仍在寻找一种快速高效的图像 型垃圾邮件识别算法以解决图像型垃圾邮件问题。
技术实现思路
本专利技术主要提出一种垃圾邮件图像识别方法及装置。通过提取邮件中所含图像的 元数据、颜色特征、纹理特征和形状特征,结合支持向量机实现垃圾邮件图像的自动检测与 识别。本专利技术的主要内容包括提取邮件图像的元数据特征、提取图像的颜色特征、提取图像的纹理特征和形状特征的技术,基于支持向量机的垃圾邮件图像自动识别装置。为了实现上述目的,采取的技术方案是1.提取待测图像邮件中图像的元数据特征。元数据特征包括高度、宽度、高宽比、文件类型、文件大小、文件面积、压缩率、周 长复杂度、文字区域占总区域的面积比率等。2.提取待测图像邮件中图像的颜色特征。颜色特征包括灰度直方图、颜色直方图、平均色、颜色集、颜色聚合向量、平均亮 度、颜色空间等。3.提取待测图像邮件中图像的纹理特征。纹理特征包括共生矩阵、边缘频率、小波变换等。4.提取待测图像邮件中图像的形状特征。形状特征包括几何矩、偏心率、骨架等。5.基于支持向量机的垃圾邮件图像自动识别装置支持向量机(SVM,Support Vector Machine)是一种基于统计学习理论的机器学 习方法。统计学习理论针对小样本统计问题建立了一套新的理论体系,最近10多年间发展 迅速,成为各界研究的热点。支持向量机也随之发展,它通过构造最优分类平面来实现分 类。在传统的基于文本内容的垃圾邮件过滤算法中,支持向量机就表现出了很好的性能。因 此本专利技术利用支持向量机作为分类算法,对邮件图像进行分类以识别出垃圾邮件图像。构建一个基于支持向量机的分类器,需要大量的邮件图像样本,包括正常邮件图 像样本和垃圾邮件图像样本。提取这些图像的元数据、颜色和纹理特征,并对特征进行归一 化,然后利用网格法搜索支持向量机的最佳参数。找到最佳参数后便可以利用提取的图像 特征数据及参数对支持向量机进行训练以生成一个基于元数据、颜色、纹理、形状特征和支 持向量机的邮件图像分类器。当出现未知的邮件图像时,提取其元数据、颜色、纹理和形状 特征,然后将特征向量输入到该分类器即可判定该邮件图像是否是垃圾邮件图像。最后,实施本专利技术具有以下有益效果从本专利技术提供的以上技术方案可以看出,本专利技术提取邮件图像的元数据、颜色、纹 理和形状特征,并结合支持向量机实现垃圾邮件图像的自动识别。其中,颜色和直方图的矩 对平移、旋转、缩放有较好的鲁棒性,因此其抗干扰能力强,能应对绝大多数垃圾邮件图像 中的人为干扰。由于提取的是图像的元数据特征,以及图像的颜色和纹理特征,而不是提 取、分析和区别图像中文字特征,采用直接视觉特征的好处是仅需要对图像文件进行一次 线性扫描,避免了文字识别所需的反复扫描,降低了计算复杂度。同时,采用直接视觉特征 能够有效克服文字扭曲技术对OCR字符识别软件的影响,提高分类器的抗干扰能力。因此 本专利技术速度较快、效率高。另外,支持向量机的引入,使得整个装置更加智能化、自动化。并 且通过利用新的样本邮件图像对分类器的训练,可以快速识别新类型的垃圾邮件图像。附图说明图1为本专利技术构建基于支持向量机的分类器的具体流程图;图2为本专利技术对未知邮件图像属性的典型判定流程图。具体实施例方式为使本专利技术的目的、技术方案、及优点更加清楚明白,以下参照附图对本专利技术进一 步详细说明。图1描述了本专利技术构建基于支持向量机的分类器的具体过程步骤101、手工标记正常图像和垃圾图像为构建一个较好的分类器,首先需要大量样本对分类器进行训练,其中正常邮件 样本最好与垃圾邮件样本数量相当。步骤102、提取样本集中各幅图像的元数据特征、颜色特征、纹理特征和形状特征步骤103、寻找分类器的最佳参数采用不同的参数,训练所获得的分类器性能差别非常大。为了寻找一组最佳的参 数,可以采用的一种方法是用网格法在一个2维平面中搜索最佳参数包括惩罚因子C和参 数 gama。步骤104、训练支持向量机分类器利用步骤102获得的大量训练样本的特征数据和步骤103获得的最佳参数,对支 持向量机进行训练。训练后生成一模型文件,其中包含各种参数和选取的支撑矢量。这样 便完成了一个分类器的构建。图2描述了本专利技术对未知邮件图像的典型判定过程步骤201、读入邮件图像如果成功载入图像则继续步骤202以提取图像的特征,否则执行步骤208返回判 定失败消息。步骤202、图像特征提取提取未知图像的元数据特征、颜色特征、纹理特征和形状特征。步骤203、载入训练阶段所生成的模型文件图1描述了支持向量机分类器的构建过程,其最终生成了一个模型文件。该文件 中包含了支持向量机的参数和选择的支撑矢量。将这些信息读入,构建一个分类器;如果文 件读入失败则执行步骤208以返回判定失败消息。步骤204、判定邮件图本文档来自技高网
...

【技术保护点】
一种利用图像元数据、颜色特征、纹理特征和形状特征,结合支持向量机自动识别垃圾邮件图像的方法及装置;首先提取出图像的元数据;其次提取出图像的颜色特征;再次提取出图像的纹理特征和形状特征;最后利用支持向量机分类器对图像进行分类,以判定图像是垃圾邮件图像还是正常邮件图像。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘峤邓蔚罗绪成王超
申请(专利权)人:电子科技大学
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1