用于识别光栅化图像中电子垃圾的系统及方法技术方案

技术编号:7209852 阅读:277 留言:0更新日期:2012-04-11 18:40
本发明专利技术披露了用于检测光栅图像中电子垃圾的系统、方法和计算机程序产品。在一个示范性实施例中,该方法包括识别光栅图像中的对象;跟踪被识别出的对象的轮廓;计算对象轮廓上多个点处切线的倾角角度;基于计算出的倾角角度确定该对象轮廓的一个或多个属性,包括轮廓的线段长度、线段之间的角度、轮廓的弧线长度和弧线曲率半径;生成包含该对象轮廓的一个或多个属性的对象特征;将所述图像的对象特征与已知垃圾图像特征加以比较;以及如果与所述已知垃圾图像特征基本相似的对象特征的数目超过预设的阈值,则确定所述图像包含电子垃圾。

【技术实现步骤摘要】

本专利技术总的来讲涉及计算机科学领域,且尤其涉及用于识别图像中电子垃圾 (spam)的系统、方法和计算机程序产品。
技术介绍
随着基于非应邀电子邮件(unsolicited email)的产品和服务广告日益增加,对通过通信网络接收到的email消息中的电子垃圾加以识别成为十分紧迫的问题。有许多不同的用于识别普通文本消息中电子垃圾的技术方案,但对于嵌入到图像中的文本电子垃圾以及垃圾图像(spam image),诸如非应邀产品、服务等的图像来说,识别电子垃圾的任务则困难得多。基于图像的电子垃圾之所以难以识别,是因为电子垃圾检测系统必须首先识别图像中的文本然后才能确定是否可将该文本归类为电子垃圾。对于图像中不存在文本的情况,监测系统必须识别图像本身是否为电子垃圾。已知的用于识别图像中电子垃圾的方案都有大量缺陷,诸如由算法复杂性和电子垃圾检测过程中的大量错误所导致的执行速度过慢。因此,需要更加高效和有效的机制来检测图像中的电子垃圾。
技术实现思路
本专利技术披露了用于检测光栅图像中电子垃圾的系统、方法和计算机程序产品。在一个示范性实施例中,该方法包括接收图像进行处理。如果该图像为矢量 (vector)格式,可将其转化为光栅格式。如果该图像为多颜色格式,可将其转化为灰度格式。随后,识别所述光栅图像中的一个或多个对象,包括文本和图形对象。对于过小的对象, 例如直径很小的像素,可不进行进一步的处理。随后,跟踪剩余对象的轮廓。可采用下列方式来实现轮廓跟踪将背景识别为具有第一灰度的多个像素,识别具有第二灰度的一个或多个像素,在具有第二灰度的第一像素处定义对象轮廓,并且沿着与所述背景像素相邻的、 具有第二灰度的像素的方向反复扩展所述对象的轮廓。一旦所述对象的轮廓跟踪完成,可生成对象特征。对象特征识别出构成所述轮廓的图形属性,例如包括所述轮廓的直线段长度、线段之间的角度、弧线长度、弧线的曲率半径以及其它图形要素。这些属性可以被确定,例如通过在多个所选轮廓点处构建切线、计算该切线相对于水平线的倾角角度并基于计算出的倾角角度确定对象轮廓的属性。随后将该对象特征与已知的电子垃圾特征加以比较以确定接收到的图片是否包含电子垃圾。如果与所述已知电子垃圾特征基本相似的对象特征的数目超过预设的阈值,得到该图像包含电子垃圾的结论。否则,得到该图像不包含电子垃圾的结论且图像处理结束。以上对本专利技术示范性实施例的简要概括用于提供对这类实施例的基本理解。此概括并不是本专利技术设想的所有方面的宽泛概述,并且既不意图确定所有实施例的重要或关键要素也不意图限制任何或所有实施例的范围。其唯一的目的在于简要地提出一个或多个方面的一些构思来作为下面更为详细的描述的前序。为了实现前述的以及相关的目的,一个或多个实施例包括将在下面充分描述且在权利要求书中特别指出的特征。下面的描述和附图详细地阐述了一个或多个实施例的某些示范性特征。但是,这些特征仅表示其中可以采用各个方面的原理的各种方式中的一些,并且此描述意图包括所有这样的方面及其等同物。附图说明附图并入说明书中并构成说明书的一部分,示出了本专利技术的一个或多个示范性实施例,与详细描述一起用于解释本申请实施例的原理和实施方式。附图中图1示出了一种示例性计算机系统,用于实现本专利技术所披露的用于图像电子垃圾检测的技术;图2为根据一个示范性实施例,用于图像电子垃圾检测的算法流程图; 图3示出了包含电子垃圾的图像的示例;图4显示了偏暗阈值选定后,一幅包含电子垃圾的图像的变色示例; 图5显示了图4所示图像的局部放大;图6显示了偏亮阈值选定后,一幅包含电子垃圾的图像的变色示例; 图7显示了图6所示图像的局部放大;图8a和图8b示出了光栅变色为黑白以及使用附带轮廓清晰度选择的灰度图像的示例;图9示出了构建对象周围轮廓的示例;图10显示了根据一个示范性实施例的用于跟踪对象轮廓的算法; 图11显示了图10中算法的执行示例;图12为一个示例,示出了一定数量的形状,这些形状将被认为是同一形状; 图13示出了所生成的图像特征与已知垃圾图像对象特征的比较; 图14示出了包含电子垃圾的图形图像的示例;图15显示了同一图像,其中使用本申请所披露的技术来检测其电子垃圾对象。 具体实施例方式在本申请中,将围绕用于识别光栅图像中电子垃圾的系统、方法和计算机程序产品来描述示范性实施例。本领域普通技术人员应认识到,下面的描述仅仅是示例性的而并非意图进行任何方式的限定。受益于本申请的本领域的技术人员将容易获得其他实施例的启示。现在,将更为详细地描述如附图中所示的示范性实施例的实施方式。贯穿全部附图以及下列描述,相同的附图标记将尽可能用于表示相同或相似的对象。图1描绘出了计算机系统5的一个示范性实施例,该计算机系统5可以实现本申请所披露的用于检测光栅图像中电子垃圾的技术。计算机5可包括服务器、个人计算机 (PC)、个人数字助理(PDA)、便携式计算机(laptop)、小型计算机(laptop)以及任何其他现有、新兴和将来连接到计算机网络的计算设备。如图所示,计算机系统5包括通过系统总线 10连接的CPU 15、系统存储器(system memory)20、硬盘驱动器30、光盘驱动器35、串行接口 40、图形卡45、声卡50以及网卡55。系统总线10可以是若干种总线结构中的任何一种, 所述总线结构包括使用多种已知总线架构中的任何一种的存储器总线或存储器控制器、外设总线和局部总线。处理器15可包括htef Core 2 Quad 2.33 GHz处理器或其他类型的微处理器。系统存储器20包括只读存储器(ROM) 21和随机存取存储器(RAM) 23。存储器20 可以实现于DRAM (动态RAM)、EPR0M、EEPR0M、闪存或其他类型的存储器架构中。ROM 21存储基本输入/输出系统22(BI0S),包含在计算机系统5的组件之间帮助传递信息的基本例程,例如启动过程。RAM 23存储操作系统M (0S),例如Windows Vista 或者其他类型的 0S,所述操作系统M负责计算机系统5中进程的管理和协调以及硬件资源的分配和共享。 系统存储器20还存储当前运行于计算机5上的应用程序和程序25。系统存储器20还存储程序25所使用的各种运行时(runtime)数据26。计算机系统5可进一步包括硬盘驱动器30,例如500GB SATA磁盘驱动器,以及用于对可移除光盘进行读取或写入的光盘驱动器35,例如⑶-R0M、DVD-R0M或其他光学介质。 驱动器30和35及其关联的计算机可读介质为实现本申请所披露的算法和方法的计算机可读指令、数据结构、应用程序和程序模块/子例程提供非易失性存储。虽然示范性计算机系统5使用磁盘和光盘,但本领域技术人员应当理解的是,在计算机系统的替代实施例中,还可以使用能够对可由计算机系统5存取的数据加以存储的其他类型的计算机可读介质,例如磁带、闪存卡、数字视频光盘、RAM、ROM、EPROM以及其他类型的存储器。计算机系统5进一步包括多个串行端口 40,例如通用串行总线(USB),用于连接诸如键盘、鼠标、触摸板等数据输入设备75。串行端口 40还可用于连接诸如打印机、扫描仪等数据输出设备80以及诸如外部数据存储设备等其他外围设备85。计算机系统5还可包本文档来自技高网...

【技术保护点】
1.一种计算机实现的用于识别图像中电子垃圾的方法,包括:识别所述图像中的一个或多个对象,包括文本和图形对象;跟踪一个或多个被识别出的对象的轮廓;计算对象轮廓上多个点处切线的倾角角度;基于所述倾角角度确定所述对象轮廓的一个或多个属性,包括所述轮廓的线段长度、所述轮廓的线段之间的角度、所述轮廓的弧线长度和所述轮廓的弧线曲率半径;生成包含所述对象轮廓的一个或多个属性的对象特征;将所述图像的一个或多个对象的特征与已知电子垃圾特征加以比较;如果与所述已知电子垃圾特征基本相似的对象特征的数目超过预设的阈值,则确定所述图像包含电子垃圾。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:叶夫根尼·P·斯米尔诺夫
申请(专利权)人:卡巴斯基实验室封闭式股份公司
类型:发明
国别省市:RU

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1