一种支持增量训练的垃圾图片识别方法和系统技术方案

技术编号:8533477 阅读:181 留言:0更新日期:2013-04-04 16:55
本发明专利技术公开了一种支持增量训练的垃圾图片识别方法和系统,所述方法包括步骤:将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;B)收集的垃圾图片集和正常图片集,提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;D)如果出现了新形式的垃圾图片,提取特征并发给特征处理模块进行增量学习。本发明专利技术对出现的新形式垃圾图片快速的学习,不影响现有系统的正常工作,明显提升垃圾图片的识别效率。

【技术实现步骤摘要】

本专利技术属于反垃圾邮件领域,尤其是涉及到一种支持增量训练的垃圾图片识别方法和系统
技术介绍
在电子邮件领域,垃圾邮件的花样不断翻新,需要反垃圾系统不断的更新技术来识别垃圾邮件。其中垃圾图片的识别和过滤难度更大。图片垃圾或垃圾图片是指,在一张图片上含有被认为是垃圾信息的文字等,例如卖发票、垃圾广告等信息。垃圾图片较难识别,一方面因为图片处理耗费资源很大;另一方面是因为垃圾图片上的文字往往被彩色复杂的背景图案所包围,使得判断更难。目前针对垃圾图片的识别方案主要是基于图片特征,提取图片的特征信息,然后通过特征频率的统计来作为垃圾图片的判断依据。这类方法中,关键的是提取何种特征。主要的特征有-视觉属性图片的文字边界、图案边界等;-底层属性提取平均颜色、饱和度等;-纯数字信息例如图片的md5哈希值,BASE64编码数据等。上述前两类特征用于识别垃圾图片的准确率较高,但提取效率却很低,有测试表明,这类特征每一项的提取时间都在百毫秒数量级,提取多项就需要秒级别的时间。这样的性能难以应用到实际环境。第三类特征虽然生成效率高,但识别的准确率和很差。
技术实现思路
本专利技术的目的在于提供一种支持增量训练的垃圾图片识别方法和系统,提取一些图片有关的弱特征,具有很高的提取效率,同时借助支持向量机在弱特征的基础上同时保证了很高的准确率。同时,对新形式的图片支持增量式学习,动态更新模型,而不需要重新训练。从而对出现的新形式垃圾图片快速的学习,并不影响现有系统的正常工作。本专利技术所述的支持增量训练的垃圾图片识别方法,包括步骤A)将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;B)收集的垃圾图片集和正常图片集,由图片处理模块二提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,由图片处理模块一提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;D)如果出现了新形式的垃圾图片,由图片处理模块二提取特征并发给特征处理模块进行增量学习。所述的特征向量包括图片的宽度、高度、GIF帧数、压缩比。所述步骤B)通过元数据形成向量特征的步骤包括Al)筛选出有区分度的元数据;A2)消除异常数值;A3)进行归一化处理。所述步骤B)进行学习的方法为SVM方法,采用SVM方法学习后,得到分类模型本文档来自技高网...

【技术保护点】
一种支持增量训练的垃圾图片识别方法,包括步骤:A)将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;B)收集的垃圾图片集和正常图片集,由图片处理模块二提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,由图片处理模块一提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;D)如果出现了新形式的垃圾图片,由图片处理模块二提取特征并发给特征处理模块进行增量学习。

【技术特征摘要】
1.一种支持增量训练的垃圾图片识别方法,包括步骤A)将特征处理模块作为服务进程运行,初始化线性参数初值为零向量;B)收集的垃圾图片集和正常图片集,由图片处理模块二提取每张图片的特征,提取每张图片的元数据,将特征向量和对应的类别发送给特征处理模块,进行学习;C)在反垃圾系统中,对于每封经过发垃圾系统的邮件,由图片处理模块一提取图片的特征向量,发送给特征处理模块进行分类,并根据分类结果对邮件进行是否垃圾邮件的判断;D)如果出现了新形式的垃圾图片,由图片处理模块二提取特征并发给特征处理模块进行增量学习。2.如权利要求1所述的支持增量训练的垃圾图片识别方法,其特征是所述的特征向量包括图片的宽度、高度、GIF帧数、压缩比。3.如权利要求2所述的支持增量训练的垃圾图片识别方法,其特征是所述步骤B)通过元数据形成向量特征的步骤包括Al)筛选出有区分度的元数据;A2)消除异常数值;A3)进行归一化处理。4.如权利要求1所述的支...

【专利技术属性】
技术研发人员:高洪涛
申请(专利权)人:深圳市彩讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1