本申请公开一种垃圾邮件过滤方法,包括如下步骤:读取邮件内容;判断所述邮件内容中是否包含图片;若包含,则提取图片中的特征向量;判断在预存的向量集合中是否存在所述特征向量;若存在,则将邮件标记为垃圾邮件,中断操作。本申请提供的垃圾邮件过滤方法,能对图片中不含文字的垃圾邮件进行有效识别,减少用户收到垃圾邮件数量。收到垃圾邮件数量。收到垃圾邮件数量。
【技术实现步骤摘要】
一种垃圾邮件过滤方法、装置、系统及存储介质
[0001]本申请涉及互联网通讯
,更具体地说,尤其涉及一种垃圾邮件过滤方法、装置、系统及存储介质。
技术介绍
[0002]电子邮件是一种用电子手段提供信息交换的通信方式,是互联网应用最广的服务。通过网络的电子邮件系统,用户可以以非常低廉的价格(不管发送到哪里,都只需负担网费)、非常快速的方式(几秒钟之内可以发送到世界上任何指定的目的地),与世界上任何一个角落的网络用户联系。
[0003]在电子邮件中常常存在垃圾邮件,例如,用于各种商业宣传的广告邮件或用来窃取用户账号信息的钓鱼邮件,或者是用于宣传反动信息的反动邮件,这些垃圾邮件严重威胁了网络资源的共享性、交互性和开放性,影响了用户使用电子邮件的体验感。
[0004]相较于普通的文字内容的垃圾邮件,垃圾邮件制造者会采用另一种更加隐蔽的垃圾邮件模式,即邮件中没有任何文字内容,或者文字内容中没有涉及垃圾内容,只有附件中有不含文字的反动或色情或欺诈等内容的图片,让基于文本过滤的邮件系统无法识别此类垃圾邮件,而对于垃圾邮件接收者,却能辨认出这些信息。
[0005]因此,设计一种能对垃圾邮件进行有效识别,减少用户收到垃圾邮件数量的垃圾邮件过滤方法,是本领域技术人员函待解决的问题。
技术实现思路
[0006]为解决上述技术问题,本申请提供一种垃圾邮件过滤方法,能对垃圾邮件进行有效识别,减少用户收到垃圾邮件数量。
[0007]本申请提供的技术方案如下:
[0008]一种垃圾邮件过滤方法,包括如下步骤:
[0009]读取邮件内容;
[0010]判断所述邮件内容中是否包含图片;
[0011]若包含,则提取图片中的特征向量;
[0012]判断在预存的向量集合中是否存在所述特征向量;
[0013]若存在,则将邮件标记为垃圾邮件,中断操作。
[0014]优选的,在所述读取邮件内容之前,还包括:
[0015]读取已有的垃圾邮件中的图片;
[0016]截取图片中包含垃圾信息的区域图像;
[0017]提取所述区域图像的特征向量;
[0018]将所述特征向量存入所述向量集合。
[0019]优选的,在所述判断所述邮件内容中是否包含图片之后,还包括:
[0020]若不包含,则对所述邮件内容的文字进行文本分类,形成所述内容组词;
[0021]根据过滤规则,判断所述内容词组中是否包含敏感词组;
[0022]若包含,则将邮件标记为垃圾邮件,中断操作;
[0023]若不包含,则将邮件标记为正常邮件。
[0024]优选的,在所述读取邮件内容之前,还包括:
[0025]读取邮件标题;
[0026]对所述标题进行文本分类,形成标题词组;
[0027]根据过滤规则,判断所述标题词组中是否包含敏感词组;
[0028]若包含,则将邮件标记为垃圾邮件,中断操作;
[0029]若不包含,则进入下一步。
[0030]优选的,所述若包含,则将邮件标记为垃圾邮件,中断操作具体为:
[0031]若包含,将此发件邮箱的记录值加一;
[0032]将邮件标记为垃圾邮件,中断操作。
[0033]优选的,在所述读取邮件的标题与内容之前,还包括:
[0034]读取邮件的所述发件邮箱;
[0035]判断所述发件邮箱的记录值是否大于次数阈值;
[0036]若判断结果为是,则将邮件标记为垃圾邮件,中断操作;
[0037]若判断结果为否,则进入下一步。
[0038]一种垃圾邮件过滤装置,包括:
[0039]读取模块,用于读取邮件内容;
[0040]第一判断模块,用于判断所述邮件内容中是否包含图片;
[0041]提取模块,用于提取图片中的特征向量;
[0042]第二判断模块,用于判断在预存的向量集合中是否存在所述特征向量;
[0043]标记模块,用于将邮件标记为垃圾邮件。
[0044]优选的,还包括:
[0045]读取模块,还用于读取已有的垃圾邮件中的图片;
[0046]截取模块,用于截取图片中包含垃圾信息的区域图像;
[0047]处理模块,用于提取所述区域图像的特征向量;
[0048]存储模块,用于将所述处理模块提取的所述特征向量存入所述向量集合。
[0049]一种垃圾邮件过滤系统,包括如上述任一所述的垃圾邮件过滤装置,还包括用于更新所述向量集合的服务器。
[0050]一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被执行后,实现如上述任一所述的垃圾邮件过滤方法。
[0051]本专利技术提供的垃圾邮件过滤方法,通过读取邮件内容,将从图片中提取的特征向量与预存的向量集合进行比对,若在向量集合中存在此特征向量,则将邮件标记为垃圾邮件,从而实现对不含文字的纯图片垃圾邮件的过滤。能对垃圾邮件进行有效识别,减少用户收到垃圾邮件数量,解决垃圾邮件严重地威胁网络资源的共享性、交互性和开放性,影响用户使用电子邮件的体验感。
附图说明
[0052]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0053]图1为本专利技术实施例提供的垃圾邮件过滤方法的一种流程示意图;
[0054]图2为本专利技术实施例提供的垃圾邮件过滤装置的一种结构示意图。
具体实施方式
[0055]为了使本领域的技术人员更好地理解本申请中的技术方案,下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0056]须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本申请可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本申请所能产生的功效及所能达成的目的下,均应仍落在本申请所揭示的
技术实现思路
得能涵盖的范围内。
[0057]本专利技术实施例采用递进的方式撰写。
[0058]本实施例公开了一种垃圾邮件过滤方法,如图1所示,包括如下步骤:
[0059]S1.读取邮件内容;
[0060]S2.判断邮件内容中是否包含图片;
[0061]S3.若包含,则提取图片中的特征向量;
[0062]S4.判断在预存的向量集合中是否存在特征向量;
[0063]S5.若存在,则将邮件标记为垃圾邮件,中断操作。
...
【技术保护点】
【技术特征摘要】
1.一种垃圾邮件过滤方法,其特征在于,包括如下步骤:读取邮件内容;判断所述邮件内容中是否包含图片;若包含,则提取图片中的特征向量;判断在预存的向量集合中是否存在所述特征向量;若存在,则将邮件标记为垃圾邮件,中断操作。2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,在所述读取邮件内容之前,还包括:读取已有的垃圾邮件中的图片;截取图片中包含垃圾信息的区域图像;提取所述区域图像的特征向量;将所述特征向量存入所述向量集合。3.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,在所述判断所述邮件内容中是否包含图片之后,还包括:若不包含,则对所述邮件内容的文字进行文本分类,形成所述内容组词;根据过滤规则,判断所述内容词组中是否包含敏感词组;若包含,则将邮件标记为垃圾邮件,中断操作;若不包含,则将邮件标记为正常邮件。4.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,在所述读取邮件内容之前,还包括:读取邮件标题;对所述标题进行文本分类,形成标题词组;根据过滤规则,判断所述标题词组中是否包含敏感词组;若包含,则将邮件标记为垃圾邮件,中断操作;若不包含,则进入下一步。5.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述若包含,则将邮件标记为垃圾邮件,中断操作具体为:若包含,将此发...
【专利技术属性】
技术研发人员:李天明,
申请(专利权)人:李天明,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。