一种通过HTML标签识别垃圾邮件的方法技术

技术编号：15624367 阅读：78 留言：0更新日期：2017-06-14 05:56

本发明专利技术提供了一种通过HTML标签识别垃圾邮件的方法，包括以下步骤：S1、构建使用字符描述HTML代码中标签的标签描述表；S2、顺序提取垃圾邮件的HTML代码中的标签，并根据标签描述表提取包含多个字符的校验数据；S3、在接收到新邮件后，提取新邮件的HTML代码，并根据标签描述表将新邮件的HTML代码中的标签翻译成描述数据；S4、将描述数据与校验数据进行比较，以至少将命中校验数据的描述数据所对应的新邮件判定为垃圾邮件。在发明专利技术中，仅需要通过将新邮件的HTML代码所组成的描述数据与事先设定的垃圾邮件中的HTML代码所所组成的校验数据进行比较并判定，显著地降低了后台服务器或者网页搜索引擎的计算开销，简化了识别垃圾邮件的步骤。

全部详细技术资料下载

【技术实现步骤摘要】
一种通过HTML标签识别垃圾邮件的方法
本专利技术涉及反垃圾邮件
，尤其涉及一种通过HTML标签识别垃圾邮件的方法。
技术介绍
随着互联网的发展，垃圾邮件对使用者造成的危害愈来愈大。垃圾邮件中通常包括推销邮件或者具有色情或者其他不良信息的邮件。为此，现有技术中出现了多种反垃圾邮件的识别及过滤方法及后台服务器过滤机制。目前主流的反垃圾邮件的方法主要包括：(1)光学字符识别法(OCR)，其通过实现对包含广告图片或者纯文本的内容进行提取，通过内容判断是否广告内容，从而实现垃圾邮件的识别，但是这种技术对计算机造成的开销较大。(2)基于MD5校验的邮件检测技术，其通过将任意长度的字符串执行散列运算，转换成较短的固定长度的值。由于任意两个不同字符串的MD5值不相同，因此可通过比较两个字符串的MD5值来判断两个字符串是否相同。但是这种反垃圾邮件技术对邮件内容非严格相同，出现任何变化时都会导致MD5值的不同，从而严重影响对该邮件是否为垃圾邮件的判定并执行过滤及拦截操作。(3)基于贝叶斯分类器对垃圾邮件进行过滤的现有技术，相关专利可参考中国专利技术专利CN200510135603.3、中国专利技术专利CN200410063953.9、中国专利技术专利CN200510087762.0、中国专利技术专利CN200510082282.5等。但是，在使用贝叶斯分类器在对邮件进行分类时，需要预先对垃圾邮件建模，并依据模型对后续邮件进行分类，因此现有的反垃圾邮件技术存在步骤繁琐且可靠性较低的缺陷。同时，现有技术中的反垃圾邮件技术直接对邮件(其主要为HTML格式的邮件)中包含的预先...
一种通过HTML标签识别垃圾邮件的方法

【技术保护点】
一种通过HTML标签识别垃圾邮件的方法，其特征在于，包括以下步骤：S1、构建使用字符描述HTML代码中标签的标签描述表；S2、顺序提取垃圾邮件的HTML代码中的标签，并根据标签描述表提取包含多个字符的校验数据；S3、在接收到新邮件后，提取新邮件的HTML代码，并根据标签描述表将新邮件的HTML代码中的标签翻译成描述数据；S4、将描述数据与校验数据进行比较，以至少将命中校验数据的描述数据所对应的新邮件判定为垃圾邮件。

【技术特征摘要】
1.一种通过HTML标签识别垃圾邮件的方法，其特征在于，包括以下步骤：S1、构建使用字符描述HTML代码中标签的标签描述表；S2、顺序提取垃圾邮件的HTML代码中的标签，并根据标签描述表提取包含多个字符的校验数据；S3、在接收到新邮件后，提取新邮件的HTML代码，并根据标签描述表将新邮件的HTML代码中的标签翻译成描述数据；S4、将描述数据与校验数据进行比较，以至少将命中校验数据的描述数据所对应的新邮件判定为垃圾邮件。2.根据权利要求1所述的方法，其特征在于，将至少匹配校验数据的首部排列顺序或者尾部排列顺序的描述数据所对应的新邮件判定为垃圾邮件。3.根据权利要求1或者2所述的方法，其特征在于，所述标签描述表包括若干条记录，所述记录由校验数据及校验数据的长度信息组成；若使用标签描述表对新邮件的HTML代码中的标签进行翻译后所得的描述数据的长度信息与校验数据的长度信息相等，则将新邮件判定为垃圾邮件。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：所述校验数据的...

【专利技术属性】
技术研发人员：徐慧灵，纪春来，
申请(专利权)人：无锡云商通科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人