一种去除邮件干扰信息的方法以及垃圾邮件判定方法技术

技术编号:14200625 阅读:121 留言:0更新日期:2016-12-17 14:22
本发明专利技术揭示了一种去除邮件干扰信息的方法以及垃圾邮件判定方法,该去除邮件干扰信息的方法包括:获取邮件中包含的html内容;对html内容执行构建文档对向模型,并对文档对向模型执行以下至少一种或者多种干扰识别处理后将html内容转换为文本信息,所述干扰识别处理包括:颜色块干扰识别处理、字体大小干扰识别处理、表格干扰识别处理;将处理后的文本信息进行内容重组。通过本发明专利技术,能够实现对垃圾邮件中所包含的干扰信息与文本信息有效分离,能够精确的识别垃圾邮件中人为封装的各种干扰信息,为后续对邮件判定是否为垃圾邮件提供了准确依据,并能有效的提高对垃圾邮件的拦截及过滤效果。

Method for removing mail interference information and spam judging method

The invention discloses a method for removing the interference information and e-mail spam judgment method, including the method of removing interference information: HTML mail contains access in the mail; build a document to the execution model of HTML content, and the document to perform the following model at least one or more interference identification after treatment HTML convert text information, the interference identification processing includes color block interference recognition processing, the font size interference recognition processing, interference identification form processing; will reorganize the content of text information processing. The invention can realize the interference information and effective separation of text information contained in spam, can accurately package man-made interference information in spam mail, as a follow-up to determine whether to provide accurate basis for spam, and can effectively improve the spam blocking and filtering effect.

【技术实现步骤摘要】

本专利技术涉及反垃圾邮件
,尤其涉及一种去除邮件干扰信息的方法,以及基于该去除垃圾邮件干扰信息的方法的一种垃圾邮件判定方法。
技术介绍
随着互联网的发展,垃圾邮件对使用者造成的危害愈来愈大。垃圾邮件中通常包括推销邮件或者具有色情或者其他不良信息的邮件。为此,现有技术中出现了多种反垃圾邮件的识别及过滤方法及后台服务器过滤机制。目前主流的反垃圾邮件的方法主要包括:(1)光学字符识别发(OCR),其通过实现对包含广告图片或者纯文本的内容进行提取,通过内容判断是否广告内容,从而实现垃圾邮件的识别,但是这种技术对计算机造成的开销较大。(2)基于MD5校验的邮件检测技术,其通过将任意长度的字符串执行散列运算,转换成较短的固定长度的值。由于任意两个不同字符串的MD5值不相同,因此可通过比较两个字符串的MD5值来判断两个字符串是否相同。但是这种反垃圾邮件技术对邮件内容非严格相同,出现任何变化时都会导致MD5值的不同,从而严重影响对该邮件是否为垃圾邮件的判定并执行过滤及拦截操作。同时,现有技术中的反垃圾邮件技术直接对邮件中包含的预先设定的文字或者图片进行扫描检测,这样势必导致对正常发送的邮件也需要执行上述检验或者过滤操作,因此会增加后台服务器或者网页搜索引擎的计算开销。因此,提出一种对可能会被认定垃圾邮件进行预处理的方法就显得非常有必要,以避免盲目的对所有邮件进行垃圾邮件的判定操作、拦截及删除操作,并提高对垃圾邮件的拦截效率。另外,由于垃圾邮件发布者如果在垃圾邮件中加入干扰字符或者对垃圾邮件内容的显示方式进行重新排布,则现有的反垃圾邮件系统很难将该垃圾邮件认定为垃圾邮件,从而大大降低了对垃圾邮件的拦截效率。有鉴于此,有必要对现有技术中的针对垃圾邮件中所包含的干扰信息的预处理方法予以改进,以解决上述问题。
技术实现思路
本专利技术的目的在于公开一种去除垃圾邮件干扰信息的方法,用以避免盲目的对所有邮件进行垃圾邮件的判定操作、拦截及删除操作,并提高对垃圾邮件的拦截效率;本专利技术的另一个专利技术目的在公开一种垃圾邮件判定方法,用以提高对包含干扰信息的邮件判定为垃圾邮件的效率,提高对垃圾邮件的拦截及过滤效率。为实现上述一个专利技术目的,本专利技术提供了一种去除邮件干扰信息的方法,包括:S1、获取邮件中包含的html内容;S2、对html内容执行构建文档对向模型,并对文档对向模型执行以下至少一种或者多种干扰识别处理后将html内容转换为文本信息,所述干扰识别处理包括:颜色块干扰识别处理、字体大小干扰识别处理、表格干扰识别处理;S3、将处理后的文本信息进行内容重组。作为本专利技术的进一步改进,所述步骤S2中的干扰识别处理还包括:敏感词干扰识别处理。作为本专利技术的进一步改进,所述步骤S2中将html内容转换为文本信息具体为:对html内容删除标签,以提取html内容中的文本信息。作为本专利技术的进一步改进,所述敏感词干扰识别处理包括:大写字母与小写字母的转化处理、规范字符与非规范字符的转化处理、字母与数字的转化处理。作为本专利技术的进一步改进,所述大写字母与小写字母的转化处理具体为:对文本信息进行逐字符检查,并在字符的ASCⅡ码值在[65,90]时,将该字符的ASCⅡ码值增加32。作为本专利技术的进一步改进,所述规范字符与非规范字符的转化处理具体为:对文本信息进行逐字符检查,并将文本信息中所包含的非规范字符的数据值根据Unicode编码表修改为规范字符。作为本专利技术的进一步改进,所述字母与数字的转化处理具体为:对文本信息进行逐字符检查,并根据ASCⅡ码表对数字与字母进行替换。作为本专利技术的进一步改进,所述步骤S2中的对html内容执行构建文档对向模型包括以下步骤:S21、以html内容为输入内容并解析成多个标记;S22、将每个标记构建DOM树状模型,所述DOM树状模型包含若干标记节点,其中每个标记节点包含与该标记节点相匹配的属性信息;S23、遍历DOM树状模型,提取html内容中与标记节点的属性信息相互匹配的分段信息;S24、提取每个分段信息中的文本信息,并按照标记节点的属性信息选择匹配的排列顺序,以形成连续文本信息。作为本专利技术的进一步改进,所述步骤S21具体为:对以html内容根据预先设定的标记规则进行遍历解析操作,然后由标记生成器识别标志并传递给DOM树状模型构造器。作为本专利技术的进一步改进,所述标记规则包括html内容起始位置标记、html内容结束位置标记、分类属性、属性名称、属性值。作为本专利技术的进一步改进,所述分类属性包括字体大小属性、字体倾斜属性、字体水平排布差异属性、字体垂直排布差异属性、RGB差异属性、灰度值差值属性、色彩饱和度属性、对比度差异属性。作为本专利技术的进一步改进,所述步骤S3包括以下步骤:S31、采用编码转化器对处理后的文本信息进行编码转换;S32、根据设定长度的编码区间作为内容重组后的文本信息的头部信息、中部信息及尾部信息;S33、将头部信息、中部信息及尾部信息顺次排列成呈连续状态的内容重组后的文本信息。作为本专利技术的进一步改进,所述步骤S33之后,还包括:对内容重组后的文本信息执行以下一种或者多种操作:去除空格标记的操作;去除回车标记的操作;去除换行标记的操作;其中,所述去除空格标记的操作具体为:对内容重组后的文本信息逐字符检查,并对内容重组后的文本信息中的ASCⅡ码值为32的字符执行删除操作。所述去除回车标记的操作具体为:对内容重组后的文本信息逐字符检查,并对内容重组后的文本信息中ASCⅡ码值为10的字符执行删除操作;所述去除换行标记的操作具体为:对内容重组后的文本信息逐字符检查,并对内容重组后的文本信息中ASCⅡ码值为13的字符执行删除操作;作为本专利技术的进一步改进,所述步骤S1执行之前还包括使用编码器对html内容执行编码转换处理以转换成Unicode编码的步骤。为实现上述另一个专利技术,本专利技术还提供了一种垃圾邮件判定方法,包括上述任一项专利技术所述的去除邮件干扰信息的方法;以及,将内容重组后的文本信息与数据库中所设定的关键词库进行比较,并确定是否为垃圾邮件。作为本专利技术的进一步改进,所述数据库包括Oracle数据库、DB2数据库、Postgre SQL数据库、Microsoft SQL Server数据库、Microsoft Access数据库或者MySQL数据库。与现有技术相比,本专利技术的有益效果是:通过本专利技术能够实现对垃圾邮件中所包含的干扰信息与文本信息有效分离,能够精确的识别垃圾邮件中人为封装的各种干扰信息,为后续对邮件判定是否为垃圾邮件提供了准确依 据,并能有效的提高对垃圾邮件的拦截及过滤效果。附图说明图1为本专利技术一种去除邮件干扰信息的方法的流程图;图2为未处理前包含英文、数字等干扰信息的html内容的示意图;图3为对图2所示出的html内容中的英文、数字等干扰信息执行敏感词干扰识别处理后的示意图;图4为未处理前包含不同大小字体干扰信息的html内容的示意图;图5为步骤S22中对html内容执行构建文档对向模型后基于字体大小干扰识别处理时的DOM树状模型;图6为未处理前包含不同颜色块干扰信息的html内容的示意图;图7为步骤S22中对html内容执行构建文档对向模型后基于颜色块干扰识别处理时的DOM树状模型;图8为未处理前包含表格干扰本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201610584290.html" title="一种去除邮件干扰信息的方法以及垃圾邮件判定方法原文来自X技术">去除邮件干扰信息的方法以及垃圾邮件判定方法</a>

【技术保护点】
一种去除邮件干扰信息的方法,其特征在于,包括:S1、获取邮件中包含的html内容;S2、对html内容执行构建文档对向模型,并对文档对向模型执行以下至少一种或者多种干扰识别处理后将html内容转换为文本信息,所述干扰识别处理包括:颜色块干扰识别处理、字体大小干扰识别处理、表格干扰识别处理;S3、将处理后的文本信息进行内容重组。

【技术特征摘要】
1.一种去除邮件干扰信息的方法,其特征在于,包括:S1、获取邮件中包含的html内容;S2、对html内容执行构建文档对向模型,并对文档对向模型执行以下至少一种或者多种干扰识别处理后将html内容转换为文本信息,所述干扰识别处理包括:颜色块干扰识别处理、字体大小干扰识别处理、表格干扰识别处理;S3、将处理后的文本信息进行内容重组。2.根据权利要求1所述的去除邮件干扰信息的方法,其特征在于,所述步骤S2中的干扰识别处理还包括:敏感词干扰识别处理。3.根据权利要求2所述的去除邮件干扰信息的方法,其特征在于,所述步骤S2中将html内容转换为文本信息具体为:对html内容删除标签,以提取html内容中的文本信息。4.根据权利要求3所述的去除邮件干扰信息的方法,其特征在于,所述敏感词干扰识别处理包括:大写字母与小写字母的转化处理、规范字符与非规范字符的转化处理、字母与数字的转化处理。5.根据权利要求4所述的去除邮件干扰信息的方法,其特征在于,所述大写字母与小写字母的转化处理具体为:对文本信息进行逐字符检查,并在字符的ASC Ⅱ码值在[65,90]时,将该字符的ASC Ⅱ码值增加32。6.根据权利要求4所述的去除邮件干扰信息的方法,其特征在于,所述规范字符与非规范字符的转化处理具体为:对文本信息进行逐字符检查,并将文本信息中所包含的非规范字符的数据值根据Unicode编码表修改为规范字符。7.根据权利要求4所述的去除邮件干扰信息的方法,其特征在于,所述字母与数字的转化处理具体为:对文本信息进行逐字符检查,并根据ASC Ⅱ码表对数字与字母进行替换。8.根据权利要求1所述的去除邮件干扰信息的方法,其特征在于,所述步骤S2中的对html内容执行构建文档对向模型包括以下步骤:S21、以html内容为输入内容并解析成多个标记;S22、将每个标记构建DOM树状模型,所述DOM树状模型包含若干标记节点,其中每个标记节点包含与该标记节点相匹配的属性信息;S23、遍历DOM树状模型,提取html内容中与标记节点的属性信息相互匹配的分段信息;S24、提取每个分段信息中的文本信息,并按照标记节点的属性信息选择匹配的排列顺序,以形成连续文本信息。9.根据权利要求8所述的去除邮件干扰信息的方法,其特征在于,所述步骤S21具体为:对html内容根据预先设...

【专利技术属性】
技术研发人员:徐慧灵纪春来
申请(专利权)人:无锡云商通科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1