The invention discloses a method for removing the interference information and e-mail spam judgment method, including the method of removing interference information: HTML mail contains access in the mail; build a document to the execution model of HTML content, and the document to perform the following model at least one or more interference identification after treatment HTML convert text information, the interference identification processing includes color block interference recognition processing, the font size interference recognition processing, interference identification form processing; will reorganize the content of text information processing. The invention can realize the interference information and effective separation of text information contained in spam, can accurately package man-made interference information in spam mail, as a follow-up to determine whether to provide accurate basis for spam, and can effectively improve the spam blocking and filtering effect.
【技术实现步骤摘要】
本专利技术涉及反垃圾邮件
,尤其涉及一种去除邮件干扰信息的方法,以及基于该去除垃圾邮件干扰信息的方法的一种垃圾邮件判定方法。
技术介绍
随着互联网的发展,垃圾邮件对使用者造成的危害愈来愈大。垃圾邮件中通常包括推销邮件或者具有色情或者其他不良信息的邮件。为此,现有技术中出现了多种反垃圾邮件的识别及过滤方法及后台服务器过滤机制。目前主流的反垃圾邮件的方法主要包括:(1)光学字符识别发(OCR),其通过实现对包含广告图片或者纯文本的内容进行提取,通过内容判断是否广告内容,从而实现垃圾邮件的识别,但是这种技术对计算机造成的开销较大。(2)基于MD5校验的邮件检测技术,其通过将任意长度的字符串执行散列运算,转换成较短的固定长度的值。由于任意两个不同字符串的MD5值不相同,因此可通过比较两个字符串的MD5值来判断两个字符串是否相同。但是这种反垃圾邮件技术对邮件内容非严格相同,出现任何变化时都会导致MD5值的不同,从而严重影响对该邮件是否为垃圾邮件的判定并执行过滤及拦截操作。同时,现有技术中的反垃圾邮件技术直接对邮件中包含的预先设定的文字或者图片进行扫描检测,这样势必导致对正常发送的邮件也需要执行上述检验或者过滤操作,因此会增加后台服务器或者网页搜索引擎的计算开销。因此,提出一种对可能会被认定垃圾邮件进行预处理的方法就显得非常有必要,以避免盲目的对所有邮件进行垃圾邮件的判定操作、拦截及删除操作,并提高对垃圾邮件的拦截效率。另外,由于垃圾邮件发布者如果在垃圾邮件中加入干扰字符或者对垃圾邮件内容的显示方式进行重新排布,则现有的反垃圾邮件系统很难将该垃圾邮件认定为垃圾 ...
【技术保护点】
一种去除邮件干扰信息的方法,其特征在于,包括:S1、获取邮件中包含的html内容;S2、对html内容执行构建文档对向模型,并对文档对向模型执行以下至少一种或者多种干扰识别处理后将html内容转换为文本信息,所述干扰识别处理包括:颜色块干扰识别处理、字体大小干扰识别处理、表格干扰识别处理;S3、将处理后的文本信息进行内容重组。
【技术特征摘要】
1.一种去除邮件干扰信息的方法,其特征在于,包括:S1、获取邮件中包含的html内容;S2、对html内容执行构建文档对向模型,并对文档对向模型执行以下至少一种或者多种干扰识别处理后将html内容转换为文本信息,所述干扰识别处理包括:颜色块干扰识别处理、字体大小干扰识别处理、表格干扰识别处理;S3、将处理后的文本信息进行内容重组。2.根据权利要求1所述的去除邮件干扰信息的方法,其特征在于,所述步骤S2中的干扰识别处理还包括:敏感词干扰识别处理。3.根据权利要求2所述的去除邮件干扰信息的方法,其特征在于,所述步骤S2中将html内容转换为文本信息具体为:对html内容删除标签,以提取html内容中的文本信息。4.根据权利要求3所述的去除邮件干扰信息的方法,其特征在于,所述敏感词干扰识别处理包括:大写字母与小写字母的转化处理、规范字符与非规范字符的转化处理、字母与数字的转化处理。5.根据权利要求4所述的去除邮件干扰信息的方法,其特征在于,所述大写字母与小写字母的转化处理具体为:对文本信息进行逐字符检查,并在字符的ASC Ⅱ码值在[65,90]时,将该字符的ASC Ⅱ码值增加32。6.根据权利要求4所述的去除邮件干扰信息的方法,其特征在于,所述规范字符与非规范字符的转化处理具体为:对文本信息进行逐字符检查,并将文本信息中所包含的非规范字符的数据值根据Unicode编码表修改为规范字符。7.根据权利要求4所述的去除邮件干扰信息的方法,其特征在于,所述字母与数字的转化处理具体为:对文本信息进行逐字符检查,并根据ASC Ⅱ码表对数字与字母进行替换。8.根据权利要求1所述的去除邮件干扰信息的方法,其特征在于,所述步骤S2中的对html内容执行构建文档对向模型包括以下步骤:S21、以html内容为输入内容并解析成多个标记;S22、将每个标记构建DOM树状模型,所述DOM树状模型包含若干标记节点,其中每个标记节点包含与该标记节点相匹配的属性信息;S23、遍历DOM树状模型,提取html内容中与标记节点的属性信息相互匹配的分段信息;S24、提取每个分段信息中的文本信息,并按照标记节点的属性信息选择匹配的排列顺序,以形成连续文本信息。9.根据权利要求8所述的去除邮件干扰信息的方法,其特征在于,所述步骤S21具体为:对html内容根据预先设...
【专利技术属性】
技术研发人员:徐慧灵,纪春来,
申请(专利权)人:无锡云商通科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。