当前位置: 首页 > 专利查询>微软公司专利>正文

先进的垃圾邮件侦测技术制造技术

技术编号:2866302 阅读:381 留言:0更新日期:2012-04-11 18:40
本发明专利技术的主题提供一种能够方便地侦测垃圾邮件的先进而加强的系统和方法。所述系统和方法包括部件及其它操作,他们能够加强和促使找到垃圾邮件发送者难于避免的特征,并且找到在垃圾邮件发送者难以复制的非垃圾邮件的特征。示范性的特征包括检查成对的原始特征、分析字符和/或数字序列、串以及子串,在分析信息和/或特征大小的同时,侦测一个或多个字符序列、串和/或子序列不同的熵的级别。

【技术实现步骤摘要】

本专利技术涉及识别垃圾邮件信息的系统和方法,更特别地涉及找到对垃圾邮件发送者来说难于避免的特征以及在非垃圾邮件中对垃圾邮件发送者来说难于复制的特征。
技术介绍
全球互联网例如internet的出现带来很多能够接触庞大数量潜在客户的商业机会。电子信息,特别是电子邮件(email),越来越多地成为向网络用户散布其不需要的广告和宣传(也表示为垃圾邮件“spam”)的普遍手段。一家咨询和市场调查公司Radicati Group,Inc.估计在2002年8月,每天会有两亿垃圾邮件信息被发送——这一数字被预期每两年会增长三倍。这使得个人和实体(例如商业、政府机构)变得越来越不方便,并且时常被垃圾信息打扰。如上所述,垃圾邮件现在或不久将成为可靠的信息处理的最大威胁。普通的用于防止垃圾邮件的技术包括采用过滤系统或方法。一种已被证明可靠的过滤技术是基于机器学习方法的。机器学习过滤法分配给接收到的信息一表示该信息为垃圾信息的概率。在这种方法中,典型地,从两类示例信息(例如垃圾或非垃圾信息)中抽取到特征,并且学习过滤器被用来在概率统计上区别这两类。由于很多信息特征都与内容相关(例如,主题中的整个词或词组和/或信息的主要部分),这种类型的过滤器常常被称为“基于内容的过滤器”。这种类型的机器学习过滤器为了侦测并从好信息中区分出垃圾信息,通常使用抽取匹配技术。不幸地,垃圾邮件发送者常常能够通过更改其垃圾邮件信息使其看上去像好邮件或通过在整个邮件中包含多种不正确的符号以回避或使符号识别系统混乱来愚弄现有的机器学习和/或基于内容的过滤器。因此,这样的现有的过滤器针对垃圾邮件仅能提供有限的防护。
技术实现思路
下面为了提供对本专利技术某些方面的基本了解介绍了一个本专利技术的简单概要。此概要并不是本专利技术的一个广泛的综述。它并不能被认为就是本专利技术关键或关键性的元素或者是本专利技术的范围。它唯一的目的是以以后将要描述的更多细节的简单序言的形式提供本专利技术的一些概念。垃圾邮件过滤器,无论其基于机器学习技术或其他技术,一定都会查看信息的内容以确定一个信息是否是垃圾邮件。不幸的是,垃圾邮件发送者有时能够对其信息进行多方面的伪装。他们能够错误拼写与垃圾邮件相像的单词,利用同义词,或者利用包括这些单词的图片。虽然一垃圾邮件过滤器利用可视符号识别软件(OCR)能够在图片中找到所述单词,这一过程也通常非常昂贵,特别是如果垃圾邮件发送者故意利用OCR系统难于识别的图片的话。为了降低垃圾邮件发送者伪装信息的能力,可以生成对他们来说难于伪造的特征。“特征”是被电子邮件或信息的句法分析部件侦测到的一些事实。信息句法分析部件能为信息中的每一个词生成特征。每次标点符号被使用时其还能够生成依赖于所用标点符号类型的特征。特征可以由机器学习过滤器来使用,或者用于其它许多方式,例如人工构建的规则部分。本专利技术的目的是提供一种系统和方法,通过包含使垃圾邮件发送者难于伪造的附加特征使侦测并防止垃圾邮件更为方便,所述附加特征超出了现有垃圾邮件过滤器使用的典型特征范围之外。所述的一个特征包括查看一个信息中的成对特征。所述特定的垃圾邮件中的特征容易被伪造,或当其被分别考虑时具有很小的价值,但是一起时——也就是说,当他们被一起考虑时,却具有非常大的价值。可以被成对使用的示范性特征包括那些从信息的原始消息中抽取出来的或与原始消息相关的特征。特别地,SMTP(简单邮件传输协议)的域或主机名,HELLO命令的域或主机名,IP地址或来自邮件头接收部分的子网地址,任何在名字显示中显示的域或主机名,以及任何信息接收栏(MESSAGE FROMFIELD)的域或主机名,任何来自头的最后一次接收的时区都应该以某些方式匹配或结合。因此,上述信息的任何一对在训练机器学习过滤器或其他基于规则过滤器时都能够有用。第二种特征包括查看字符组。大多数消息中的现有特征与消息中的单词相关,并且非常典型地与由空格分割的单词相关。然而,出现在信息一部分的某些特定字符序列(包括或不包括空格)的所述事实能够指示垃圾邮件。因此,本专利技术提供一种系统和方法,其利用每一个字符序列或实质上所有可能的字符序列,包括标点符号和空格。有些垃圾邮件可能还包括结尾处或者主题行或信息开始处的片断,所述片断会破坏多数垃圾邮件过滤系统中能够找到的抽取匹配技术。片断可能包括n-grams字符例如“xz”或“qp”,其在好邮件中很少出现。因此,片断和/或n-grams字符的存在或出现能够非常强烈地暗示一个消息不好(例如为垃圾邮件)。n-grams字符也可以是依赖位置的(position-dependence)。从而,根据本专利技术的主题,包括位置依赖信息的特征也能被生成和利用。利用很少出现的字符序列侦测签名的另一种方式包括第三种类型的特征,所述特征能够被应用在机器学习系统中。第三特征包括例如利用n-gram语言模型侦测字符的最大熵。在该模型中,为每一个字符分配一个出现的概率,以便某些特定的字符序列出现的概率比其他的大。例如,字符序列“he”(例如,在“the”“hear”“she”theater“”等词汇中被找到)就比在任何给定字符组合或字符串中出现的序列“xz”更加可能出现。因此,字符序列“xz”的熵就比字符序列“he”的熵高很多。除了高熵之外,字符的平均熵也能够被侦测出来,例如在主题行或信息的结束或开始时。更多地,与字符的相对熵(relative entropy)对应的特征是很有用的。例如,当主题行开始的一个平均熵比主题行中部的一个平均熵高0.5时可以指定一个特征。其他的示例性特征可以与消息体结束的平均熵相应,比消息体中间的平均熵高1.0。更进一步地,上述每一个高、平均、和/或相对熵的侦测事件能够被用作分离特征。第四种有用的特征包括一般的头(generic headers)。传统的机器学习算法仅仅利用主题行和信息体共有的特征或者利用在信息头找到的其他普通域的特征。与传统过滤器不同,本专利技术充分地利用所有头,包括出现或没有出现的头行类型。更重要地,当前机器学习系统能够自动地识别有用的头特征,并且在某些情况下甚至也能够排除一些头(header)。根据本专利技术的其他方面,像图片特征一样,对机器学习技术有用的电子邮件交流的附加特征包括扩展特征的大小。由于很少量的垃圾邮件非常大,众多不同大小的特征与至少一个上面讨论到的其他特征结合就能够给识别垃圾邮件带来方便。例如,可以依据消息的大小生成特征。也就是说,对于那些比100比特,200比特和达到b比特(其中b大于等于1)更大的消息,能够为每个大小或大小范围生成一个特征。由于垃圾邮件常常利用较长的显示姓名来搞乱和/或伪装消息的源,上述方法也同样适用于主题行以及显示姓名大小。同样地,由于有些用户从来不打开垃圾邮件消息,垃圾邮件的主题行趋于包括消息体的大部分或全部而不是仅仅包括主题行自身。上述任何特征都能够用于机器学习系统以训练并提高垃圾邮件(junk mail和/或spam)过滤器,因此,对垃圾邮件发送者来说使其难于针对这些过滤器改变其信息。更多地,在信息系统中,垃圾邮件发送者获得垃圾邮件将被给与更少的机会。对于上述和相关目标的实现,在这里将结合以下描述和附图说明本专利技术的某些示例性方面。然而,这些方面除了表示几种本专利技术原理所使用的方法本文档来自技高网
...

【技术保护点】
一种侦测垃圾邮件的系统包括:    一个能够识别特征的部件,所述特征与至少一部分消息的原始信息相关;    一个将所述特征结合为有用的特征对的部件,所述特征对是为了使侦测垃圾邮件更方便而与训练机器学习过滤器联合使用的。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:BT斯塔白克RL劳斯维特DE海克曼JT古德曼EC吉伦ND豪维尔KR艾尔丁格
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1