先进的垃圾邮件侦测技术制造技术

技术编号：2866302 阅读：381 留言：0更新日期：2012-04-11 18:40

本发明专利技术的主题提供一种能够方便地侦测垃圾邮件的先进而加强的系统和方法。所述系统和方法包括部件及其它操作，他们能够加强和促使找到垃圾邮件发送者难于避免的特征，并且找到在垃圾邮件发送者难以复制的非垃圾邮件的特征。示范性的特征包括检查成对的原始特征、分析字符和／或数字序列、串以及子串，在分析信息和／或特征大小的同时，侦测一个或多个字符序列、串和／或子序列不同的熵的级别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及识别垃圾邮件信息的系统和方法，更特别地涉及找到对垃圾邮件发送者来说难于避免的特征以及在非垃圾邮件中对垃圾邮件发送者来说难于复制的特征。
技术介绍
全球互联网例如internet的出现带来很多能够接触庞大数量潜在客户的商业机会。电子信息，特别是电子邮件(email)，越来越多地成为向网络用户散布其不需要的广告和宣传(也表示为垃圾邮件“spam”)的普遍手段。一家咨询和市场调查公司Radicati Group，Inc.估计在2002年8月，每天会有两亿垃圾邮件信息被发送——这一数字被预期每两年会增长三倍。这使得个人和实体(例如商业、政府机构)变得越来越不方便，并且时常被垃圾信息打扰。如上所述，垃圾邮件现在或不久将成为可靠的信息处理的最大威胁。普通的用于防止垃圾邮件的技术包括采用过滤系统或方法。一种已被证明可靠的过滤技术是基于机器学习方法的。机器学习过滤法分配给接收到的信息一表示该信息为垃圾信息的概率。在这种方法中，典型地，从两类示例信息(例如垃圾或非垃圾信息)中抽取到特征，并且学习过滤器被用来在概率统计上区别这两类。由于很多信息特征都与内容相关(例如，主题中的整个词或词组和/或信息的主要部分)，这种类型的过滤器常常被称为“基于内容的过滤器”。这种类型的机器学习过滤器为了侦测并从好信息中区分出垃圾信息，通常使用抽取匹配技术。不幸地，垃圾邮件发送者常常能够通过更改其垃圾邮件信息使其看上去像好邮件或通过在整个邮件中包含多种不正确的符号以回避或使符号识别系统混乱来愚弄现有的机器学习和/或基于内容的过滤器。因此，这样的现有的过滤器针对垃圾邮件仅能提供有...

【技术保护点】
一种侦测垃圾邮件的系统包括：　　　　一个能够识别特征的部件，所述特征与至少一部分消息的原始信息相关；　　　　一个将所述特征结合为有用的特征对的部件，所述特征对是为了使侦测垃圾邮件更方便而与训练机器学习过滤器联合使用的。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：BT斯塔白克，RL劳斯维特，DE海克曼，JT古德曼，EC吉伦，ND豪维尔，KR艾尔丁格，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人