当前位置: 首页 > 专利查询>微软公司专利>正文

自适应垃圾消息过滤系统技术方案

技术编号:2855400 阅读:254 留言:0更新日期:2012-04-11 18:40
一种数据过滤系统,其特征在于,包含:    用于过滤消息的第一过滤器,所述第一过滤器有与其相关联的假肯定率和假否定率;以及    用于过滤消息的第二过滤器,所述第二过滤器根据所述第一过滤器的假肯定率和假否定率进行评估,使用用于确定所述第一过滤器的假肯定率和假否定率的数据来根据阈值确定与所述第二过滤器相关联的新假肯定率和新假否定率,其中,如果对第二过滤器存在阈值,使得所述新假肯定率和新假否定率被一同认为优于所述第一过滤器的假肯定和假否定率,则使用所述第二过滤器以取代所述第一过滤器。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及识别非期望的信息(例如垃圾邮件)的系统和方法,尤其涉及帮助便于此类识别的自适应过滤器。
技术介绍
诸如因特网之类的全球通信网络的出现提供了与大量潜在顾客建立联系的商业契机。电子消息通信,尤其是电子邮件(“e-mail”),作为向网络用户散布讨厌的广告与促销(也称“垃圾邮件”)的手段越来越普遍。Radicati集团有限公司-一家咨询与市场研究公司,估计如在2002年8月,每天有20亿垃圾电子邮件消息被发送——预期此数字每两年增至三倍。个人与实体(例如公司、政府机构、……)感觉日益不便,并时常不胜垃圾邮件之烦。同样地,垃圾电子邮件如今或即将成为对于可信计算的主要威胁。一种用于阻碍垃圾电子邮件的关键技术是使用过滤系统/方法。一种已经证实的过滤技术是基于机器学习方法——机器学习过滤器向传入消息分配该消息为垃圾邮件的概率。在此方法中,通常从两类示例消息(例如垃圾和非垃圾邮件消息)中提取特征,并应用学习过滤器在两类间进行概率区分。因为许多消息特征涉及内容(例如在消息主题和/或正文内的单词和短语),此类过滤器通常被称作“基于内容的过滤器”。某些垃圾邮件/兜售信息过滤器是自适应的,这是重要的,因为多语言的用户及使用小语种语言的用户需要能适应其特殊需求的过滤器。此外,不是所有用户都能在什么是或不是垃圾邮件/兜售信息上取得一致。因此,通过使用可隐式地训练的(例如,经由观察用户行为)过滤器,各过滤器可被动态地度身定制以满足用户的特定消息识别需求。过滤自适应的一种方法是请求用户将消息标记为垃圾邮件和非垃圾邮件。不幸的是,归因于与此类训练相关联的复杂性,此类手工密集训练技术是不受许多用户欢迎的,更不必说正确地实现此类训练所需的时间量。另一种自适应过滤器训练方法是使用隐式训练提示。例如,如果用户回复或转发邮件,该方法假设该邮件是非垃圾邮件。然而,仅使用此类消息提示将统计偏差引入到训练过程中,导致较低相应准确率的过滤器。又一种方法是将所有用户的电子邮件用于训练,其中初始标签是由现有过滤器分配的,且用户有时用显式提示——例如,选择诸如“作为垃圾邮件删除”和“非垃圾邮件”等的选项——覆盖那些分配(例如“用户纠正”方法),和/或用隐式提示覆盖那些分配。尽管此类方法优于前面讨论的技术,与以下进行描述和要求保护的本专利技术相比,它仍是不完善的。专利技术概述为了提供对本专利技术的某些方面的基本理解,下文给出本专利技术的简化概述。此概述不是本专利技术广泛综述。它并不试图标识本专利技术的关键/决定性元素,也不试图描绘本专利技术的范畴。它唯一的目的是以简单的形式提出本专利技术的一些概念,作为对稍后给出的更详尽描述的序言。本专利技术提供一种便于使用最适合识别垃圾邮件/兜售信息的可用过滤器(例如种子过滤器或新过滤器)的系统和方法。本专利技术使用一种过滤消息的种子过滤器,它与假肯定率(例如非垃圾邮件被错误地分类为垃圾邮件)和假否定率(例如,垃圾邮件被错误地分类为非垃圾邮件)相关联。还使用一种新过滤器以过滤消息——该新过滤器是根据与种子过滤器相关联的假肯定率和假否定率来评估的。使用用于确定种子过滤器的假肯定率和假否定率的数据来根据阈值确定新过滤器的新的假肯定和假否定率。如果对于新过滤器存在阈值,使得新假肯定率和新假否定率一起被认为优于种子过滤器的假肯定和假否定率,则使用该新过滤器以代替种子过滤器。新假肯定率和新假否定率是根据由用户标记为垃圾和非垃圾邮件(例如经由使用用户纠正过程)的消息来确定的。用户纠正过程包括覆盖消息的初始分类,初始分类是当用户接收该消息时由种子过滤器自动执行的。阈值可以是单阈值,或从多个生成的阈值中选出。如果使用了多个值,则选中的阈值可通过选择例如符合条件的阈值(例如具有最低假肯定率的阈值,或基于p*效益函数使用户的期望效益最大化的阈值)范围的中点阈值来确定。或者,仅当在选中阈值处,新过滤器的假肯定和假否定率至少和种子过滤器的假肯定和假否定率一样好,且其中一个更好时,才选中该阈值。此外,可提供选择标准,从而仅当不但在选中阈值处,而且在其它附近的阈值处,新过滤器率都优于种子过滤器率时,才选中该新过滤器。本专利技术的另一方面提供便于数据过滤的图形用户界面。该界面提供同与配置过滤器有关的配置系统通信的过滤器接口。该界面提供多个用户可选过滤器级别,包括默认、增强、及专有中的至少一个。该界面提供便于实现本专利技术的前述系统和方法的各种工具。为达成前述及相关目的,本文结合以下描述与附图描述了本专利技术的某些说明性方面。然而,这些方面仅指示了可使用本专利技术原理的各种方法中的少数几种,本专利技术旨在包括所有此类方面及其等效方面。当结合附图考虑时,本专利技术的其它优点与新颖的特征将从以下对本专利技术的具体描述中变得显而易见。附图简述附图说明图1所示是根据本专利技术的过滤器系统的通用框图。图2所示是关于捕获率的性能折衷的图表。图3所示是根据本专利技术的方法的流程图。图4A和4B示出根据本专利技术,用于配置自适应垃圾邮件过滤系统的示例性用户界面。图5所示是使用本专利技术的消息处理体系结构的通用框图。图6示出根据本专利技术的技术,具有便于多用户登录和过滤传入消息的一个或多个客户计算机的系统。图7示出根据本专利技术,在消息服务器上执行初始过滤,并在一个或多个客户上执行二次过滤的系统。图8所示是用于大规模实现的自适应过滤系统的框图。图9所示是用于执行所揭示的体系结构的计算机的框图。专利技术详细描述现参考附图描述本专利技术,图中始终用相同的参考标号指相同的元素。在以下描述中,为解释起见,阐述了大量具体细节,以提供对本专利技术的彻底理解。然而,显然可以不用这些具体细节来实施本专利技术。在其它例子中,为了便于描述本专利技术,以框图形式示出公知的结构和设备。如在本专利技术中所用的,术语“组件”和“系统”指的是计算机有关的实体,它们或者是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是,但不限于,运行于处理器上的进程、处理器、对象、可执行码、执行线程、程序和/或计算机。作为说明,在服务器上运行的应用程序及该服务器都可以是组件。一个或多个组件可驻留在进程和/或执行线程内,且组件可位于一台计算机上和/或分布在两台或多台计算机之间。本专利技术可结合各种与垃圾邮件过滤有关的推论方案和/或技术。如本文中所用的,术语“推论”一般指从一组经由事件和/或数据捕捉的观察中推理或推断系统、环境、和/或用户的状态的过程。例如,推论可用于识别具体上下文或行为,或可生成状态的概率分布。推论可以是概率性的——即,基于对数据和事件的考虑计算感兴趣的状态的概率分布。推论也可指用于从一组事件和/或数据组成高级事件的技术。此类推论导致从一组所观察的事件和/或所存储的事件数据中构造新事件或行动,无论各事件是否在时间上紧密相关,也无论各事件和数据是来自一个还是数个事件和数据源。应当理解,尽管贯穿此说明书大量使用术语消息,此类术语不限于电子邮件本身,而是可被恰当地改编以包括可分布在任何适当的通信体系结构上的任何形式的电子消息。例如,便于两人或多人之间的会议的会议应用程序(例如,交互式聊天程序,以及即时消息通信程序)也可利用本文所揭示的过滤的益处,因为讨厌的文本可在用户交换消息时被电子地散布到正常的聊天消息中,和/或作为开始消息、结束消息或以上所有消息被插入。在此特定应用程序中,为了捕捉本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种数据过滤系统,其特征在于,包含用于过滤消息的第一过滤器,所述第一过滤器有与其相关联的假肯定率和假否定率;以及用于过滤消息的第二过滤器,所述第二过滤器根据所述第一过滤器的假肯定率和假否定率进行评估,使用用于确定所述第一过滤器的假肯定率和假否定率的数据来根据阈值确定与所述第二过滤器相关联的新假肯定率和新假否定率,其中,如果对第二过滤器存在阈值,使得所述新假肯定率和新假否定率被一同认为优于所述第一过滤器的假肯定和假否定率,则使用所述第二过滤器以取代所述第一过滤器。2.如权利要求1所述的系统,其特征在于,所述假肯定率和假否定率是根据经由用户纠正过程的使用被标记为垃圾和非垃圾的消息来确定的。3.如权利要求2所述的系统,其特征在于,所述用户纠正过程包括覆盖消息的初始分类,所述初始分类是由所述第一过滤器在一收到该消息时就自动执行的。4.如权利要求1所述的系统,其特征在于,所述假肯定率和假否定率是从各消息中的至少一个的内容中导出的。5.如权利要求1所述的系统,其特征在于,所述假肯定率和假否定率是从其它用户的电子邮件消息中导出的。6.如权利要求1所述的系统,其特征在于,所述第二过滤器是当所述新假肯定率劣于所述第一过滤器的假肯定率时使用的。7.如权利要求1所述的系统,其特征在于,所述假肯定率和假否定率是在预定数量的垃圾和非垃圾消息被标记,以及预定时间已发生两者的至少一种之后确定的。8.如权利要求1所述的系统,其特征在于,所述阈值是从多个所生成的阈值中选出的,所述各阈值是通过选择符合条件的阈值的平均阈值、具有最低假肯定率的阈值、及使基于p*效用函数的用户期望效益最大化的阈值中的至少一个来确定的。9.如权利要求1所述的系统,其特征在于,所述阈值是从多个阈值中选出的,仅当在该阈值处,所述新假肯定率和新假否定率优于所述第一过滤器的假肯定率和假否定率时,使用所述第二过滤器。10.如权利要求1所述的系统,其特征在于,还包含多个次级过滤器,所述多个次级过滤器组成了所述第二过滤器,如果对于至少一个次级过滤器存在阈值,使得所述新假否定率和假肯定率被一同认为优于所述第一过滤器的假肯定和假否定率,则所述系统使用所述至少一个次级过滤器以取代所述第一过滤器。11.如权利要求10所述的系统,其特征在于,所述次级过滤器包含M个过滤器(M是整数),所述系统为一特定消息选择过滤器M1以取代所述第一过滤器,为另一消息选择过滤器M2以取代所述第一过滤器。12.一种计算机可读介质,其上存储有实现权利要求1所述的系统的计算机可执行组件。13.一种包含权利要求1所述的系统的计算机。14.一种包含权利要求1所述的系统的网络。15.一种包含权利要求1所述的系统的便携式计算设备。16.如权利要求15所述的设备,其特征在于,它是下列中的一个个人数字助理、电话机或膝上计算机。17.一种数据过滤器,其特征在于,包含用于过滤消息的第一过滤器,所述第一过滤器具有与其相关联的第一准确性数据;以及用于过滤消息的第二过滤器,所述第二过滤器具有与其相关联的第二准确性数据,所述第二过滤器用所述第一准确性数据来评估,使用用于确定所述第一准确性数据的数据来根据阈值确定所述第二准确性数据,其中,如果对所述第二过滤器存在阈值,使得所述第二准确性数据被认为优于所述第一准确性数据,则使用所述第二过滤器。18.如权利要求17所述的过滤器,其特征在于,以结合所述第一过滤器,和取代所述第一过滤器中至少一种形式来使用所述第二过滤器。19.如权利要求17所述的过滤器,其特征在于,当所述第二准确率至少和所述第一准确率相同时,使用所述第二过滤器。20.如权利要求17所述的过滤器,其特征在于,所述第一准确性数据和所述第二准确性数据中至少一项包含一假肯定率和一假否定率。21.如权利要求17所述的过滤器,其特征在于,所述第一准确性数据和所述第二准确性数据是基于消息文本和消息内容中的至少一个来确定的。22.如权利要求17所述的过滤器,其特征在于,所述第一过滤器是从处理其它用户电子邮件数据中导出的种子过滤器。23.如权利要求17所述的过滤器,其特征在于,所述第一准确性数据是根据一用户纠正过程来确定的,在该过程中用户审阅数据,所述数据是消息,并将该消息标记为垃圾消息和非垃圾消息中的一项。24.如权利要求23所述的过滤器,其特征在于,所述用户纠正过程包括覆盖消息的初始分类,所述初始分类是在该消息被接收时由所述第一过滤器自动执行的。25.如权利要求17所述的过滤器,其特征在于,当基于p*效用函数,用于使用所述第二过滤器的阈值至少和所述第一过滤器一样有效时,使用所述第二过滤器,其中N至少是20。26.如权利要求17所述的过滤器,其特征在于,所述第一准确性数据是根据已知具有正确的高度确定性的一组预定数据来确定的。27.如权利要求26所述的过滤器,其特征在于,所述一组预定的数据包括由用户标记为非垃圾消息的消息、由用户阅读并删除的消息、由用户转发的消息、及由用户回复的消息中至少一个。28.如权利要求17所述的过滤器,其特征在于,所述第一准确性数据是由从已校准过滤器接收的概率值来确定的,所述概率值用于估算所述第一准确性数据的假肯定率。29.如权利要求17所述的过滤器,其特征在于,所述第一准确性数据用于生成期望值。30.如权利要求29所述的过滤器,其特征在于,仅当用户纠正的实际次数至少和期望值一样时,使用所述第二过滤器。31.如权利要求17所述的过滤器,其特征在于,所述阈值是从多个阈值中选出的,仅当在该阈值处,所述第二准确性数据优于所述第一准确性数据时,使用所述新过滤器。32.一种便于数据过滤的方法,其特征在于,包含确定与种子过滤器相关联的假肯定率和假否定率;使用与所述种子过滤器相关联的种子数据来训练新过滤器,所述种子数据用于根据阈值来确定所述新过滤器的新假肯定率和新假否定率;以及如果对所述新过滤器存在阈值,使得所述新假肯定和假否定率被一同认为优于所述种子过滤器的假肯定和假否定率,则使用所述新过滤器以取代所述种子过滤器。33.如权利要求32所述的方法,其特征在于,基于经由...

【专利技术属性】
技术研发人员:R·L·朗特瓦特J·T·古德曼D·E·黑克尔曼J·C·普拉特C·M·卡迪厄
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1