自适应垃圾消息过滤系统技术方案

技术编号：2855400 阅读：254 留言：0更新日期：2012-04-11 18:40

一种数据过滤系统，其特征在于，包含：　　　　用于过滤消息的第一过滤器，所述第一过滤器有与其相关联的假肯定率和假否定率；以及　　　　用于过滤消息的第二过滤器，所述第二过滤器根据所述第一过滤器的假肯定率和假否定率进行评估，使用用于确定所述第一过滤器的假肯定率和假否定率的数据来根据阈值确定与所述第二过滤器相关联的新假肯定率和新假否定率，其中，如果对第二过滤器存在阈值，使得所述新假肯定率和新假否定率被一同认为优于所述第一过滤器的假肯定和假否定率，则使用所述第二过滤器以取代所述第一过滤器。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及识别非期望的信息(例如垃圾邮件)的系统和方法，尤其涉及帮助便于此类识别的自适应过滤器。
技术介绍
诸如因特网之类的全球通信网络的出现提供了与大量潜在顾客建立联系的商业契机。电子消息通信，尤其是电子邮件(“e-mail”)，作为向网络用户散布讨厌的广告与促销(也称“垃圾邮件”)的手段越来越普遍。Radicati集团有限公司-一家咨询与市场研究公司，估计如在2002年8月，每天有20亿垃圾电子邮件消息被发送——预期此数字每两年增至三倍。个人与实体(例如公司、政府机构、……)感觉日益不便，并时常不胜垃圾邮件之烦。同样地，垃圾电子邮件如今或即将成为对于可信计算的主要威胁。一种用于阻碍垃圾电子邮件的关键技术是使用过滤系统/方法。一种已经证实的过滤技术是基于机器学习方法——机器学习过滤器向传入消息分配该消息为垃圾邮件的概率。在此方法中，通常从两类示例消息(例如垃圾和非垃圾邮件消息)中提取特征，并应用学习过滤器在两类间进行概率区分。因为许多消息特征涉及内容(例如在消息主题和/或正文内的单词和短语)，此类过滤器通常被称作“基于内容的过滤器”。某些垃圾邮件/兜售信息过滤器是自适应的，这是重要的，因为多语言的用户及使用小语种语言的用户需要能适应其特殊需求的过滤器。此外，不是所有用户都能在什么是或不是垃圾邮件/兜售信息上取得一致。因此，通过使用可隐式地训练的(例如，经由观察用户行为)过滤器，各过滤器可被动态地度身定制以满足用户的特定消息识别需求。过滤自适应的一种方法是请求用户将消息标记为垃圾邮件和非垃圾邮件。不幸的是，归因于与此类训练相关联的复杂性，此类手工密集...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种数据过滤系统，其特征在于，包含用于过滤消息的第一过滤器，所述第一过滤器有与其相关联的假肯定率和假否定率；以及用于过滤消息的第二过滤器，所述第二过滤器根据所述第一过滤器的假肯定率和假否定率进行评估，使用用于确定所述第一过滤器的假肯定率和假否定率的数据来根据阈值确定与所述第二过滤器相关联的新假肯定率和新假否定率，其中，如果对第二过滤器存在阈值，使得所述新假肯定率和新假否定率被一同认为优于所述第一过滤器的假肯定和假否定率，则使用所述第二过滤器以取代所述第一过滤器。2.如权利要求1所述的系统，其特征在于，所述假肯定率和假否定率是根据经由用户纠正过程的使用被标记为垃圾和非垃圾的消息来确定的。3.如权利要求2所述的系统，其特征在于，所述用户纠正过程包括覆盖消息的初始分类，所述初始分类是由所述第一过滤器在一收到该消息时就自动执行的。4.如权利要求1所述的系统，其特征在于，所述假肯定率和假否定率是从各消息中的至少一个的内容中导出的。5.如权利要求1所述的系统，其特征在于，所述假肯定率和假否定率是从其它用户的电子邮件消息中导出的。6.如权利要求1所述的系统，其特征在于，所述第二过滤器是当所述新假肯定率劣于所述第一过滤器的假肯定率时使用的。7.如权利要求1所述的系统，其特征在于，所述假肯定率和假否定率是在预定数量的垃圾和非垃圾消息被标记，以及预定时间已发生两者的至少一种之后确定的。8.如权利要求1所述的系统，其特征在于，所述阈值是从多个所生成的阈值中选出的，所述各阈值是通过选择符合条件的阈值的平均阈值、具有最低假肯定率的阈值、及使基于p*效用函数的用户期望效益最大化的阈值中的至少一个来确定的。9.如权利要求1所述的系统，其特征在于，所述阈值是从多个阈值中选出的，仅当在该阈值处，所述新假肯定率和新假否定率优于所述第一过滤器的假肯定率和假否定率时，使用所述第二过滤器。10.如权利要求1所述的系统，其特征在于，还包含多个次级过滤器，所述多个次级过滤器组成了所述第二过滤器，如果对于至少一个次级过滤器存在阈值，使得所述新假否定率和假肯定率被一同认为优于所述第一过滤器的假肯定和假否定率，则所述系统使用所述至少一个次级过滤器以取代所述第一过滤器。11.如权利要求10所述的系统，其特征在于，所述次级过滤器包含M个过滤器(M是整数)，所述系统为一特定消息选择过滤器M1以取代所述第一过滤器，为另一消息选择过滤器M2以取代所述第一过滤器。12.一种计算机可读介质，其上存储有实现权利要求1所述的系统的计算机可执行组件。13.一种包含权利要求1所述的系统的计算机。14.一种包含权利要求1所述的系统的网络。15.一种包含权利要求1所述的系统的便携式计算设备。16.如权利要求15所述的设备，其特征在于，它是下列中的一个个人数字助理、电话机或膝上计算机。17.一种数据过滤器，其特征在于，包含用于过滤消息的第一过滤器，所述第一过滤器具有与其相关联的第一准确性数据；以及用于过滤消息的第二过滤器，所述第二过滤器具有与其相关联的第二准确性数据，所述第二过滤器用所述第一准确性数据来评估，使用用于确定所述第一准确性数据的数据来根据阈值确定所述第二准确性数据，其中，如果对所述第二过滤器存在阈值，使得所述第二准确性数据被认为优于所述第一准确性数据，则使用所述第二过滤器。18.如权利要求17所述的过滤器，其特征在于，以结合所述第一过滤器，和取代所述第一过滤器中至少一种形式来使用所述第二过滤器。19.如权利要求17所述的过滤器，其特征在于，当所述第二准确率至少和所述第一准确率相同时，使用所述第二过滤器。20.如权利要求17所述的过滤器，其特征在于，所述第一准确性数据和所述第二准确性数据中至少一项包含一假肯定率和一假否定率。21.如权利要求17所述的过滤器，其特征在于，所述第一准确性数据和所述第二准确性数据是基于消息文本和消息内容中的至少一个来确定的。22.如权利要求17所述的过滤器，其特征在于，所述第一过滤器是从处理其它用户电子邮件数据中导出的种子过滤器。23.如权利要求17所述的过滤器，其特征在于，所述第一准确性数据是根据一用户纠正过程来确定的，在该过程中用户审阅数据，所述数据是消息，并将该消息标记为垃圾消息和非垃圾消息中的一项。24.如权利要求23所述的过滤器，其特征在于，所述用户纠正过程包括覆盖消息的初始分类，所述初始分类是在该消息被接收时由所述第一过滤器自动执行的。25.如权利要求17所述的过滤器，其特征在于，当基于p*效用函数，用于使用所述第二过滤器的阈值至少和所述第一过滤器一样有效时，使用所述第二过滤器，其中N至少是20。26.如权利要求17所述的过滤器，其特征在于，所述第一准确性数据是根据已知具有正确的高度确定性的一组预定数据来确定的。27.如权利要求26所述的过滤器，其特征在于，所述一组预定的数据包括由用户标记为非垃圾消息的消息、由用户阅读并删除的消息、由用户转发的消息、及由用户回复的消息中至少一个。28.如权利要求17所述的过滤器，其特征在于，所述第一准确性数据是由从已校准过滤器接收的概率值来确定的，所述概率值用于估算所述第一准确性数据的假肯定率。29.如权利要求17所述的过滤器，其特征在于，所述第一准确性数据用于生成期望值。30.如权利要求29所述的过滤器，其特征在于，仅当用户纠正的实际次数至少和期望值一样时，使用所述第二过滤器。31.如权利要求17所述的过滤器，其特征在于，所述阈值是从多个阈值中选出的，仅当在该阈值处，所述第二准确性数据优于所述第一准确性数据时，使用所述新过滤器。32.一种便于数据过滤的方法，其特征在于，包含确定与种子过滤器相关联的假肯定率和假否定率；使用与所述种子过滤器相关联的种子数据来训练新过滤器，所述种子数据用于根据阈值来确定所述新过滤器的新假肯定率和新假否定率；以及如果对所述新过滤器存在阈值，使得所述新假肯定和假否定率被一同认为优于所述种子过滤器的假肯定和假否定率，则使用所述新过滤器以取代所述种子过滤器。33.如权利要求32所述的方法，其特征在于，基于经由...

【专利技术属性】
技术研发人员：R·L·朗特瓦特，J·T·古德曼，D·E·黑克尔曼，J·C·普拉特，C·M·卡迪厄，
申请(专利权)人：微软公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人