基于网络流数据的垃圾邮件分类系统技术方案

技术编号：20332254 阅读：31 留言：0更新日期：2019-02-13 07:47

在示例实施例中，一种计算机实现的方法包括：从与电子邮件服务提供商相关联的消息获得标记，其中该标记指示针对每个消息IP已经接收到多少垃圾邮件消息和非垃圾邮件消息；从云服务提供商获得网络数据特征；将标记和网络数据特征提供到机器学习应用；生成预测模型，该预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法；将预测模型应用于针对无标记消息的网络数据特征；以及生成预测模型的输出，该输出指示无标记消息是垃圾邮件的可能性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于网络流数据的垃圾邮件分类系统
技术介绍
电子消息以及特别是电子邮件(email)越来越多地被用作用于向网络用户传播不想要的广告和促销(通常被标记为“垃圾邮件”)的手段。电子邮件还可以在恶意攻击中被滥用，诸如在拒绝服务攻击中向某一地址发送大量电子邮件，以及在钓鱼式攻击中试图获取敏感信息。用于阻止垃圾邮件和恶意邮件的常用技术涉及对过滤系统的采用。在一种过滤技术中，数据从两类示例消息(例如，垃圾邮件消息和非垃圾邮件消息)的内容中被提取，并且过滤器被应用以在概率上在两类之间进行鉴别，这种类型的过滤器通常被称为“基于内容的过滤器”。这些类型的机器学习过滤器通常采用精确匹配技术来检测和区分垃圾邮件消息与好消息。垃圾邮件发送者和恶意电子邮件创建者可以通过将他们的垃圾邮件消息修改为看起来像好消息或者在整个消息中包括各种错误字符以避开和/或混淆字符识别系统来欺骗常规的基于内容的过滤器。因此，这样的常规过滤器提供针对垃圾邮件和恶意消息的有限的保护。在其他技术中，域名系统(DNS)黑洞列表(DNSBL)或实时黑洞列表(RBL)可以被参考以识别被认为发送电子邮件垃圾邮件的IP地址。电子邮件服务器可以被配置为拒绝或标记从这些列表上列出的网站发送的消息。遗憾的是，这些列表可能连同从共享的电子邮件服务器发送的垃圾邮件一起阻止合法电子邮件，并且可能难以从这些列表移除合法地址。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列概念。本
技术实现思路
不旨在确定要求保护的主题的关键元素或必要元素，也不旨在用于限制要求保护的主题的范围。仅仅根据网络元数据来检测垃...

【技术保护点】
1.一种计算机实现的方法，包括：从与电子邮件服务提供商相关联的消息获得标记，其中所述标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息；从云服务提供商获得网络数据特征；将所述标记和网络数据特征提供到机器学习应用；以及生成预测模型，所述预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法。

【技术特征摘要】
【国外来华专利技术】2016.06.13 US 62/349,450;2016.11.30 US 15/365,0081.一种计算机实现的方法，包括：从与电子邮件服务提供商相关联的消息获得标记，其中所述标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息；从云服务提供商获得网络数据特征；将所述标记和网络数据特征提供到机器学习应用；以及生成预测模型，所述预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法。2.根据权利要求1所述的计算机实现的方法，还包括：将所述预测模型应用于针对无标记消息的网络数据特征；以及生成所述预测模型的输出，所述输出指示所述无标记消息是垃圾邮件的可能性。3.根据权利要求1所述的计算机实现的方法，还包括：从与所述电子邮件服务提供商相关联的消息获得经更新的标记集合；以及基于所述经更新的标记集合来重新训练所述预测模型。4.根据权利要求1所述的计算机实现的方法，还包括：如果所述无标记消息中的任何无标记消息被识别为垃圾邮件，则将与该消息的IP地址相关联的虚拟机标记为发送垃圾邮件。5.根据权利要求1所述的计算机实现的方法，其中所述机器学习应用是具有分类算法的经训练的学习器，所述分类算法用于根据从所述网络数据特征创建的稀疏矩阵来预测垃圾邮件。6.根据权利要求1所述的计算机实现的方法，其中所述网络数据特征对应于IPFIX数据。7.根据权利要求1所述的计算机实现的方法，其中所述网络数据特征包括电子邮件元数据。8.根据权利要求1所述的计算机实现的方法，其中来自与电子...

【专利技术属性】
技术研发人员：O·卡施，P·纽曼，D·阿隆，E·勇姆托维，H·纽沃斯，R·罗南，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人