基于网络流数据的垃圾邮件分类系统技术方案

技术编号:20332254 阅读:31 留言:0更新日期:2019-02-13 07:47
在示例实施例中,一种计算机实现的方法包括:从与电子邮件服务提供商相关联的消息获得标记,其中该标记指示针对每个消息IP已经接收到多少垃圾邮件消息和非垃圾邮件消息;从云服务提供商获得网络数据特征;将标记和网络数据特征提供到机器学习应用;生成预测模型,该预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法;将预测模型应用于针对无标记消息的网络数据特征;以及生成预测模型的输出,该输出指示无标记消息是垃圾邮件的可能性。

【技术实现步骤摘要】
【国外来华专利技术】基于网络流数据的垃圾邮件分类系统
技术介绍
电子消息以及特别是电子邮件(email)越来越多地被用作用于向网络用户传播不想要的广告和促销(通常被标记为“垃圾邮件”)的手段。电子邮件还可以在恶意攻击中被滥用,诸如在拒绝服务攻击中向某一地址发送大量电子邮件,以及在钓鱼式攻击中试图获取敏感信息。用于阻止垃圾邮件和恶意邮件的常用技术涉及对过滤系统的采用。在一种过滤技术中,数据从两类示例消息(例如,垃圾邮件消息和非垃圾邮件消息)的内容中被提取,并且过滤器被应用以在概率上在两类之间进行鉴别,这种类型的过滤器通常被称为“基于内容的过滤器”。这些类型的机器学习过滤器通常采用精确匹配技术来检测和区分垃圾邮件消息与好消息。垃圾邮件发送者和恶意电子邮件创建者可以通过将他们的垃圾邮件消息修改为看起来像好消息或者在整个消息中包括各种错误字符以避开和/或混淆字符识别系统来欺骗常规的基于内容的过滤器。因此,这样的常规过滤器提供针对垃圾邮件和恶意消息的有限的保护。在其他技术中,域名系统(DNS)黑洞列表(DNSBL)或实时黑洞列表(RBL)可以被参考以识别被认为发送电子邮件垃圾邮件的IP地址。电子邮件服务器可以被配置为拒绝或标记从这些列表上列出的网站发送的消息。遗憾的是,这些列表可能连同从共享的电子邮件服务器发送的垃圾邮件一起阻止合法电子邮件,并且可能难以从这些列表移除合法地址。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列概念。本
技术实现思路
不旨在确定要求保护的主题的关键元素或必要元素,也不旨在用于限制要求保护的主题的范围。仅仅根据网络元数据来检测垃圾邮件是困难的任务,因为通信的内容不可获得。电子邮件服务提供商已经基于电子邮件内容检测到垃圾邮件消息,并且来自大量虚拟机的IPFIX数据在云服务网络中可获得。使用电子邮件服务提供商的垃圾邮件观察和云网络IPFIX数据作为机器学习分类器的输入,垃圾邮件分类估计器或算法可以通过对通用网络元数据特征进行训练来被创建,通用网络元数据特征诸如被寻址的外部IP、被寻址的外部端口、观察到的TCP标记、观察到的协议、等等。该训练可以揭示与垃圾电子邮件相关联的隐藏模式,并且可以动态地适应发送垃圾邮件的机器的通信模式的变化。附图说明为了进一步澄清本专利技术的实施例的以上和其他优点以及元素,将通过参考附图来呈现本专利技术的实施例的更具体描述。应认识到,这些附图仅描绘本专利技术的典型实施例并且因此不应被认为限制其范围。将使用附图以额外的特异性和细节来描述和解释本专利技术,在附图中:图1是实现基于来自网络流数据的大规模特征提取的针对云的垃圾邮件分类系统的示例实施例的系统的高级框图。图2是概述针对利用逻辑回归模型的示例实现方式的各种模型和特征组的结果的表。图3是概述针对利用梯度增强树模型的示例实现方式的各种模型和特征组的结果的表。图4是图示用于对垃圾邮件消息进行分类的示例计算机实现的方法的步骤的流程图。具体实施方式对云计算的采用中的加速增长已经使安全性既是挑战又是机会。云服务提供商可以具有对威胁局面的独特见解并且可以使用各种各样的数据源和技术来帮助客户防止威胁、检测威胁、以及对威胁做出响应。为了针对云服务租户提供全局安全性,对于服务提供商而言重要的是向所有客户(包括未完全承认安全性的重要性的那些客户)提供基本安全保护。这允许服务提供商排除简单的攻击者,其正在搜索一般网络漏洞而非执行有目标的攻击。通过分析在网络上共同地收集的网络流数据来实现一般保护层。这由于该数据的低边际成本是可能的,其不向用户要求额外的存储和额外的计算成本。在云系统中,网络业务的分组可以被采样并且以被称为互联网协议流信息导出(IPFIX)的协议格式来被收集。该数据包含连接的高级描述符,诸如源和目的IP地址和端口、协议类型、以及TCP标记的联合,但不是传输的实际分组。该数据广泛可用于进入云服务网络和从云服务网络出来的所有网络通信以及可用于云服务上的所有客户订阅。然而,可用的信息可能对于许多应用来说太有限,这些应用诸如垃圾邮件检测,其中通信的内容保持关于该通信是恶意还是善意的关键信息。例如,观察到去往端口25(SMTP)的大量通信可能指示恶意发送垃圾邮件的活动,但是其还可能反映有效时事通讯系统。如从采样的IPFIX数据确定的到端口25上的外部IP地址的通信的量可以在尝试识别从云发送的垃圾电子邮件时被使用。其他特征可以表示网络活动模式;然而,这也可以受特定云的各种提供影响,并且因此将在标记从电子邮件服务提供商可获得时被最佳地利用。互联网服务的提供商在获得可以利用其来训练网络分析的各种信号和标记中具有很大优势。例如,电子邮件或网络邮件服务提供商可以在客户已经选择允许这样的访问的情况下并且在其他隐私关注被解决的情况下具有对电子邮件消息的内容的访问。这使电子邮件服务提供商有可能准确地在垃圾邮件消息与非垃圾邮件消息之间进行区分并且相应地标记分组。利用来自这些额外源的信息可以通过应用机器学习分析来增强对网络流数据的预测。例如,该分析允许云服务提供商检测云服务网络上的受危害的机器。在示例情形中,从电子邮件收集的垃圾邮件标记可以用于检测云服务网络中的垃圾邮件发送虚拟机(VM)或其他发送垃圾邮件的主机。包括标记的信誉数据集可以从源自于云服务网络的电子邮件生成,其中标记针对云服务网络上的每个IP地址被提供并且指示从每个地址接收的垃圾邮件消息和非垃圾邮件消息的数量。为了管理这些标记,针对其接收十个或更少消息的所有IP地址和相关联的数据可以从数据集被丢弃。最终数据集优选地包含被指定为肯定(即,垃圾邮件)或否定的大量样本。大量标记允许采取通用特征生成方法。稀疏特征矩阵可以类似于词袋(bag-of-words)方法被提取。该矩阵表示针对特定日期上的每个部署的直方图、归一化的直方图、以及针对其到达的外部IP地址以及端口中的每一个的二进制存在表示以及使用的TCP标记。该通用方法产生重大优势,因为其允许系统动态地适应可能产生的新攻击方案,由此延长系统的预期寿命。机器学习软件,诸如具有逻辑损失和二次特征提取的VowpalWabbit,可以被用于探索稀疏特征矩阵中的各种特征组合的贡献。最小一乘法(L1)和最小二乘法(L2)损失函数以及针对肯定类和否定类的不同权重的不同组合可以由机器学习软件使用。这些模型可以与使用以下两个基于知识的特征在相同标记上训练的基准模型进行比较:到端口25(SMTP)的通信的总量和该通信占所有部署活动的分数(fraction)。本领域技术人员将理解,现在已知的或稍后开发的任何机器学习软件都可以被使用,诸如梯度增强树模型或改进的深度学习方法。图1是实现基于来自网络流数据的大规模特征提取的针对云的垃圾邮件分类系统的示例实施例的系统的高级框图。云服务提供商托管云服务网络或分布式计算系统101上的租户/客户。云服务网络101包括许多服务器102,每个服务器托管多个虚拟机(VM)103。服务器102还可以托管数据库、网页、或者其他应用。VM103可以使用电子邮件或网络邮件提供商104将电子邮件发送到目的服务器或计算机105。发送到VM103和服务器102的、和从VM103和服务器102发送的消息经由路由器106通过云服务网络101被路由到服务器10本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:从与电子邮件服务提供商相关联的消息获得标记,其中所述标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息;从云服务提供商获得网络数据特征;将所述标记和网络数据特征提供到机器学习应用;以及生成预测模型,所述预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法。

【技术特征摘要】
【国外来华专利技术】2016.06.13 US 62/349,450;2016.11.30 US 15/365,0081.一种计算机实现的方法,包括:从与电子邮件服务提供商相关联的消息获得标记,其中所述标记指示针对每个消息IP地址已经接收到多少垃圾邮件消息和非垃圾邮件消息;从云服务提供商获得网络数据特征;将所述标记和网络数据特征提供到机器学习应用;以及生成预测模型,所述预测模型表示用于确定网络数据特征的特定集合是否是垃圾邮件的算法。2.根据权利要求1所述的计算机实现的方法,还包括:将所述预测模型应用于针对无标记消息的网络数据特征;以及生成所述预测模型的输出,所述输出指示所述无标记消息是垃圾邮件的可能性。3.根据权利要求1所述的计算机实现的方法,还包括:从与所述电子邮件服务提供商相关联的消息获得经更新的标记集合;以及基于所述经更新的标记集合来重新训练所述预测模型。4.根据权利要求1所述的计算机实现的方法,还包括:如果所述无标记消息中的任何无标记消息被识别为垃圾邮件,则将与该消息的IP地址相关联的虚拟机标记为发送垃圾邮件。5.根据权利要求1所述的计算机实现的方法,其中所述机器学习应用是具有分类算法的经训练的学习器,所述分类算法用于根据从所述网络数据特征创建的稀疏矩阵来预测垃圾邮件。6.根据权利要求1所述的计算机实现的方法,其中所述网络数据特征对应于IPFIX数据。7.根据权利要求1所述的计算机实现的方法,其中所述网络数据特征包括电子邮件元数据。8.根据权利要求1所述的计算机实现的方法,其中来自与电子...

【专利技术属性】
技术研发人员:O·卡施P·纽曼D·阿隆E·勇姆托维H·纽沃斯R·罗南
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1