数据处理单元的存储器中的恶意域生成算法DGA检测制造技术

技术编号:38507321 阅读:9 留言:0更新日期:2023-08-19 16:53
本公开涉及数据处理单元的存储器中的恶意域生成算法DGA检测。用于使用机器学习(ML)检测系统将一个或更多个候选统一资源定位符(URL)分类为具有域生成算法(DGA)域的装置、系统和技术。一种集成电路经由主机接口被耦合至主机设备的物理存储器。该集成电路托管硬件加速的安全服务,以保护由主机设备执行的一个或更多个计算机程序。该安全服务从存储在物理存储器中的数据中提取一组特征,该数据是一个或更多个候选URL中的域字符。安全服务使用ML检测系统利用该一组特征将一个或更多个候选URL分类为具有DGA域或非DGA域。安全服务响应于一个或更多个候选URL被分类为具有DGA域而输出DGA恶意软件的指示。DGA恶意软件的指示。DGA恶意软件的指示。

【技术实现步骤摘要】
数据处理单元的存储器中的恶意域生成算法DGA检测
[0001]相关申请
[0002]本申请要求2022年2月14日提交的美国临时申请第63/309,849号的权益,该申请的全部内容通过引用被合并于此。本申请与同时提交的标题为“使用机器学习检测模型在数据处理单元的存储器中的恶意活动检测(MALICIOUS ACTIVITY DETECTION IN MEMORY OF A DATA PROCESSING UNIT USING MACHINE LEARNING DETECTION MODELS)”的共同未决美国申请、同时提交的标题为“使用机器学习检测模型在数据处理单元的存储器中的勒索软件检测(RANSOMWARE DETECTION IN MEMORY OF A DATA PROCESSING UNIT USING MACHINE LEARNING DETECTION MODELS)”的共同未决美国申请、同时提交的标题为“使用机器学习检测模型在数据处理单元的存储器中的恶意统一资源定位符(URL)检测(MALICIOUS UNIFORM RESOURCE LOCATOR(URL)DETECTION IN MEMORY OF A DATA PROCESSING UNIT USING MACHINE LEARNING DETECTION MODELS)”的共同未决美国申请相关。


[0003]至少一个实施例涉及用于执行和促进用于检测一个或更多个计算机程序是否受到恶意活动的操作的处理资源。例如,根据本文描述的各种新型技术,至少一个实施例涉及用于基于从存储在主机设备的物理存储器中的数据提取的特征,提供和使数据处理单元(DPU)能够使用机器学习(ML)检测系统确定由主机设备执行的一个或更多个计算机程序是否受到恶意活动的影响的处理器或计算系统。

技术介绍

[0004]机器学习涉及训练计算系统(使用训练数据)以识别数据中可能促进检测和分类的特征。训练可以是监督的或无监督的。机器学习模型可以使用各种计算算法,如决策树算法(或其他基于规则的算法)、人工神经网络等。在推理阶段,新数据被输入到经训练的机器学习模型中,经训练的机器学习模型可以使用训练期间识别的特征对感兴趣的项目进行分类。
附图说明
[0005]将参照附图描述根据本公开的各种实施例,其中:
[0006]图1A是根据至少一个实施例的示例系统架构的框图。
[0007]图1B是根据至少一个实施例的示例系统架构的框图。
[0008]图2是根据至少一个实施例的对存储在与由主机设备执行的一个或更多个计算机程序相关联的存储器中的数据的恶意活动检测的示例方法的流程图。
[0009]图3A是根据至少一个实施例的示例随机森林分类模型的示图。
[0010]图3B是根据至少一个实施例的用于勒索软件检测系统的示例系统架构的框图。
[0011]图3C是根据至少一个实施例的用于勒索软件检测系统的示例系统架构的框图。
[0012]图4是根据至少一个实施例的使用随机森林分类模型的勒索软件检测的示例方法
的流程图。
[0013]图5A是根据至少一个实施例的示例恶意统一资源定位符(URL)检测系统的框图。
[0014]图5B是根据至少一个实施例的用于恶意URL检测系统的示例系统架构的框图。
[0015]图5C是根据至少一个实施例的用于恶意URL检测系统的示例系统架构的框图。
[0016]图6示出了根据至少一个实施例的候选URL的URL结构。
[0017]图7是根据至少一个实施例的使用二元(binary)分类模型的恶意URL检测的示例方法的流程图。
[0018]图8A是根据至少一个实施例的示例域生成算法(DGA)检测系统的框图。
[0019]图8B是根据至少一个实施例的用于DGA检测系统的示例系统架构的框图。
[0020]图8C是根据至少一个实施例的用于DGA检测系统的示例系统架构的框图。
[0021]图9A是示出了根据至少一个实施例的DGA检测系统的二元分类模型的精确

召回曲线的曲线图。
[0022]图9B是示出了根据至少一个实施例的在统一歧管近似和投影(UMAP)降维之前的训练数据的曲线图。
[0023]图9C是示出了根据至少一个实施例的UMAP降维之后的训练数据的曲线图。
[0024]图10是根据至少一个实施例的使用两阶段分类模型的DGA检测的示例方法的流程图。
具体实施方式
[0025]恶意活动会对计算机系统造成破坏。恶意活动可以由恶意软件(也被称为恶意的软件或恶意的代码)引起。恶意软件是任何有意设计为对计算机、服务器、客户端或计算机网络造成破坏,泄露私人信息,获取未经授权访问信息或资源,剥夺用户访问信息的权利,或有意干扰用户的计算机安全和隐私的软件。常见的恶意软件可以包括计算机病毒(例如,特洛伊木马病毒)或其他传染性的恶意软件、蠕虫、间谍软件、广告软件、流氓软件、雨刷(wiper)、恐吓软件、勒索软件、后门、钓鱼等。
[0026]恶意活动的一种类型是由勒索软件引起的。勒索软件是一种被设计为拒绝用户或组织访问其计算机上的文件的恶意软件。勒索软件可以是基于加密或基于屏幕锁定的勒索软件。例如,通过加密文件并要求支付赎金以获得解密密钥,勒索软件将组织置于支付赎金是重新获得对其文件的访问的最简单和最便宜的方式的处境中。勒索软件已迅速成为最突出和最明显的恶意软件类型。最近的勒索软件攻击影响了医院提供紧要服务的能力,使城市的公共服务陷于瘫痪,并对各种组织造成了重大损失。现有的针对勒索软件的安全解决方案被安装在主机或虚拟机上(例如,基于代理的防病毒解决方案)。这些现有的解决方案是不够的,因为恶意软件可以躲过它们。此外,这些工具在很大程度上无法检测到新的未知恶意软件,因为它们大多是基于静态分析的,而具有不同静态特征的恶意软件更容易被创建出来。
[0027]另一种类型的恶意活动是由恶意的URL引起的。恶意URL是以促进诈骗、攻击和欺诈为目的的链接。通过点击恶意URL,用户可以下载勒索软件、病毒、特洛伊木马或任何其他类型的恶意软件,这将损害机器甚至是组织的网络。恶意URL也可以用来说服用户在假网站上提供敏感信息。现有的针对恶意URL的安全解决方案是不够的,因为它们只专注于通过监
测外部来源,如电子邮件、下载的文件等来检测恶意URL。这意味着,如果URL渗透到主机或虚拟机中,目前的检测系统不会发现它,直到其在外部来源中使用为止。有时,黑客使用加密或混淆技术将恶意的URL隐藏在文件中。文件中的这些URL被从扫描中隐藏或混淆,或用户被引诱点击,其只在存储器中暴露出来。
[0028]另一种类型的恶意活动是由域名生成算法(DGA)恶意软件引起的。DGA恶意软件通过定期为命令和控制服务器生成大量的候选域名,并查询所有这些通过算法生成的域名,以解析命令和控制服务器的互联网协议(IP)地址,从而与命令和控制(C&a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:由数据处理单元DPU获得存储在主机设备的物理存储器中的数据的快照,所述数据与由所述主机设备执行的一个或更多个计算机程序相关联;使用机器学习ML检测系统从所述快照中提取一组特征,其中所述一组特征包括一个或更多个候选统一资源定位符URL中的域字符;使用所述ML检测系统利用所述一组特征将所述一个或更多个候选URL分类为具有域生成算法DGA域或非DGA域;以及响应于所述一个或更多个候选URL被分类为具有所述DGA域而输出DGA恶意软件的指示。2.根据权利要求1所述的方法,进一步包括:使用所述ML检测系统利用所述一组特征在一组DGA恶意软件族之间对所述DGA恶意软件的DGA族进行分类;以及输出所述DGA恶意软件的所述DGA族的指示。3.根据权利要求2所述的方法,其中所述ML检测系统包括两阶段分类模型,其包括:二元分类模型,其被训练为在第一阶段将所述一个或更多个候选URL分类为具有DGA域或非DGA域;以及多类分类模型,其被训练为在第二阶段将所述DGA域的所述DGA族在所述一组DGA恶意软件族中进行分类。4.根据权利要求2所述的方法,其中所述ML检测系统包括两阶段分类模型,其包括:二元分类模型,其被训练为将所述一个或更多个候选URL中的域字符令牌化为令牌,并在第一阶段使用所述令牌将所述一个或更多个候选URL分类为具有所述DGA域或所述非DGA域;以及多类分类模型,其被训练为在第二阶段使用所述令牌将所述DGA域的所述DGA族在所述一组DGA恶意软件族中进行分类。5.根据权利要求4所述的方法,其中:所述二元分类模型包括具有嵌入层的卷积神经网络CNN,用于将所述一个或更多个候选URL的所述域字符令牌化为令牌,所述CNN使用所述域字符的所述令牌作为所述一组特征;以及所述多类分类模型包括具有所述嵌入层的所述CNN的孪生网络,所述孪生网络使用所述域字符的所述令牌作为所述一组特征。6.根据权利要求2所述的方法,进一步包括:从所述快照中提取一个或更多个候选URL,所述快照表示在时间点处的所述数据,其中所述提取包括从所述一个或更多个候选URL中提取所述一组特征,其中所述ML检测系统包括两阶段分类模型,所述两阶段分类模型包括:二元分类模型,其被训练为在第一阶段使用所述一组特征将所述一个或更多个候选URL分类为具有DGA域或非DGA域;以及多类分类模型,其被训练为在第二阶段使用所述一组特征将所述DGA域的DGA族在一组DGA族之间进行分类。7.根据权利要求6所述的方法,进一步包括:将所述一个或更多个候选URL中的所述域
字符令牌化为令牌,并且其中:所述二元分类模型包括具有嵌入层的卷积神经网络CNN,以接收所述令牌作为表示所述一个或更多个候选URL中的所述域字符的令牌的输入序列,并基于所述令牌的输入序列生成输入向量,并且所述CNN被训练为在所述第一阶段使用来自所述嵌入层的所述输入向量将所述一个或更多个候选URL分类为具有所述DGA域或所述非DGA域;以及所述多类分类模型包括具有所述嵌入层的所述CNN的孪生网络,所述孪生网络被训练为在所述第二阶段使用来自所述嵌入层的所述输入向量对所述DGA族进行分类。8.一种集成电路,包括:主机接口,其可操作地耦合至与主机设备相关联的物理存储器;中央处理单元CPU,其可操作地耦合至所述主机接口;以及加速硬件引擎,其可操作地耦合至所述主机接口和所述CPU,其中所述CPU和所述加速硬件引擎用于托管硬件加速的安全服务,以保护由所述主机设备执行的一个或更多个计算机程序,其中所述硬件加速的安全服务用于:获得存储在所述物理存储器中的数据的快照,所述数据与所述一个或更多个计算机程序相关联;使用机器学习ML检测系统从所述快照中提取一组特征,其中所述一组特征包括一个或更多个候选统一资源定位符URL中的域字符;使用所述ML检测系统利用所述一组特征将所述一个或更多个候选URL分类为具有域生成算法DGA域或非DGA域;以及响应于所述一个或更多个候选URL被分类为具有所述DGA域而输出DGA恶意软件的指示。9.根据权利要求8所述的集成电路,其中所述集成电路是数据处理单元DPU,其中所述DPU是片上可编程数据中心基础设施。10.根据权利要求8所述的集成电路,进一步包括网络接口,其可操作地耦合至所述CPU,用于负责网络数据路径处理,其中所述CPU用于控制路径初始化和异常处理。11.根据权利要求8所述的集成电路,其中所述一个或更多个计算机程序包括至少一个主机操作系统OS、应用程序、访客操作系统或访客应用程序。12.根据权利要求8所述的集成电路,其中:所述硬件加速的安全服务用于:获得存储在所述物理存储器中的所述数据的快照,所述快照表示在时间点处的所述数据;以及从所述快照中提取一个或更多个候选URL;所述ML检测系统包括:特征提取逻辑,用于从所述一个或更多个候选URL中提取一组特征,所述一组特征包括所述一个或更多个候选URL的域字符;以及两阶段分类模型,其包括:二元分类模型,其被训练为在第一阶段使用所述一组特征将所述一个或更多个...

【专利技术属性】
技术研发人员:V
申请(专利权)人:迈络思科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1