针对用于检测恶意软件的深度强化学习技术的训练技术制造技术

技术编号:26977442 阅读:20 留言:0更新日期:2021-01-06 00:16
用于训练基于强化学习模型来检测恶意软件的系统的技术。这样的已训练系统检测文件是恶意文件还是良性文件,并且确定在这种检测中停止文件执行的最佳时间。强化学习模型与事件分类器和文件分类器相结合可以学习到是在已观察到足够的状态信息之后停止执行,还是在需要更多事件来做出高置信的确定时继续执行。所公开的算法允许系统基于每个文件来决定何时停止。

【技术实现步骤摘要】
【国外来华专利技术】针对用于检测恶意软件的深度强化学习技术的训练技术
技术介绍
尽管在计算机安全和消除安全威胁的工具方面进行了数十年的研究,但是用户和组织仍然依赖于尝试使用一些主要策略来检测恶意软件的商业恶意软件产品。首先,基于恶意软件“签名”的静态分析被用于搜索文件或进程以查找恶意代码序列。接下来,动态分析被用于通常在隔离空间中仿真文件的执行。这种仿真可能不包含完整的虚拟机(“VM”)。相反,仿真器可以模仿典型操作系统的响应。如果系统在仿真文件时可以检测到恶意行为,则系统可以阻止在本机操作系统上的执行并且将文件标识为恶意文件。结果,可以避免感染计算机。如果系统无法在仿真过程中检测到恶意行为,则文件可以在计算机上安装和/或执行。在安装之后,无论何时在计算机上执行文件,恶意系统通常都会继续监测文件的动态行为。如果恶意系统在计算机上检测到恶意文件,则通常会采取一项或多项措施来保护计算机免受该文件的侵害。
技术实现思路
本节中提供的概述总结了本文中描述的技术的一个或多个部分或完整的示例实施例,以便向读者提供基本的高级理解。本概述不是对技术的广泛描述,并且可能无法标识技术的关键要素或方面,也不界定技术的范围。其唯一目的是以简化的形式呈现技术的各个方面,作为下面提供的详细描述的序言。整体上,这些技术不应当限于本文中提供的任何特定实施例或示例或其组合。此处公开的计算机相关技术主要涉及一种基于深度强化学习(“DRL”)的新颖专利技术,该专利技术用于训练DRL系统以检测用于停止文件执行的最佳时间,以确定是否文件是恶意还是良性。所得到的DRL神经网络(“NN”)与事件分类器和文件分类器相结合可以学习到是在已观察到足够的状态信息之后停止仿真,还是在需要更多事件来做出高置信的确定时继续执行。与先前提出的解决方案不同,此处公开的DRL算法允许系统基于每个文件来决定何时停止执行。通过这样做,本专利技术是朝着在网络安全的至关重要的领域中使用人工智能迈出的一步。例如,通过深度强化学习系统对恶意和良性文件的集合进行分析的结果表明,对未知文件的总体分类有显著改进。在1.0%的假阳性率的情况下,所提出的深度强化学习系统将真阳性检测率显著提高了30.6%。早期系统的弱点之一是,它们使用固定长度的事件序列来做出停止(stop)或停止(halt)文件执行的决策。在本专利技术中,使用新的深度强化学习方法以良好的置信度决定更好的执行停止点,这有助于反恶意系统在所需要的事件序列长度方面学习得更加灵活。强化学习是一种使用随机优化概念的特殊类型的机器学习方法。它旨在解决优化问题,使得代理可以在随机环境中采取措施以使某个累积奖励概念最大化。在本专利技术的一个示例中,环境被定义为要被筛选的恶意文件,代理被定义为反恶意软件系统,并且奖励被定义为如下方式,代理可以通过使其预期奖励最大化而被训练为在以下两个动作之间进行选择时尽可能聪明:继续文件执行(因为文件被确定为良性)或停止文件执行(因为文件被确定为恶意)。附图说明当结合附图考虑时,将能够更好地理解以下提供的详细描述,在附图中:图1是示出可以在其中实现本文中描述的技术的示例计算环境100的框图。图2是示出基于所公开的技术的示例恶意软件检测系统200的框图。图2A是示出图2的恶意软件检测系统的两个示例操作模式的图。图3是示出用于检测恶意软件的各种数据结构的图。图4是示出用于确定执行文件是恶意还是良性的示例方法400的框图。图5是示出示例执行控制模块510的框图。图6是示出用于确定事件得分并且产生是继续还是停止文件执行的执行决策的示例方法600的框图。图7是示出示例推断模型720的框图。图8是示出用于确定改进得分的示例方法800的框图,该改进得分指示执行文件为恶意或良性的可能性。图9是示出可以用于被实现事件分类器512和/或文件分类器722的示例分类器920的框图。图10是示出描述DRL模型训练算法的各方面的示例方法1000的框图。图11是示出用于训练系统200的示例方法1100的框图。在不同的图中,相似的附图标记用于表示附图中相似或相同的元素或步骤。具体实施方式结合附图在本部分中提供的详细描述描述了所公开的技术的一个或多个部分或完整示例实施例,但是不旨在描述这些技术的所有可能的实施例。该详细描述阐述了所公开的技术的至少一些系统和/或方法的各种示例。然而,根据其他示例,也可以实现相似或等同的技术、系统和/或方法。计算环境尽管本文中提供的示例被描述和示出为在计算环境中可实现,但是所描述的环境仅作为示例而不是限制来提供。如本领域技术人员将认识到的,所公开的示例适合于在各种不同的计算环境中实现。图1是示出可以在其中实现本文中描述的技术的示例计算环境100的框图。合适的计算环境可以用很多通用或专用设备和/或系统中的任何一种来实现。这样的设备和/或系统的示例包括但不限于个人数字助理(“PDA”)、个人计算机(“PC”)、手持或膝上型设备、基于微处理器的系统、多处理器系统、片上系统(“SOC”)、服务器、互联网服务、工作站、消费电子设备、手机、机顶盒等。在所有情况下,这样的系统严格限于制品等。计算环境100通常包括耦合到各种组件的至少一个计算设备101,诸如外围设备102、103、101等。这些可以包括可以经由一个或多个输入/输出(“I/O”)接口112进行操作的组件,诸如输入设备103,诸如语音识别技术、触摸板、按钮、键盘和/或指点设备(诸如鼠标或轨迹球)。计算设备101的组件可以包括一个或多个处理器(包括中央处理单元(“CPU”)、图形处理单元(“GPU”)、微处理器(“μP”)等)107、系统存储器109、和通常耦合各种组件的系统总线108。处理器107通常处理或执行各种计算机可执行指令,并且基于这些指令来控制计算设备101的操作。这可以包括计算设备101经由诸如网络连接114等各种通信技术与其他电子和/或计算设备、系统或环境(未示出)的通信。系统总线108表示任何数目的总线结构,包括存储器总线或存储器控制器、外围总线、串行总线、加速图形端口、使用任何各种总线架构的处理器或本地总线等。系统存储器109可以包括诸如随机存取存储器(“RAM”)等易失性存储器和/或诸如只读存储器(“ROM”)或闪速存储器(“FLASH”)等非易失性存储器形式的计算机可读介质。基本输入/输出系统(“BIOS”)可以以非易失性或类似方式存储。系统存储器109通常存储数据、计算机可执行指令和/或包括由一个或多个处理器107立即可访问和/或当前操作的计算机可执行指令的程序模块。本文中使用的术语“系统存储器”严格地是指物理制品等。大容量存储设备104和110可以耦合到计算设备101或者经由到系统总线的耦合被并入到计算设备101中。这样的大容量存储设备104和110可以包括非易失性RAM、从可移除非易失性磁盘(例如,“软盘”)105读取和/或向其写入的磁盘驱动器、和/或从诸如CDROM、DVDROM106等非易失性光盘读取和/或本文档来自技高网...

【技术保护点】
1.一种在包括至少一个处理器和存储器的至少一个计算设备上被执行的方法,所述方法包括:/n由所述至少一个计算设备训练深度强化学习(“DRL”)模型,其中所述训练基于训练文件的集合,其中所述集合中的每个训练文件与标签相关联,所述标签指示所述每个训练文件被认为是恶意的还是良性的,并且其中所述训练包括:/n由所述DRL模型从训练文件的所述集合中的每个文件处理多个事件状态,其中每个事件状态包括事件直方图,并且其中所述处理还包括考虑所述每个文件的所述标签;/n由所述至少一个计算设备执行文件的至少一部分;以及/n由所述至少一个计算设备响应于由已训练的所述DRL模型的决策而停止所述文件的所述至少一部分的所述执行。/n

【技术特征摘要】
【国外来华专利技术】20180524 US 15/988,7981.一种在包括至少一个处理器和存储器的至少一个计算设备上被执行的方法,所述方法包括:
由所述至少一个计算设备训练深度强化学习(“DRL”)模型,其中所述训练基于训练文件的集合,其中所述集合中的每个训练文件与标签相关联,所述标签指示所述每个训练文件被认为是恶意的还是良性的,并且其中所述训练包括:
由所述DRL模型从训练文件的所述集合中的每个文件处理多个事件状态,其中每个事件状态包括事件直方图,并且其中所述处理还包括考虑所述每个文件的所述标签;
由所述至少一个计算设备执行文件的至少一部分;以及
由所述至少一个计算设备响应于由已训练的所述DRL模型的决策而停止所述文件的所述至少一部分的所述执行。


2.根据权利要求1所述的方法,其中所述处理还包括将多个状态动作奖励元组存储在回放存储器中,其中每个这样的元组对应于所述事件状态中的一个事件状态。


3.根据权利要求2所述的方法,其中所述处理还包括从所述回放存储器随机选择状态动作奖励元组。


4.根据权利要求3所述的方法,其中所述处理还包括生成与所选择的所述状态动作奖励元组的状态相对应的一个或多个预期奖励。


5.根据权利要求3所述的方法,其中所述处理还包括生成与所选择的所述状态动作奖励元组的下一状态相对应的一个或多个预期奖励。


6.根据权利要求3所述的方法,其中所述处理还包括基于所选择的所述状态动作奖励元组来计算所述DRL模型的奖励函数的值。


7.根据权利要求6所述的方法,其中所述计算还基于与所选择的所述状态动作奖励元组的所述状态相对应的事件得分。


8.至少一种计算设备,包括:
至少一个处理器和被耦合到所述至少一个处理器并且包括计算机可执行指令的存储器,所述计算机可执行指令基于由所...

【专利技术属性】
技术研发人员:王昱J·W·斯托克斯三世A·M·马里尼斯库
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1