【技术实现步骤摘要】
【国外来华专利技术】针对用于检测恶意软件的深度强化学习技术的训练技术
技术介绍
尽管在计算机安全和消除安全威胁的工具方面进行了数十年的研究,但是用户和组织仍然依赖于尝试使用一些主要策略来检测恶意软件的商业恶意软件产品。首先,基于恶意软件“签名”的静态分析被用于搜索文件或进程以查找恶意代码序列。接下来,动态分析被用于通常在隔离空间中仿真文件的执行。这种仿真可能不包含完整的虚拟机(“VM”)。相反,仿真器可以模仿典型操作系统的响应。如果系统在仿真文件时可以检测到恶意行为,则系统可以阻止在本机操作系统上的执行并且将文件标识为恶意文件。结果,可以避免感染计算机。如果系统无法在仿真过程中检测到恶意行为,则文件可以在计算机上安装和/或执行。在安装之后,无论何时在计算机上执行文件,恶意系统通常都会继续监测文件的动态行为。如果恶意系统在计算机上检测到恶意文件,则通常会采取一项或多项措施来保护计算机免受该文件的侵害。
技术实现思路
本节中提供的概述总结了本文中描述的技术的一个或多个部分或完整的示例实施例,以便向读者提供基本的高级理解。本概述不是对技术的广泛描述,并且可能无法标识技术的关键要素或方面,也不界定技术的范围。其唯一目的是以简化的形式呈现技术的各个方面,作为下面提供的详细描述的序言。整体上,这些技术不应当限于本文中提供的任何特定实施例或示例或其组合。此处公开的计算机相关技术主要涉及一种基于深度强化学习(“DRL”)的新颖专利技术,该专利技术用于训练DRL系统以检测用于停止文件执行的最佳时间,以确定是否文件是恶意还是良性。所得到的DRL神经网络(“NN”)与 ...
【技术保护点】
1.一种在包括至少一个处理器和存储器的至少一个计算设备上被执行的方法,所述方法包括:/n由所述至少一个计算设备训练深度强化学习(“DRL”)模型,其中所述训练基于训练文件的集合,其中所述集合中的每个训练文件与标签相关联,所述标签指示所述每个训练文件被认为是恶意的还是良性的,并且其中所述训练包括:/n由所述DRL模型从训练文件的所述集合中的每个文件处理多个事件状态,其中每个事件状态包括事件直方图,并且其中所述处理还包括考虑所述每个文件的所述标签;/n由所述至少一个计算设备执行文件的至少一部分;以及/n由所述至少一个计算设备响应于由已训练的所述DRL模型的决策而停止所述文件的所述至少一部分的所述执行。/n
【技术特征摘要】
【国外来华专利技术】20180524 US 15/988,7981.一种在包括至少一个处理器和存储器的至少一个计算设备上被执行的方法,所述方法包括:
由所述至少一个计算设备训练深度强化学习(“DRL”)模型,其中所述训练基于训练文件的集合,其中所述集合中的每个训练文件与标签相关联,所述标签指示所述每个训练文件被认为是恶意的还是良性的,并且其中所述训练包括:
由所述DRL模型从训练文件的所述集合中的每个文件处理多个事件状态,其中每个事件状态包括事件直方图,并且其中所述处理还包括考虑所述每个文件的所述标签;
由所述至少一个计算设备执行文件的至少一部分;以及
由所述至少一个计算设备响应于由已训练的所述DRL模型的决策而停止所述文件的所述至少一部分的所述执行。
2.根据权利要求1所述的方法,其中所述处理还包括将多个状态动作奖励元组存储在回放存储器中,其中每个这样的元组对应于所述事件状态中的一个事件状态。
3.根据权利要求2所述的方法,其中所述处理还包括从所述回放存储器随机选择状态动作奖励元组。
4.根据权利要求3所述的方法,其中所述处理还包括生成与所选择的所述状态动作奖励元组的状态相对应的一个或多个预期奖励。
5.根据权利要求3所述的方法,其中所述处理还包括生成与所选择的所述状态动作奖励元组的下一状态相对应的一个或多个预期奖励。
6.根据权利要求3所述的方法,其中所述处理还包括基于所选择的所述状态动作奖励元组来计算所述DRL模型的奖励函数的值。
7.根据权利要求6所述的方法,其中所述计算还基于与所选择的所述状态动作奖励元组的所述状态相对应的事件得分。
8.至少一种计算设备,包括:
至少一个处理器和被耦合到所述至少一个处理器并且包括计算机可执行指令的存储器,所述计算机可执行指令基于由所...
【专利技术属性】
技术研发人员:王昱,J·W·斯托克斯三世,A·M·马里尼斯库,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。