使用经训练的机器学习模型检测恶意文件的系统和方法技术方案

技术编号:20993058 阅读:24 留言:0更新日期:2019-04-29 22:53
本发明专利技术涉及一种使用经训练的机器学习模型检测恶意文件的系统和方法。所述系统可以包括括硬件处理器,所述硬件处理器被配置为:形成至少一个行为模式;计算所有行为模式的卷积;基于所述行为模式,从检测模型数据库中选择至少两个用于检测恶意文件的模型;基于对所述卷积和所述至少两个用于检测恶意文件的模型的分析,计算正在被执行的文件的有害性程度;基于所述有害性程度,形成决策模式;如果形成的所述决策模式与来自之前基于对恶意文件的分析而形成的决策模式数据库的至少一个预定的决策模式之间的相似度超过预定阈值,则将所述正在被执行的文件识别为恶意的。

A System and Method for Detecting Malicious Documents Using Trained Machine Learning Model

The invention relates to a system and method for detecting malicious files using a trained machine learning model. The system may include a hardware processor configured to form at least one behavior pattern, compute the convolution of all behavior patterns, select at least two models for detecting malicious files from the detection model database based on the behavior pattern, and analyze the convolution and at least two models for detecting malicious files. Calculate the degree of harmfulness of the file being executed; form a decision mode based on the degree of harmfulness; identify the file being executed as malicious if the similarity between the decision mode formed and at least one predetermined decision mode from the decision mode database previously formed based on the analysis of malicious files exceeds a predetermined threshold.

【技术实现步骤摘要】
使用经训练的机器学习模型检测恶意文件的系统和方法
本专利技术涉及防病毒技术,并且更具体地涉及使用经训练的机器学习模型检测恶意文件的系统和方法。
技术介绍
近十年来计算机技术的快速发展以及各种计算设备(个人计算机、笔记本电脑、平板电脑、智能手机等)的广泛普及,已经成为这些设备在各种活动领域和在大量任务(从网上冲浪到银行转账和电子文件交易)中的使用的强有力的推动力。在计算设备和在这些设备上运行的软件的数量增长的同时,恶意程序的数量也已快速增加。目前,存在大量各种各样的恶意程序。它们中的一些恶意程序从设备的用户窃取个人数据和机密数据(例如登录名和密码、银行信息、电子文档)。另一些恶意程序则使用户设备形成所谓的僵尸网络,用于如拒绝服务(DDoS)(DistributedDenialofService,分布式拒绝服务)的攻击,或者通过其它计算机或计算机网络上的暴力破解方法对密码进行破译。还有一些恶意程序通过侵入式广告、付费订阅、向收费号码发送SMS等向用户呈现付费内容。被称为防病毒程序的专用程序用于对抗恶意程序,所述对抗恶意程序包括检测恶意程序、防止感染、以及恢复已被恶意程序感染的计算设备的工作能力。防病毒程序采用各种技术来检测各种恶意程序,所述技术例如:●静态分析——基于构成正在被分析程序的文件中包含的数据(其中,可以在统计分析期间使用该数据),对程序进行有害性分析,包括正在被分析程序的运行或正在被分析程序的工作的仿真:o签名分析——从恶意程序签名数据库中搜索正在被分析程序的特定代码段与已知代码(签名)的对应关系;o白名单和黑名单——在恶意程序(黑名单)的校验和数据库或安全程序(白名单)的校验和数据库中搜索正在被分析程序(或正在被分析程序的一部分)的计算校验和;●动态分析——基于在正在被分析程序的执行或正在被分析程序的工作的仿真过程中获得的数据(其中,可以在动态分析期间使用该数据),对程序进行有害性分析:o启发式分析——对正在被分析程序的工作进行仿真,创建仿真日志(包含关于API函数调用的数据、传输的参数、正在被分析程序的代码段等)以及搜索创建的日志的数据与来自恶意程序的行为签名数据库的数据之间的对应关系;o主动保护——拦截已启动的正在被分析程序的API函数调用,创建正在被分析程序的行为的日志(包含关于API函数调用的数据、传输的参数、正在被分析程序的代码段等)以及搜索创建的日志的数据与来自恶意程序的调用数据库的数据之间的对应关系。静态分析和动态分析都有其优缺点。静态分析对正在被分析的计算设备的资源要求较低,并且由于静态分析不使用正在被分析程序的执行或仿真,因此统计分析更快,但同时效率更低,即,静态分析具有较低的恶意程序检测百分比和较高的误报(即,作出判定:由防病毒程序分析的文件是恶意的,反之其是安全的)百分比。动态分析,由于其使用在正在被分析程序的工作的执行或仿真期间获得的数据,因此速度较慢并且对正在被分析的计算设备的资源提出了较高的要求,但另一方面动态分析也更有效。现代防病毒程序采用全面的分析,包括静态分析和动态分析两者的要素。由于现代计算机安全性标准依赖于对恶意程序(尤其是新恶意程序)的操作响应,因此恶意程序的自动检测是关注的主要焦点。为了有效地运行这种软件,经常使用人工智能的要素和模型的机器教导的各种方法来检测恶意程序(即,用于基于描述恶意文件的特定输入数据的集合来做出关于文件有害性判定的规则的集合),从而不仅实现对众所周知的恶意程序或具有众所周知的恶意行为的恶意程序的有效检测,而且实现对具有未知或很少研究的恶意行为的新恶意程序的有效检测,以及实现有效适应(学习)以检测新恶意程序。尽管上述技术善于检测具有与已知恶意文件的特性特征类似的特定特性特征(即,描述来自特定文件组的文件的特定特性的数据,诸如图形界面的存在、数据加密、数据通过计算机网络的传输等)的恶意文件,但是上述技术无法处理对具有与已知恶意文件的特性特征(即使行为类似)不同的特性特征的恶意文件的检测。此外,上述技术没有公开模型的机器教导(如模型的测试和教导)、以及特性特征的训练和再训练(取决于上述测试的结果)这样的方面。本专利技术能够解决检测恶意文件的问题。
技术实现思路
本专利技术是为文件的防病毒扫描而设计的。本专利技术的技术结果是通过使用用于检测恶意文件的训练模型来检测恶意文件。本专利技术的另一技术结果是通过使用多个用于检测恶意文件的模型来提高检测恶意文件的准确度,所述多个用于检测恶意文件的模型中的每个模型已被训练用于检测具有特定的、之前确定的特性特征的恶意文件。本专利技术的又一技术结果是通过使用多个用于检测恶意文件的模型来提高检测恶意文件的速度,所述多个用于检测恶意文件的模型中的每个模型已被训练用于检测具有特定的、之前确定的特性特征的恶意文件。在一个方面,提供了一种通过使用用于检测恶意文件的经训练的模型检测恶意文件的系统,所述系统包括硬件处理器,所述硬件处理器被配置为:基于从正在被执行的文件的行为日志中选择的命令和参数,形成至少一个行为模式;计算形成的所有行为模式的卷积;基于从所述正在被执行的文件的所述行为日志中选择的所述命令和参数,从检测模型数据库中选择至少两个用于检测恶意文件的模型;基于对所述卷积和所述至少两个用于检测恶意文件的模型的分析,计算所述正在被执行的文件的有害性程度;基于所述有害性程度,形成决策模式;如果形成的所述决策模式与来自之前基于对恶意文件的分析而形成的决策模式数据库的至少一个预定的决策模式之间的相似度超过预定阈值,则将所述正在被执行的文件识别为恶意的。在该系统的另一方面,所述硬件处理器被配置为:形成所述正在被执行的文件的所述行为日志,所述行为日志被设计为至少在所述文件的执行期间拦截至少一个命令以及对所述文件的执行进行仿真;为每个被拦截的命令确定描述该命令的至少一个参数;以及基于所述被拦截的命令和确定的所述参数,形成所述文件的行为日志。在该系统的另一方面,从所述检测模型数据库中选择的每个用于检测恶意文件的模型都被训练用于检测具有特定的、之前确定的特性特征的恶意文件。在该系统的另一方面,所述硬件处理器还被配置为:如果形成的所述决策模式与来自所述决策模式数据库的至少一个预定的决策模式之间的相似度超过预定阈值,并且借助于那些用于检测恶意文件的模型计算出的所述有害性程度不超过预定阈值,则基于从所述正在被执行的文件的所述行为日志中选择的所述命令和参数,对来自所述检测模型数据库的至少一个检测模型进行再训练。在该系统的另一方面,所述行为模式包括至少一个命令和参数的集合,所述参数描述来自所述集合的所有命令。在该系统的另一方面,所述用于检测恶意文件的模型包括用于确定所述有害性程度的决策规则。在该系统的另一方面,所述硬件处理器还被配置为通过分析所述行为日志形成所述行为模式。在另一方面,提供了一种通过使用用于检测恶意文件的经训练的模型检测恶意文件的方法,所述方法包括:基于从正在被执行的文件的行为日志中选择的命令和参数,形成至少一个行为模式;计算形成的所有行为模式的卷积;基于从所述正在被执行的文件的所述行为日志中选择的所述命令和参数,从检测模型数据库中选择至少两个用于检测恶意文件的模型;基于对所述卷积和所述至少两个用于检测恶意文件的模型的分析,计算所述正在本文档来自技高网
...

【技术保护点】
1.一种通过使用用于检测恶意文件的经训练的模型检测恶意文件的系统,所述系统包括硬件处理器,所述硬件处理器被配置为:基于从正在被执行的文件的行为日志中选择的命令和参数,形成至少一个行为模式;计算形成的所有行为模式的卷积;基于从所述正在被执行的文件的所述行为日志中选择的所述命令和参数,从检测模型数据库中选择至少两个用于检测恶意文件的模型;基于对所述卷积和所述至少两个用于检测恶意文件的模型的分析,计算正在被执行的文件的有害性程度;基于所述有害性程度,形成决策模式;如果形成的所述决策模式与来自之前基于对恶意文件的分析而形成的决策模式数据库的至少一个预定的决策模式之间的相似度超过预定阈值,则将所述正在被执行的文件识别为恶意的。

【技术特征摘要】
2017.10.18 US 62/573,970;2018.10.02 US 16/149,2631.一种通过使用用于检测恶意文件的经训练的模型检测恶意文件的系统,所述系统包括硬件处理器,所述硬件处理器被配置为:基于从正在被执行的文件的行为日志中选择的命令和参数,形成至少一个行为模式;计算形成的所有行为模式的卷积;基于从所述正在被执行的文件的所述行为日志中选择的所述命令和参数,从检测模型数据库中选择至少两个用于检测恶意文件的模型;基于对所述卷积和所述至少两个用于检测恶意文件的模型的分析,计算正在被执行的文件的有害性程度;基于所述有害性程度,形成决策模式;如果形成的所述决策模式与来自之前基于对恶意文件的分析而形成的决策模式数据库的至少一个预定的决策模式之间的相似度超过预定阈值,则将所述正在被执行的文件识别为恶意的。2.根据权利要求1所述的系统,其中,所述硬件处理器被配置为:形成正在被执行的文件的所述行为日志,所述行为日志被设计为至少在所所述文件的执行期间拦截至少一个命令以及对所述文件的执行进行仿真;为每个被拦截的命令确定描述所述命令的至少一个参数;以及基于被拦截的所述命令和确定的所述参数,形成所述文件的行为日志。3.根据权利要求1所述的系统,其中,从所述检测模型数据库中选择的每个用于检测恶意文件的模型被训练用于检测具有特定的、之前确定的特性特征的恶意文件。4.根据权利要求1所述的系统,其中,所述硬件处理器还被配置为:如果形成的所述决策模式与来自所述决策模式数据库的至少一个预定的决策模式之间的相似度超过预定阈值,并且借助于那些用于检测恶意文件的模型计算出的所述有害性程度不超过预定阈值,则基于从所述正在被执行的文件的所述行为日志中选择的所述命令和参数,对来自所述检测模型数据库的至少一个检测模型进行再训练。5.根据权利要求1所述的系统,其中,所述行为模式包括至少一个命令和参数的集合,所述参数描述该集合中的所有命令。6.根据权利要求1所述的系统,其中,所述用于检测恶意文件的模型包括用于确定所述有害性程度的决策规则。7.根据权利要求2所述的系统,其中,所述硬件处理器还被配置为:通过分析所述行为日志形成所述行为模式。8.一种通过使用用于检测恶意文件的经训练的模型检测恶意文件的方法,所述方法包括:基于从正在被执行的文件的行为日志中选择的命令和参数,形成至少一个行为模式;计算形成的所有行为模式的卷积;基于从所述正在被执行的文件的所述行为日志中选择的所述命令和参数,从检测模型数据库中选择至少两个用于检测恶意文件的模型;基于对所述卷积和所述至少两个用于检测恶意文件的模型的分析,计算正在被执行的文件的有害性程度;基于所述有害性程度,形成决策模式;如果形成的所述决策模式与来自之前基于对恶意文件的分析而形成的决策模式数据库的至少一个预定的决策模式之间的相似度超过预定阈值,则将所述正在被执行的文件识别为恶意的。9.根据权利要求8所述的方法,所述硬件处理器被配置为:形成正在被执行的文件的所述行为日志,所述行为日志被设计为至少在所所述文件的执行期间拦截至少一个命令以及对所述文件的执行进行仿真...

【专利技术属性】
技术研发人员:亚历山大·S·奇斯特亚科夫叶卡捷琳娜·M·洛巴切瓦阿列克谢·M·罗曼恩科
申请(专利权)人:卡巴斯基实验室股份制公司
类型:发明
国别省市:俄罗斯,RU

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1