通过分析已知和/或未知网络安全威胁的形态来检测数据异常的系统和方法技术方案

技术编号:30728528 阅读:18 留言:0更新日期:2021-11-10 11:30
本文描述了用于检测异常数据文件并防止检测到的异常数据文件存储在数据储存设备中的系统和方法。特别地,该系统和方法通过以下来检测异常数据文件:将每个数据文件划分为数据块,从而为每个数据块获得熵值,并对这种信息进行整理,然后将其用于机器学习模型中以确定数据文件的安全级别。定数据文件的安全级别。定数据文件的安全级别。

【技术实现步骤摘要】
【国外来华专利技术】通过分析已知和/或未知网络安全威胁的形态来检测数据异常的系统和方法


[0001]本专利技术涉及用于检测异常数据文件并防止检测到的异常数据文件存储在数据储存设备中的系统和方法。特别地,该系统和方法通过以下方式来检测异常数据文件:将每个数据文件划分为数据块,从而为每个数据块获取熵值,并对这种信息进行整理,然后将其用于机器学习模型中以确定数据文件的安全性水平。

技术介绍

[0002]在当今的数字时代,计算机系统日益遭受各种形式和类型的恶意网络攻击。这些攻击的目的是非法获得对计算机系统的访问权限,并且通常是通过在系统管理员并不知情的情况下安装在计算机系统中的流氓软件(也称为“恶意软件(malware)”)来进行的。恶意软件可以通过多种方式从计算机网络(例如电子邮件或网站)、通过插入系统的CD

ROM或通过连接到系统的外部存储设备中安装在计算机系统中。一旦恶意软件获得对系统的访问权限,它就会通过损害系统的安全性(例如,通过创建后门)、访问敏感信息、删除关键文件而造成毁灭性破坏,从而导致系统故障。
[0003]通常认为,一旦安装了恶意软件,它将变得更加难以检测,这使得攻击者可以轻松地破坏计算机系统。
[0004]为了解决这个问题,本领域技术人员已经提出在允许恶意软件或数据感染计算机系统之前对其进行识别。一旦被识别,就可以对恶意软件进行分类,以便可以更好地理解和防止恶意软件可能再次造成的损害程度。在已经提出的用于识别恶意软件的各种技术中,包括时间分析方法和实时更新方法,它们随后被用于更新数据库,以便该数据库可用于过滤已知的恶意实体以免影响受保护的计算机系统。
[0005]最初,最明显的方法是让系统管理员在程序运行时手动分析可疑程序。管理员然后观察结果以确定该程序是被视为恶意软件还是受信任的软件。在管理员对程序进行分析期间,管理员可以对程序进行反编译以调查特定的代码行,或特别注意与计算机系统和/或外部联络进行交互的应用程序接口(API)调用,以确定这些调用是否指示恶意行为。尽管这种方法可能是详尽且详细的,但它非常耗时且效率低下。因此,本领域技术人员提出了替代的自动化方法。
[0006]在时间分析方法中,将根据时间对受影响系统中的所有活动进行分类和查看,以便可以仔细检查在特定时间段内发生的可疑事件。此类事件可能包括:在该时间段内,访问/安装/删除/修改的文件、用户条目日志、已启动或终止的进程(包括后台进程)、被远程访问的网络端口等。一旦检测到允许安装恶意软件的事件,便可以相应地更新计算机系统的威胁分类系统,以防止此类事件再次发生。
[0007]查看静态历史数据(例如文件和事件日志)的替代方法是实时更新方法,该方法可在计算机系统使用时检查实时程序、程序运行时的系统内存内容、当前的网络端口活动以及其他类型的元数据,以便识别攻击者如何对其进行了修改。从此方法获得的信息然后可
用于更新系统的威胁分类系统。
[0008]然后,更新的威胁分类系统可以用于查看要引入系统的新文件。通过将新文件的特征与其已知的、先前遇到的文件的数据库进行比较来完成此操作。通常通过对要比较的数据进行加密散列(cryptographically hash),即通过应用数学函数将数据转换为紧凑的数字表示来完成这种比较。然后假设如果使用相同算法生成的两个哈希值不同,则意味着新文件可能已被破坏。
[0009]上面提出的方法的缺点是它们不能防止零日漏洞类型的恶意软件影响计算机系统,并且仅用于防止先前已检测到的同一恶意软件的再次发生。换句话说,如果对这些恶意软件进行了微小的修改,则很有可能恶意软件会越过系统的防御并影响计算机系统。
[0010]已提出的用于识别潜在受损计算机系统上可疑活动的其他技术通常会生成大量数据,在将其用于更新威胁分类系统之前,必须对所有数据进行查看和解释。更为复杂的是,恶意软件本身也在通过采用各种方法来伪装它们的存在而不断发展、开发出新方法来规避现有的检测方法,从而使计算机安全系统的工作更加困难。其中一些技术包括删除其进入系统的指示符,例如系统的日志文件条目、文件修改/访问日期和系统进程。除上述内容外,还可以通过更改恶意软件的名称或执行配置文件来混淆恶意软件本身的身份,从而使其看起来是非常无害的,从而有效地伪装了恶意软件。
[0011]但是,当对数据进行加密、压缩或混淆(取决于混淆方法)时,其熵值或随机性度量往往会高于“有组织的”数据。换句话说,用户生成的文档和计算机程序通常倾向于以结构化的有组织的方式进行调试,而加密数据倾向于具有很大程度的熵。
[0012]人们普遍认为,熵的度量并不是识别恶意软件或攻击者隐藏数据存储的有保证的方法。有效程序可能具有存储在计算机系统上的加密信息或(更常见的是)压缩信息。但是,从最基本的角度来看,熵的检查确实提供了用于识别潜在有问题的程序的出色的初始过滤器。这样,可以大大减少需要详细分析的数据量。
[0013]但是,由于为数据块生成熵值的方式,当实际上该数据块的某些部分可能包含小的混淆的恶意软件块时,数据块可能会返回较低的熵值。这种情况可能会发生在攻击者将加密的恶意软件以相对较低的熵放置在数据块中,从而有效地掩盖了恶意软件的存在时。
[0014]鉴于上述情况,最希望一种技术来获得可靠的熵度量以便检测计算机系统中恶意软件的存在,同时减少在检测过程中生成的误报数量。
[0015]由于上述原因,本领域技术人员不断地努力提出一种能够为数据文件生成合适的熵值的系统和方法,从而将这些熵值和有关数据文件的其他信息提供给受监督的机器学习模型,以便在将此类文件存储在计算机系统的存储设备中之前检测并识别异常数据文件。

技术实现思路

[0016]通过根据本专利技术的实施例提供的系统和方法,解决了上述和其他问题,并在本领域取得了进步。
[0017]根据本专利技术的系统和方法的实施例的第一优点是,可以有效地且高效地识别零日漏洞类型的异常文件。
[0018]根据本专利技术的系统和方法的实施例的第二优点是,尚未被标记或识别为威胁的异常文件将被阻止,并且该信息将用于训练系统的威胁标识符以防止此类恶意软件的演变。
[0019]根据本专利技术的系统和方法的实施例的第三优点是,不管引入到系统中的文件的类型如何,都将对文件进行分析以确定其威胁值。
[0020]根据本专利技术的系统和方法的实施例的第四优点是,不管引入到系统中的文件的类型和/或大小(并且可能不包含任何数据文件)如何,都将对由该文件发起的任何读/写/覆盖命令进行分析,因为数据闪存控制器的前端管理器将被配置为不断采样该文件执行的命令。采样周期可在几百毫秒到几十秒之间变化,这样做可以防止系统受到勒索软件攻击。
[0021]通过以以下方式操作的根据本专利技术的方法的实施例提供以上优点。
[0022]根据本专利技术的第一方面,公开了一种用于检测接收到的数据对象中的数据异常的系统,该系统包括:处理单元;以及非暂时性介质,其能由所述处理单元读取,所述介质存储指令,所述指令在由所述处理单元执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于检测接收到的数据对象中的数据异常的系统,所述系统包括:处理单元;以及非暂时性介质,其能由所述处理单元读取,所述介质存储指令,所述指令在由所述处理单元执行时,使所述处理单元:基于数字签名和所述数据对象的文件类型来确定所述数据对象的安全态势;基于所述安全态势和与所述安全态势相关联的所述数据对象的特征来生成类型安全平台(TSP)查找表,并基于TSP查找表为接收到的数据对象生成混淆值和取证值;为所述数据对象生成反汇编值或解释值;为接收到的数据对象的每个块计算结果值,从而基于所述反汇编值或解释值、与接收到的数据对象的所述块相关联的混淆值和取证值来为每个块生成所述结果值;基于所述数据对象的所有结果值来创建数据模型;以及使用人工智能(AI)算法处理所述数据模型,以确定所述数据对象是否包含数据异常。2.根据权利要求1所述的系统,其中,所述用于为接收到的数据对象生成混淆值的指令包括用于指示所述处理单元执行以下操作的指令:将所述数据对象划分为数据块;以及为每个数据块计算香农熵值。3.根据权利要求1或2中任一项所述的系统,其中,所述用于为接收到的数据对象生成取证值的指令包括用于指示所述处理单元执行以下操作的指令:将所述数据对象划分为数据块;以及使用基于频率的相似性哈希方案,为每个数据块计算相似性分数。4.根据权利要求1所述的系统,其中,所述用于为接收到的数据对象的每个块生成结果值的指令包括用于指示所述处理单元执行以下操作的指令:为接收到的数据的每个块生成包括三个字节的结果值,从而对于每个块,所述指令指示所述处理单元来:基于所述数据对象的反汇编值或解释值来设置所述结果值的第一字节的最高有效位(MSB)和第二MSB;解析所述结果值的所述第一字节的剩余位和第二字节,并基于与所述块相关联的混淆值来设置解析结果;以及基于与所述块相关联的取证值来设置第三字节的值。5.根据权利要求1所述的系统,其中,所述用于基于所述数据对象的所有结果值来创建数据模型的指令包括用于指示所述处理单元执行以下操作的指令:生成数据图像模型,从而使所述数据图像模型中的每个像素与唯一结果值相关联,其中,每个唯一结果值在所述数据图像模型中由唯一图像表示。6.根据权利要求5所述的系统,其中,用于处理所述数据模型的所述AI算法包括:卷积神经网络(CNN)模型、深度神经网络(DNN)模型或递归神经网络(RNN)模型。7.根据权利要求1所述的系统,其中,所述用于使用人工智能(AI)算法处理所述数据模型的指令包括用于指示所述处理单元执行以下操作的指令:将所述数据模型与数据库中包含的数据模型进行比较,其中,所述比较使用机器学习算法而被执行。
8.根据权利要求1所述的系统,其中,所述介质还包括用于指示所述处理单元执行以下操作的指令:提供被配置为接收和存储所述数据对象的虚拟文件系统,从而所述虚拟文件系统使所述处理单元执行所述虚拟文件系统内的所有步骤。9.根据权利要求1所述的系统,其中,所述数字签名包括与所述数据对象相关联的幻数。10.根据权利要求1所述的系统,其中,与所述安全态势相关联的所述数据对象的所述特征包括所述数据对象的平台类型和文件类型。11.一种使用人工智能(AI)模块检测接...

【专利技术属性】
技术研发人员:陈美玲尼扎
申请(专利权)人:丰立有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1