当前位置: 首页 > 专利查询>西兰克公司专利>正文

使用阶跃函数、位置相关噪声的机器学习模型分数模糊化制造技术

技术编号:32506359 阅读:20 留言:0更新日期:2022-03-02 10:25
制品被接收。从该制品中提取特征,该特征又用于填充向量。然后将该向量输入到分类模型中以生成分数。然后使用阶跃函数修改分数,使得真实分数不被模糊。此后,可以将修改的分数提供给消费应用或过程。还描述了相关的装置、系统、技术和物品。技术和物品。技术和物品。

【技术实现步骤摘要】
【国外来华专利技术】使用阶跃函数、位置相关噪声的机器学习模型分数模糊化
[0001]相关申请
[0002]本申请要求于2019年4月30日提交的美国专利申请系列号16/399,677,美国专利申请系列号16/399,718,美国专利申请系列号16/399,735,美国专利申请系列号16/399,701和美国专利申请系列号16/399,665中的每一个的优先权,这些专利申请的内容全部通过引用并入于此。


[0003]本文描述的主题涉及用于使用阶跃函数(step function)使机器学习模型的输出模糊的技术。

技术介绍

[0004]机器学习和其他类型的人工智能模型正在跨不同的应用和行业越来越多地部署。这样的模型提供了可以基于例如具有已知结果或特征的历史数据的分类。由这样的模型提供的分类(即,模型输出等)可以采取各种形式,包括布尔输出(例如,好/坏等),数值分数(例如,0.00到1,1到100等)或分组(例如,汽车,行人,人行横道等)。利用一些软件实现,即使在较大工作流的一部分时也可以截取这种模型的输出。这种拦截可以允许恶意行为者通过重复地提供样本输入数据直到接收到期望的分类(即使这种分类最终不准确)来操纵这种模型的分类。

技术实现思路

[0005]制品被接收。特征从该制品中被提取,该特征又用于填充向量。然后该向量被输入到分类模型中以生成分数。然后分数使用阶跃函数被修改,使得真实分数不被模糊。此后,修改的分数能够被提供给消费应用或过程。
[0006]在一些变型中,向量中的特征可以在其被输入到分类模型中之前被减少。例如,特征可以使用随机投影矩阵、主成分分析或其他技术而被减少。
[0007]分类模型可以是使用训练数据集训练的、并且提供连续标度输出的机器学习模型。
[0008]分类模型可以将制品表征为对于访问、执行或继续执行是恶意的或良性的。如果制品被分类模型认为是恶意的,则可以防止对制品的访问或执行。
[0009]机器学习模型可以包括以下一种或多种:逻辑回归模型,神经网络,并发神经网络,递归神经网络,生成式对抗性网络,支持向量机,随机森林或贝叶斯模型。
[0010]阶跃函数可以将各种类型的噪声应用于分数,包括例如位置相关噪声。可以应用结合了阶跃函数的不同类型的阶跃函数/算法。
[0011]还描述了存储指令的非瞬态计算机程序产品(即,物理上体现的计算机程序产品),指令在由一个或多个计算系统的一个或多个数据处理器执行时使至少一个数据处理器执行本文中的操作。类似地,还描述了可以包括一个或多个数据处理器和耦合到该一个
或多个数据处理器的存储器的计算机系统。存储器可以临时或永久地存储使至少一个处理器执行这里描述的一个或多个操作的指令。此外,方法可以由单个计算系统内或分布在两个或更多个计算系统之间的一个或多个数据处理器来实现。这样的计算系统可以经由一个或多个连接,包括但不限于经由网络(例如,因特网,无线广域网,局域网,广域网,有线网络等)的连接,经由多个计算系统中的一个或多个之间的直接连接等来连接并且可以交换数据和/或命令或其他指令等。
[0012]本文描述的主题提供了许多技术优点。例如,当前主题提供了用于使AI/机器学习模型的输出模糊的增强技术。这种模糊化对于诸如恶意软件检测之类的应用尤其重要,因为它防止恶意行为者迭代地修改恶意文件或代码,直到该模型将这种文件或代码分类为安全执行或以其他方式访问的时候为止。
[0013]在附图和以下描述中阐述了本文所述主题的一个或多个变型的细节。所述主题的其他特征和优点将从说明书和附图以及从权利要求书中显而易见。
附图说明
[0014]图1是示出用于使来自分类模型的分数模糊的第一计算机实现的工作流的过程流程图;
[0015]图2是示出使用阶跃函数使来自分类模型的分数模糊的第一示例的示图;
[0016]图3是示出使用阶跃函数使来自分类模型的分数模糊的第二示例的示图;
[0017]图4是说明真实分数对模糊分数的示图;
[0018]图5是示出用于使来自分类模型的分数模糊的第二计算机实现的工作流的过程流程图;以及
[0019]图6是示出可以用于实现本主题的各方面的计算设备的示图。
具体实施方式
[0020]本主题涉及用于使基于软件的分类器的输出模糊的技术。在这点上,分类器可以是AI/机器学习模型,其输出表征到这种模型的输入的至少一个值。虽然当前主题提供了与用于检测恶意软件(“恶意软件”)的模型有关的示例,但是应当理解,除非另有说明,否则当前主题可以应用于利用包括例如自主交通工具导航系统、图像分析系统、生物计量安全系统、视频游戏欺骗规避系统等的模型的其他应用/工作流。
[0021]在一些情况下,分类模型的输出可以被恶意行为者截取并利用,作为对抗性攻击的一部分。例如,可以访问在执行分类模型的客户端和远程服务器之间交换的数据,使得可以对输入到分类模型中的数据(例如,文件、代码、制品等)做出小的改变,直到获得期望的结果(从恶意行为者的观点来看)为止。例如,恶意行为者可以自动地或通过手动修改来对封装恶意代码的文件做出小的改变,直到分类模型确定这种文件对于执行或以其他方式访问是安全的时候为止。
[0022]图1是示出了与用于分数模糊化的当前技术一起使用的示例计算机实现的工作流的过程流程图100。最初,可以接收(例如,从远程计算系统访问、加载、接收等)制品110。制品110可以是文件、文件的一部分、表征文件的元数据和/或源代码。该制品110可以由观察者解析或以其他方式处理。特别地,观察者可以从制品中提取120特征(有时称为属性或观
察结果),并将这些特征向量化130。此外,根据向量内特征的复杂度和/或数量,可以对该向量执行特征减少操作140,其减少这种向量的维数。特征减少操作140可以利用各种技术,包括但不限于主成分分析和随机投影矩阵,以减少向量内提取的特征的数量,同时当输入到分类模型150中时保持有用(即,用于分类目的等)。分类模型150可以采取许多形式,包括但不限于逻辑回归模型、神经网络(包括并发神经网络、递归神经网络、生成式对抗性网络等)、支持向量机、随机森林、贝叶斯模式等。分类模型150的输出可以是分数160,如下面进一步详细描述的,其可以被模糊170。如这里所使用的,除非另外指明,否则分数可以是数值,分类类型或集群,或其他字母数字输出,其进而可以由消费过程180或应用使用以采取某种后续动作。在一些变型中,在180处,向消费分数的实体提供所利用的阶跃函数,使得可以确定基础分数(即,逆向工程等)。在一些变型中,模糊分数可以由消费分数的实体在180处直接消费。对于恶意软件应用,该分数可以用于确定是否访问、执行、继续执行、隔离、或采取将防止软件和/或计算系统被恶意代码或封装在制品170内的其他信息感染或以其他方式渗入的某种其他补救动作。
[0023]图1进一步示出了分数190的截取。例如,当消费应用的API已知时,可以发生这种拦截;通过利用链接、nm、objdump来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:接收制品;从所述制品提取特征并填充向量;将所述向量输入到分类模型中以生成分数;使用阶跃函数修改所述分数;以及将修改的所述分数提供给消费应用或过程。2.根据权利要求1所述的方法,还包括在到所述分类模型中的所述输入之前减少所述向量中的特征。3.根据权利要求2所述的方法,其中所述特征使用随机投影矩阵而被减少。4.根据权利要求2所述的方法,其中所述特征是使用主成分分析而被简化的。5.根据前述权利要求中的任一项所述的方法,其中所述分类模型是使用训练数据集而被训练的、并且提供连续标度输出的机器学习模型。6.根据前述权利要求中的任一项所述的方法,其中所述分类模型将所述制品表征为对访问、执行或继续执行是恶意的或良性的。7.根据权利要求6的方法,还包括:当所述分类模型将所述制品表征为恶意的时,防止对所述制品的访问或执行。8.根据前述权利要求中的任一项所述的方法,其中所述机器学习模型包括以下一项或多项:逻辑...

【专利技术属性】
技术研发人员:H
申请(专利权)人:西兰克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1