用于基于不纯数据来训练神经网络的方法和系统技术方案

技术编号:37891022 阅读:19 留言:0更新日期:2023-06-18 11:54
本公开实施例涉及用于基于不纯数据来训练神经网络的方法和系统。用于训练神经网络的方法和系统。在第一训练阶段中,使用包括信号和噪声的第一训练集合来训练粗机器学习单类别分类器,以及使用排除该信号的第二训练集合来训练噪声机器学习单类别分类器。将包括噪声机器学习单类别分类器和粗机器学习单类别分类器的模型的组合应用于第一训练集合,以创建表示第二训练阶段的信号的第三训练集合。在第二训练阶段中,使用表示该信号的第三训练集合来训练最终机器学习单类别分类器。来训练最终机器学习单类别分类器。来训练最终机器学习单类别分类器。

【技术实现步骤摘要】
用于基于不纯数据来训练神经网络的方法和系统


[0001]本申请一般涉及神经网络,并且更具体地涉及基于不纯(“impure”)数据来训练神经网络。

技术介绍

[0002]异常检测在许多领域中是至关重要的,包括恶意软件检测,视频监控和网络监测。
[0003]在异常检测领域中,用于训练神经网络模型以检测异常的方法通常依赖于无监督学习模型,该无监督学习模型需要用于训练的巨大的数据集。由于在这些巨大的数据集中可能存在大量的噪声,这些模型可能不是稳健的。此外,处理巨大的数据集还可能需要大量的计算资源。
[0004]提供增强的神经网络模型的稳健性和用于训练神经网络模型的更有效的系统和方法将是有利的。
附图说明
[0005]现在将通过示例的方式参考示出本申请的示例实施例的附图,并且其中:
[0006]图1示出了说明示例实施例的操作环境的示意图;
[0007]图2是说明图1的计算设备的示例实施例的组件的框图;
[0008]图3以框图形式示出了计算设备的示例数据设施;
[0009]图4示意性地示出了预处理的各个阶段中的训练数据的示例;
[0010]图5是示出其中可实现根据本描述的方法和设备的简化示例计算设备500的框图;
[0011]图6示出了开发神经网络模型的简化示例方法的流程图;以及
[0012]图7示出了创建细化训练集合的简化示例方法的流程图;以及
[0013]图8示出了检测不纯数据中的信号的简化示例方法的流程图。
[0014]在不同的附图中使用相似的附图标记来表示相似的组件。
具体实施方式
[0015]在第一方面,本申请描述了一种训练神经网络的计算机实现的方法。该方法可以包括:在第一训练阶段中,使用包括信号和噪声的第一训练集合来训练粗机器学习单类别(“one

class”)分类器;使用排除该信号的第二训练集合来训练噪声机器学习单类别分类器;将包括噪声机器学习单类别分类器和粗机器学习单类别分类器的模型的组合应用于第一训练集合,以创建表示用于第二训练阶段的信号的第三训练集合;以及在第二训练阶段中使用表示该信号的第三训练集合来训练最终机器学习单类别分类器。
[0016]在一些实现中,最终机器学习单类别分类器可以包括自动编码器

解码器。
[0017]在一些实现中,最终机器学习单类别分类器可以包括长短期记忆自动编码器

解码器。
[0018]在一些实现中,表示信号的第三训练集合可以包括可由粗分类器检测但不可由噪
声分类器检测的信息。
[0019]在一些实现中,应用模型的组合可以包括标识可由粗分类器检测但不可由噪声分类器检测的数据点;以及聚合所标识的数据点以创建表示信号的第三训练集合。
[0020]在一些实现中,最终机器学习单类别分类器能够检测或被配置为检测使用第一操作系统收集的信息中的信号,该第一操作系统不同于被用于收集排除该信号的第二训练集合的第二操作系统。
[0021]在一些实现中,第一训练阶段可以包括使用多个训练集合中的相应训练集合来训练多个机器学习单类别分类器中的每个特定分类器,其中多个训练集合中的每个特定训练集合可以包括信号和噪声,并且其中多个粗机器学习单类别分类器可以包括粗机器学习单类别分类器,并且多个训练集合可以包括第一训练集合,并且模型的组合可以包括多个粗机器学习单类别分类器。
[0022]在一些实现中,该方法还可以包括将模型的组合应用于多个训练集合,以创建表示用于第二训练阶段的信号的第三训练集合,其中将模型的组合应用于多个训练集合包括将模型的组合应用于第一训练集合。
[0023]在一些实现中,将模型的组合应用于多个训练集合可以包括将多个粗机器学习单类别分类器中的每个特定分类器应用于多个训练集合中的每个特定训练集合;以及将噪声机器学习单类别分类器应用于多个训练集合中的每个特定训练集合。
[0024]在另一方面,可以提供一种用于训练神经网络的系统。系统可以包括处理器和被耦合到处理器并且存储处理器可读指令的存储器,处理器可读指令在被执行时使处理器在第一训练阶段中使用包括信号和噪声的第一训练集合来训练粗机器学习单类别分类器;使用排除信号的第二训练集合来训练噪声机器学习单类别分类器;将包括噪声机器学习单类别分类器和粗机器学习单类别分类器的模型的组合应用于第一训练集合,以创建表示用于第二训练阶段的信号的第三训练集合;以及在第二训练阶段中使用表示信号的第三训练集合来训练最终机器学习单类别分类器。
[0025]在一些实施例中,处理器还可以被配置为:在第一训练阶段中,使用多个训练集合中的相应训练集合来训练多个粗机器学习单类别分类器中的每个特定分类器,其中多个训练集合中的每个特定训练集合可以包括信号和噪声,其中多个粗机器学习单类别分类器可以包括粗机器学习单类别分类器,并且多个训练集合可以包括第一训练集合,并且其中模型的组合可以包括多个粗机器学习单类别分类器。
[0026]在一些实施例中,处理器还可以被配置为将模型的组合应用于多个训练集合,以创建表示用于第二训练阶段的信号的第三训练集合,其中将模型的组合应用于多个训练集合可以包括将模型的组合应用于第一训练集合。
[0027]在一些实施例中,其中在被执行时可以使处理器将模型的组合应用于多个训练集合的指令,还可以使处理器将多个粗机器学习单类别分类器中的每个特定分类器应用于多个训练集合中的每个特定训练集合;以及将噪声机器学习单类别分类器应用于多个训练集合中的每个特定训练集合。
[0028]在又一方面中,可以提供一种对恶意行为进行指纹识别的计算机实现的方法。该方法可以包括:在第一训练阶段中,训练粗机器学习单类别分类器以检测第一事件数据集,第一事件数据集包括表示恶意行为的事件数据集和表示非恶意行为的事件数据集;以及训
练良性机器学习单类别分类器以检测第二事件数据集,第二事件数据集排除表示恶意活动的事件数据集;将包括良性机器学习单类别分类器和粗机器学习单类别分类器的模型的组合应用于第一事件数据集,以创建表示针对第二训练阶段的恶意行为的第三训练集合;以及在第二训练阶段中使用表示恶意行为的第三训练集合来训练最终机器学习单类别分类器,该最终机器学习单类别分类器表示恶意行为的指纹。
[0029]在一些实现中,该方法还可以包括将最终机器学习单类别分类器应用于样本事件数据集,以评估样本事件数据集是否包括恶意行为。
[0030]在一些实现中,该方法还可以包括在与恶意行为相对应的恶意软件未运行或执行时收集第二事件数据集。
[0031]在一些实现中,第一事件数据集可以包括系统调用事件跟踪。
[0032]在一些实现中,第一事件数据集可以包括系统范围的跟踪,该系统范围的跟踪包括与多个非恶意过程相对应的数据。
[0033]在一些实现中,最终机器学习单类别分类器能够确定或被配置为确定数据是否包括关于恶意软件类别的行为的事件数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练神经网络的计算机实现的方法,所述方法包括:在第一训练阶段中:使用包括信号和噪声的第一训练集合来训练粗机器学习单类别分类器;以及使用排除所述信号的第二训练集合来训练噪声机器学习单类别分类器;将包括所述噪声机器学习单类别分类器和所述粗机器学习单类别分类器的模型的组合应用于所述第一训练集合,以创建表示用于第二训练阶段的所述信号的第三训练集合;以及在所述第二训练阶段中使用表示所述信号的所述第三训练集合来训练最终机器学习单类别分类器。2.根据权利要求1所述的方法,其中所述最终机器学习单类别分类器包括自动编码器

解码器。3.根据权利要求1所述的方法,其中所述最终机器学习单类别分类器包括长短期记忆自动编码器

解码器。4.根据权利要求1所述的方法,其中表示所述信号的所述第三训练集合包括由所述粗分类器可检测但由所述噪声分类器不可检测的信息。5.根据权利要求1所述的方法,其中应用所述模型的组合包括:标识由所述粗分类器可检测但由所述噪声分类器不可检测的数据点;以及聚合经标识的所述数据点,以创建表示所述信号的所述第三训练集合。6.根据权利要求1所述的方法,其中所述最终机器学习单类别分类器能够检测使用第一操作系统而被收集的信息中的所述信号,所述第一操作系统不同于被用于收集排除所述信号的所述第二训练集合的第二操作系统。7.根据权利要求1所述的方法,还包括:在所述第一训练阶段中,使用多个训练集合中的相应训练集合来训练多个粗机器学习单类别分类器中的每个特定分类器,所述多个训练集合中的每个特定训练集合包括所述信号和噪声,其中所述多个粗机器学习单类别分类器包括所述粗机器学习单类别分类器,并且所述多个训练集合包括所述第一训练集合,并且其中所述模型的组合包括所述多个粗机器学习单类别分类器。8.根据权利要求7所述的方法,还包括:将所述模型的组合应用于所述多个训练集合,以创建表示用于所述第二训练阶段的所述信号的所述第三训练集合,其中将所述模型的组合应用于所述多个训练集合包括:将所述模型的组合应用于所述第一训练集合。9.根据权利要求7所述的方法,其中将所述模型的组合应用于所述多个训练集合包括:将所述多个粗机器学习单类别分类器中的每个特定分类器应用于所述多个训练集合中的每个特定训练集合;以及将所述噪声机器学习单类别分类器应用于所述多个训练集合中的每个特定训练集合。10.一种用于训练神经网络的系统,所述系统包括:处理器;存储器,存储处理器可执行指令,所述处理器可执行指令在由所述处理器执行时使所述处理器:
在第一训练阶段中:使用包括信号和噪声的第一训练集合来训练粗机器学习单类别分类器;以及使用排除所述信号的第二训练集合来训练噪声机器学习单类别分类器;将包括所述噪声机器学习单类别分类器和所述粗机器学习单类别分类器的模型的组合应用于所述第一训练集合,以创建表示用于第二训练阶段的所述信号的第三训练集合;以及在所述第二训练阶段中...

【专利技术属性】
技术研发人员:S
申请(专利权)人:黑莓有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1