基于网络资产内存时间序列多特征数据的异常检测系统技术方案

技术编号:39261712 阅读:9 留言:0更新日期:2023-10-30 12:14
本发明专利技术公开了一种基于网络资产内存时间序列多特征数据的异常检测系统,涉及计算机主机和网络安全技术领域。该系统包括通信连接的用于采集内存数据并提取内存特征的内存数据处理模块、用于通过收集恶意软件并运行且获取正负类标签,从而训练有监督时序二分类模型的有监督机器学习模块、用于使用三种算法和投票方式进行异常检测的无监督机器学习模块以及进行综合分析并生成风险等级并告警的综合分析告警模块。本发明专利技术按照时间间隔采集内存数据,进行特征处理再将不同采集时间节点的特征构造为时间序列特征,分别通过有监督机器学习和无监督机器学习两个模块进行分析,再经过综合分析和分级告警,实现对内存时间序列数据的异常检测。异常检测。异常检测。

【技术实现步骤摘要】
基于网络资产内存时间序列多特征数据的异常检测系统


[0001]本专利技术属于计算机主机和网络安全
,尤其涉及一种基于网络资产内存时间序列多特征数据的异常检测系统。

技术介绍

[0002]随着计算机、网络等电子技术的日益发展,计算机主机的安全不断受到不同目的、不同技术的危险,虽然目前的安全防护技术也在不断完善中,但仍旧不能完全保障主机安全。因此,除了常见的杀毒软件、防火墙、安全设备等防护措施外,从内存数据的角度出发,对主机安全进行监控和异常检测,也是一种重要的检测手段,因为大多数的风险行为、恶意软件的运行或者系统中的异常情况,都有可能在内存数据中留下相关的证据。
[0003]中国专利CN101989322B公开了“一种自动提取恶意代码的内存特征的方法和系统”。该专利技术通过运行恶意代码后,转存新产生的线程,对这些线程进行相似性的分析分组后,提取其内存特征。但这些特征并未考虑特征的时序性特点,不利于捕捉长期运行的恶意代码的时序特征。

技术实现思路

[0004]本专利技术的目的在于提供一种基于网络资产内存时间序列多特征数据的异常检测系统,通过按照一定时间间隔采集主机的内存数据,进行一定的特征处理后再将不同采集时间节点的数据拼接组合为多特征的时间序列数据后,分别通过有监督机器学习和无监督机器学习两种不同的分析模块的综合分析,实现对内存时间序列数据的异常检测。
[0005]本专利技术的目的可以通过以下技术方案实现:
[0006]本申请实施例提供了一种基于网络资产内存时间序列多特征数据的异常检测系统,包括通信连接的内存数据处理模块、有监督机器学习模块、无监督机器学习模块和综合分析告警模块;
[0007]所述内存数据处理模块,用于采集内存数据并对其进行特征工程处理,提取内存特征;
[0008]所述有监督机器学习模块,用于收集多种公开的恶意软件,运行所述恶意软件并通过所述内存数据处理模块采集第一内存数据,以及提取第一内存特征;运行无恶意软件并通过所述内存数据处理模块采集第二内存数据,以及提取第二内存特征;对所述第一内存特征和所述第二内存特征进行时间序列样本数据构造,获取样本数据集;划分所述样本数据集为训练数据集和测试数据集,并根据所述训练数据集和所述测试数据生成有监督多特征时间序列二分类模型;
[0009]所述无监督机器学习模块,用于采集所述第二内存数据并提取所述第二内存特征;通过时间序列样本数据构造生成时序特征样本,并基于所述时序特征样本进行建模,生成无监督异常检测模型;
[0010]所述综合分析告警模块,用于采集实时内存数据并获取实时内存特征;将所述实
时内存特征分别输入所述有监督多特征时间序列二分类模型和所述无监督异常检测模型进行异常分析,并将二者的输出结果进行加权融合与综合分析,输出综合分析结果以及对应的风险告警等级;
[0011]其中,所述第一内存特征包括第一基础特征和第一衍生时序特征;
[0012]所述第二内存特征包括第二基础特征和第二衍生时序特征。
[0013]优选的,所述内存数据处理模块包括依次连接的内存采集单元和特征处理单元;
[0014]所述内存采集单元用于使用LiME软件进行所述内存数据的采集;
[0015]所述特征处理单元用于基于Volatility软件对采集到的所述内存数据进行特征工程处理,提取所述内存特征;
[0016]其中,所述内存特征包括基础特征和衍生时序特征;
[0017]所述LiME软件的数据采集周期为十秒钟。
[0018]优选的,基于每一个所述基础特征,统计其前一分钟采集的所述内存数据的统计平均值,获取一分钟平均值;统计所述基础特征前十分钟采集的所述内存数据的统计平均值,获取十分钟平均值;将所述一分钟平均值和所述十分钟平均值作为所述基础特征的所述衍生时序特征。
[0019]优选的,所述有监督机器学习模块包括通信连接的恶意软件收集单元、第一数据获取单元、第一样本生成单元和离线模型生成单元;
[0020]所述恶意软件收集单元,用于收集公开的多种类别的所述恶意软件;
[0021]其中,所述恶意软件包括木马类、病毒类和勒索软件类;
[0022]所述第一数据获取单元,用于通过所述内存数据处理模块采集所述恶意软件运行时的所述第一内存数据,并采集所述无恶意软件运行时的所述第二内存数据;根据所述第一内存数据提取所述第一内存特征,根据所述第二内存数据提取所述第二内存特征;
[0023]其中,将所述第一内存数据作为正样本数据,将所述第二内存数据作为负样本数据;
[0024]所述第一样本生成单元,用于对所述第一内存特征和所述第二内存特征进行基于滑动时间窗口的时间序列样本数据构造,获取时间序列样本并生成所述样本数据集;
[0025]其中,所述滑动时间窗口的窗口大小为60、窗口长度为十分钟、滑动步长为一;数据采集次数为60次,每次采集60个所述内存特征,一个所述时间序列样本包括3600个所述内存特征;
[0026]所述离线模型生成单元,用于将所述样本数据集划分为所述训练数据集和所述测试数据集,通过使用调和的F1得分作为二分类任务的评估指标进行模型评估和模型选择,并根据所述训练数据集对选择的模型进行训练,根据所述测试数据集对模型进行测试,获取有监督多特征时间序列二分类模型;
[0027]其中,在离线生成的所述第一内存特征和所述第二内存特征中,将发生时间位于前80%时间段的特征数据作为所述训练数据集中的训练数据,将发生时间在后20%时间段的特征数据作为所述测试数据集中的测试数据。
[0028]优选的,在离线测试系统中运行所述恶意软件,并使用bash脚本控制所述恶意软件的运行开始时间和运行结束时间;其中,一个所述离线测试系统运行一个所述恶意软件。
[0029]优选的,将与所述恶意软件的运行时间段重合的内存特征标记为正类标签,其标
签数据标注为0,将与所述恶意软件的运行时间段不重合的内存特征标记为负类标签,其标签数据标注为1;其中,在所述样本数据集中,正样本数据:负样本数据=1:1。
[0030]优选的,在所述模型选择中使用LSTM模型,所述LSTM模型的每一个所述时间序列样本包括特征维度和标签数据;其中,所述特征维度为(60,60),所述标签数据为0/1;所述训练数据集中特征数据的特征数据维度为(60,60,24000),标签数据维度为(1,24000);所述测试数据集中特征数据的特征数据维度为(60,60,6000),标签数据维度为(1,6000)。
[0031]优选的,所述有监督多特征时间序列二分类模型的模型结构为:模型第一层为64维的LSTM模块;模型第二层为随机丢弃参数概率为0.1的Dropout层;第三层为32维的LSTM模块;第四层为随机丢弃参数概率为0.1的Dropout层;第五层为16维的LSTM模块;第六层为全连接层;其中,优化器采用Adam优化器,损失函数采用二分类任务场景下的交叉熵损失函数。...

【技术保护点】

【技术特征摘要】
1.一种基于网络资产内存时间序列多特征数据的异常检测系统,其特征在于:包括通信连接的内存数据处理模块、有监督机器学习模块、无监督机器学习模块和综合分析告警模块;所述内存数据处理模块,用于采集内存数据并对其进行特征工程处理,提取内存特征;所述有监督机器学习模块,用于收集多种公开的恶意软件,运行所述恶意软件并通过所述内存数据处理模块采集第一内存数据,以及提取第一内存特征;运行无恶意软件并通过所述内存数据处理模块采集第二内存数据,以及提取第二内存特征;对所述第一内存特征和所述第二内存特征进行时间序列样本数据构造,获取样本数据集;划分所述样本数据集为训练数据集和测试数据集,并根据所述训练数据集和所述测试数据生成有监督多特征时间序列二分类模型;所述无监督机器学习模块,用于采集所述第二内存数据并提取所述第二内存特征;通过时间序列样本数据构造生成时序特征样本,并基于所述时序特征样本进行建模,生成无监督异常检测模型;所述综合分析告警模块,用于采集实时内存数据并获取实时内存特征;将所述实时内存特征分别输入所述有监督多特征时间序列二分类模型和所述无监督异常检测模型进行异常分析,并将二者的输出结果进行加权融合与综合分析,输出综合分析结果以及对应的风险告警等级;其中,所述第一内存特征包括第一基础特征和第一衍生时序特征;所述第二内存特征包括第二基础特征和第二衍生时序特征。2.根据权利要求1所述的一种基于网络资产内存时间序列多特征数据的异常检测系统,其特征在于:所述内存数据处理模块包括依次连接的内存采集单元和特征处理单元;所述内存采集单元用于使用LiME软件进行所述内存数据的采集;所述特征处理单元用于基于Volatility软件对采集到的所述内存数据进行特征工程处理,提取所述内存特征;其中,所述内存特征包括基础特征和衍生时序特征;所述LiME软件的数据采集周期为十秒钟。3.根据权利要求2所述的一种基于网络资产内存时间序列多特征数据的异常检测系统,其特征在于:基于每一个所述基础特征,统计其前一分钟采集的所述内存数据的统计平均值,获取一分钟平均值;统计所述基础特征前十分钟采集的所述内存数据的统计平均值,获取十分钟平均值;将所述一分钟平均值和所述十分钟平均值作为所述基础特征的所述衍生时序特征。4.根据权利要求1所述的一种基于网络资产内存时间序列多特征数据的异常检测系统,其特征在于:所述有监督机器学习模块包括通信连接的恶意软件收集单元、第一数据获取单元、第一样本生成单元和离线模型生成单元;所述恶意软件收集单元,用于收集公开的多种类别的所述恶意软件;其中,所述恶意软件包括木马类、病毒类和勒索软件类;所述第一数据获取单元,用于通过所述内存数据处理模块采集所述恶意软件运行时的所述第一内存数据,并采集所述无恶意软件运行时的所述第二内存数据;根据所述第一内存数据提取所述第一内存特征,根据所述第二内存数据提取所述第二内存特征;
其中,将所述第一内存数据作为正样本数据,将所述第二内存数据作为负样本数据;所述第一样本生成单元,用于对所述第一内存特征和所述第二内存特征进行基于滑动时间窗口的时间序列样本数据构造,获取时间序列样本并生成所述样本数据集;其中,所述滑动时间窗口的窗口大小为60、窗口长度为十分钟、滑动步长为一;数据采集次数为60次,每次采集60个所述内存特征,一个所述时间序列样本包括3600个所述内存特征;所述离线模型生成单元,用于将所述样本数据集划分为所述训练数据集和所述测试数据集,通过使用调和的F1得分作为二分类任务的评估指标进行模型评估和模型选择,并根据所述训练数据集对选择的模型进行训练,根据所述测试数据集对模型进行测试,获取有监督多特征时间序列二分类模型;其中,在离线生成的所述第一内存特征和所述第二内存特征中,将发生时间位于前80%时间段的特征数据作为所述训练数据集中的训练数据,将发生时间在后20%时间段的特征数据作为所述测试数据集中的测试数据。5.根据权利要求4所述的一种基于网络资产内存时间序列多特征数据的异常检测系统,其特征在于:在离线测试系统中运行所...

【专利技术属性】
技术研发人员:邹凯陈凯枫顾颂斐姚毅曾浩
申请(专利权)人:广州天懋信息系统股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1