多时间序列的样本特征提取方法以应用其的软件检测方法技术

技术编号：30551278 阅读：19 留言：0更新日期：2021-10-30 13:31

本申请提出了一种多时间序列的样本特征提取方法以应用其的软件检测方法，其中，样本特征提取方法包括以下步骤：运行软件样本，获取软件样本在操作系统中调用指令生成的多条指令调用记录；根据所属线程对每条指令调用记录分组，对分组内所有指令调用记录按照调用顺序正序排列，并提取每组前连续多条指令调用记录生成指令序列；计算每一线程调用的指令序列的特征值总和，按照特征值总和的大小正序排列，提取每组前连续多列指令序列且合并生成特征矩阵。通过本发明专利技术，确保同一软件样本在训练时的传入时间序列顺序与检测时的传入时间序列一致，从而提高检测结果的可靠性。从而提高检测结果的可靠性。从而提高检测结果的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
多时间序列的样本特征提取方法以应用其的软件检测方法

[0001]本申请涉及模式识别领域，特别是涉及多时间序列的样本特征提取方法以应用其的软件检测方法。

技术介绍

[0002]在模式识别领域，对机器的行为进行记录分析并根据分析结果将其分类是一种常见的需求，所谓机器行为通常指计算机软件运行后产生的一系列对操作系统指令的调用。
[0003]在各类分析方法中，通过神经网络对机器产生的行为样本进行训练生成模型，使用模型预测产生该行为的机器的类型是目前主流的做法。在各种神经网络中最常用的两种分别是循环神经网络和卷积神经网络，其中循环神经网络适合处理和时间维度无关的样本，卷积神经网络更适合处理和时间维度相关的样本。
[0004]在对机器行为特征的提取中，基于时间维度的采样提取其特征是重要的一个环节，早期通常认为机器产生的行为都是顺序执行的，即同一个机器产生的多个行为之间有严格的时间现后顺序，即使软件支持多线程执行也被认为不存在真正的并行而被当成单线程处理。但随着多CPU以及多核CPU的流行，机器产生的行为已经存在真正的并发及并行，也就是同一台机器会出现真正的多个行为同时运作的情况。
[0005]处理训练具有时间相关性的样本最合适的是卷积神经网络，但卷积神经网络在设计之初并没有考虑处理存在多个时间线的样本，即用卷积神经网络训练的样本如果存在多条时间线，那训练后模型预测的准确性必然会下降。
[0006]而现在大多数机器产生的行为都是并发或并行的，例如一个软件运行后可以有数个线程同时运行，每个线程产生数十...

【技术保护点】

【技术特征摘要】
1.一种多时间序列的样本特征提取方法，其特征在于，包括以下步骤：运行软件样本，获取软件样本在操作系统中调用指令生成的多条指令调用记录；根据所属线程对每条指令调用记录分组，对分组内所有指令调用记录按照调用顺序正序排列，并提取每组前连续多条指令调用记录生成指令序列；计算每一线程调用的指令序列的特征值总和，按照特征值总和的大小正序排列，提取每组前连续多列指令序列且合并生成特征矩阵。2.根据权利要求1所述的多时间序列的样本特征提取方法，其特征在于，“获取软件样本在操作系统中调用指令生成的多条指令调用记录”包括：将软件样本在虚拟终端上运行，捕获预设时段内软件样本对虚拟终端上的操作系统指令调用的调用列表，其中，每一软件样本运行时对应生成一调用列表，调用列表中包括多条指令调用记录。3.根据权利要求2所述的多时间序列的样本特征提取方法，其特征在于，调用列表中每一指令调用记录包括以下属性：软件名、软件分类标签、指令名称，指令所属线程编号，调用顺序，基于指令所属线程编号确定指令所属线程。4.根据权利要求1所述的多时间序列的样本特征提取方法，其特征在于，包括：设定每列指令序列的目标指令数；在每个分组内的指令调用记录的个数小于目标记录的情况下，采用随机字符串补齐分组记录，否则，丢弃分组内目标指令数以外的指令调用记录；生成指令序列，将指令序列中的每行指令调用记录的指令名称数值化。5.根据权利要求4所述的多时间序列的样本特征提取方法，其特征在于，包括：设定目标线程数；在分组的个数小于目标线程数的情况下，采用随机数值补齐分组个数，否则，丢弃目标线程数以外的分组。6.根据权利要求1所述的多时间序列的样本特征提取方法，其特征在于，应用于训练预测模型中，其中，所述预测模型的训练方法包括：获...

【专利技术属性】
技术研发人员：翟欣虎，秦益飞，杨正权，
申请(专利权)人：江苏易安联网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人