文件类型确定方法、装置、设备及介质制造方法及图纸

技术编号:32824723 阅读:15 留言:0更新日期:2022-03-26 20:25
本发明专利技术公开了一种文件类型确定方法、装置、设备及介质,方法包括:基于获取待检测文件确定多个近似代码;将所述多个近似代码抽象成表征各个所述近似代码的关联程度的目标语法树,所述目标语法树中包括多个节点,每个所述节点对应所述近似代码中的一个或多个子代码;利用预先构建的文件类型确定模型对所述目标语法树进行处理,基于所述文件类型确定模型的输出结果,确定所述目标语法树对应的待检测文件的文件类型,所述文件类型确定模型包括:利用已标记的文件类型的样本语法树对孪生神经网络进行训练确定的类型确定模型。本发明专利技术的实施能够实现提高恶意软件中的代码复用检测的准确性。准确性。准确性。

【技术实现步骤摘要】
文件类型确定方法、装置、设备及介质


[0001]本专利技术涉及文件类型确定
,特别涉及一种文件类型确定方法、装置、设备及介质。

技术介绍

[0002]随着物联网的普及,越来越多的智能终端设备接入了网络,虽然为我们日常生活提供了方便,但也为恶意代码的传播提供了途径。APT攻击(Advanced Persistent Threat)事件和勒索病毒最近几年呈现爆发式增长。
[0003]目前,恶意代码的识别方法是基于训练好的模型去识别,而模型训练的方法主要有如下两种:1、利用分布式沙箱跑出行为特征,然后对随机森林网络进行模型训练;2、通过反编译提取恶意代码的静态特征,然后对随机森林网络进行模型训练。但是,由于恶意代码具有不同取值属性的特点,这些取值划分较多的属性会对随机森林网络产生较大的影响,所以随机森林网络在这种数据上产出的属性权值是不准确可信的。也就是说,基于随机森林网络训练出的模型,对于恶意代码识别的准确度较差。
[0004]因此,如何获取识别准确度更高的恶意代码识别模型,进而更加准确地识别恶意代码是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]为了解决现有技术中恶意代码识别不准确的技术问题,本专利技术提供一种文件类型确定方法,所述方法包括:
[0006]基于获取待检测文件确定多个近似代码;
[0007]将所述多个近似代码抽象成表征各个所述近似代码的关联程度的目标语法树,所述目标语法树中包括多个节点,每个所述节点对应所述近似代码中的一个或多个子代码;
[0008]利用预先构建的文件类型确定模型对所述目标语法树进行处理,基于所述文件类型确定模型的输出结果,确定所述目标语法树对应的待检测文件的文件类型,所述文件类型确定模型包括:利用已标记的文件类型的样本语法树对孪生神经网络进行训练确定的类型确定模型。
[0009]进一步地,所述基于获取待检测文件确定多个近似代码,包括:
[0010]在预设的沙箱中运行所述待检测文件;
[0011]在所述待检测文件的运行过程中,获取所述待检测文件的执行代码,所述执行代码在执行时需调用预设应用程序接口、执行所述待检测文件之外的文件或更改所述待检测文件;
[0012]将所述执行代码映射至虚拟内存空间中,得到所述近似代码。
[0013]进一步地,所述节点为向量化函数;
[0014]所述利用预先构建的文件类型确定模型对所述目标语法树进行处理,基于所述文件类型确定模型的输出结果,确定所述目标语法树对应的待检测文件的文件类型,包括:
[0015]利用预先构建的文件类型确定模型将各个所述向量化函数与已标记的文本类型的样本向量化函数比对,输出比对结果;
[0016]基于所述比对结果确定所述目标语法树对应的待检测文件的文件类型。
[0017]进一步地,采用下述方式训练得到所述文件类型确定模型:
[0018]获取多组不同标记文件类型的样本语法树集合,所述样本语法树包括多个样本向量化函数;
[0019]建立所述文件类型确定模型,其中,所述文件类型确定模型中包括多个模型参数;
[0020]将所述样本语法树中的所述样本向量化函数作为所述文件类型确定模型的输入数据,将所述样本语法树对应的文件类型作为所述文件类型确定模型输出数据,调整所述文件类型确定模型的所述模型参数,直至所述文件类型确定模型达到预设要求。
[0021]进一步地,所述比对结果表征目标语法树与各个样本语法树的匹配程度;所述基于所述比对结果确定所述目标语法树对应的待检测文件的文件类型,包括:
[0022]比较目标语法树与各个样本语法树的匹配程度的大小;
[0023]将所述目标语法树与样本语法树的匹配程度最大的文件类型作为所述待检测文件的文件类型。
[0024]进一步地,所述方法还包括:
[0025]将所述目标语法树添加至对应文件类型的样本语法树集合中。
[0026]进一步地,所述文件类型至少包括:恶意文件、正常文件。
[0027]另一方面,本文提供一种文件类型确定装置,所述装置包括:
[0028]代码确定模块,用于基于获取待检测文件确定多个近似代码;
[0029]抽象模块,用于将所述多个近似代码抽象成表征各个所述近似代码的关联程度的目标语法树,所述目标语法树中包括多个节点,每个所述节点对应所述近似代码中的一个或多个子代码;
[0030]文件类型确定模块,用于利用预先构建的文件类型确定模型对所述目标语法树进行处理,基于所述文件类型确定模型的输出结果,确定所述目标语法树对应的待检测文件的文件类型,所述文件类型确定模型包括:利用已标记的文件类型的样本语法树对孪生神经网络进行训练确定的类型确定模型。
[0031]另一方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述文本类型确定方法。
[0032]再一方面,本专利技术提供一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如上述所述文本类型确定方法。
[0033]本申请的实施,具有如下有益效果:
[0034]本申请通过对待检测文件进行反编译操作,得到对应的近似代码,操作简单,再将近似代码抽象成目标语法树,以将近似代码抽象为向量函数,以便于确定不同近似代码间的关联程度,之后利用预先构建的文件类型确定模型对目标语法树进行处理,以比对出与目标语法树对应的待检测文件的文件类型。本文通过已标记的文件类型的样本语法树对孪生神经网络进行训练确定的类型确定模型,极大的提高了文件类型的准确度。
附图说明
[0035]为了更清楚地说明本专利技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0036]图1是根据本申请实施例示出的一种文本类型确定方法的实施环境架构图;
[0037]图2是本申请实施例提供的一种文本类型确定方法的流程示意图;
[0038]图3是本申请实施例提供的另一种文本类型确定方法的流程示意图;
[0039]图4是本申请实施例提供的又一种文本类型确定方法的流程示意图;
[0040]图5是本专利技术实施例提供的一种文本类型确定装置的结构示意图;
[0041]图6是本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件类型确定方法,其特征在于,所述方法包括:基于获取待检测文件确定多个近似代码;将所述多个近似代码抽象成表征各个所述近似代码的关联程度的目标语法树,所述目标语法树中包括多个节点,每个所述节点对应所述近似代码中的一个或多个子代码;利用预先构建的文件类型确定模型对所述目标语法树进行处理,基于所述文件类型确定模型的输出结果,确定所述目标语法树对应的待检测文件的文件类型,所述文件类型确定模型包括:利用已标记的文件类型的样本语法树对孪生神经网络进行训练确定的类型确定模型。2.根据权利要求1所述文件类型确定方法,其特征在于,所述基于获取待检测文件确定多个近似代码,包括:在预设的沙箱中运行所述待检测文件;在所述待检测文件的运行过程中,获取所述待检测文件的执行代码,所述执行代码在执行时需调用预设应用程序接口、执行所述待检测文件之外的文件或更改所述待检测文件;将所述执行代码映射至虚拟内存空间中,得到所述近似代码。3.根据权利要求1所述文件类型确定方法,其特征在于,所述节点为向量化函数;所述利用预先构建的文件类型确定模型对所述目标语法树进行处理,基于所述文件类型确定模型的输出结果,确定所述目标语法树对应的待检测文件的文件类型,包括:利用预先构建的文件类型确定模型将各个所述向量化函数与已标记的文本类型的样本向量化函数比对,输出比对结果;基于所述比对结果确定所述目标语法树对应的待检测文件的文件类型。4.根据权利要求3所述文件类型确定方法,其特征在于,采用下述方式训练得到所述文件类型确定模型:获取多组不同标记文件类型的样本语法树集合,所述样本语法树包括多个样本向量化函数;建立所述文件类型确定模型,其中,所述文件类型确定模型中包括多个模型参数;将所述样本语法树中的所述样本向量化函数作为所述文件类型确定模型的输入数据,将所述样本语法树对应的文件类型作为所述文件类型确定模型输出数据,调整所述文件类型确定模型的所...

【专利技术属性】
技术研发人员:童将黄扬洋
申请(专利权)人:连连杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1