二进制函数相似性检测方法、装置及设备制造方法及图纸

技术编号:36731885 阅读:6 留言:0更新日期:2023-03-04 09:59
本发明专利技术提供一种二进制函数相似性检测方法、装置及设备。所述方法包括:提取二进制文件中每个函数的汇编指令;根据所述汇编指令,获取基于注意力机制的函数嵌入向量;根据所述函数嵌入向量,确定不同的函数的相似性。本发明专利技术的实施例,通过提取不同平台的函数的汇编指令,根据汇编指令构建基于注意力机制的函数嵌入向量,根据不同函数对应的函数嵌入向量,确定函数间的相似性。通过加入注意力机制,使得在训练孪生网络时两个函数能够相互学习相互影响,最终能够使得相似的函数特征的相似性增强,不相似函数的特征差异性增大,从而提升函数相似性计算的准确率。数相似性计算的准确率。数相似性计算的准确率。

【技术实现步骤摘要】
二进制函数相似性检测方法、装置及设备


[0001]本专利技术涉及安全多方计算
,特别是指一种二进制函数相似性检测 方法、装置及设备。

技术介绍

[0002]跨平台二进制函数相似性比对技术是终端评测技术之一,随着深度神经网 络的发展,跨平台的二进制函数相似性检测性能也有了较大提升。二进制函数 相似性是在闭源情况下找到二进制函数之间存在函数复用、存在的差异。
[0003]根据输入数据可分为基于控制流程图的跨平台方法和基于汇编指令的跨 平台方法。针对每种方法都可用深度神经网络提取函数特征,目前训练两个函 数是否相似采用的是孪生网络和三元网络。基于汇编指令的跨平台技术在解决 跨平台问题时可以分为两种:一种是将不同平台下的汇编指令转换成第三方语 言,然后提取函数嵌入向量;另一种是在提取函数嵌入向量时通过监督训练神 经网络学习跨平台信息。
[0004]上述现有技术分别得到每个函数的特征向量表示,忽略了两个函数在相同 任务背景下的相互影响,导致相似性检测不准确。

技术实现思路

[0005]本专利技术的目的是提供一种二进制函数相似性检测方法、装置及设备,解决 了现有的二进制文件相似性比对方法的准确率较低的问题。
[0006]为达到上述目的,本专利技术的实施例提供一种二进制函数相似性检测方法, 包括:
[0007]提取二进制文件中每个函数的汇编指令;
[0008]根据所述汇编指令,获取基于注意力机制的函数嵌入向量;
[0009]根据所述函数嵌入向量,确定不同的函数的相似性。
[0010]可选地,所述根据所述汇编指令,获取基于注意力机制的函数嵌入向量, 包括:
[0011]将每个函数对应的所述汇编指令分别转换为第一函数特征向量;
[0012]根据所述第一函数特征向量,计算注意力矩阵;
[0013]根据所述第一函数特征向量和注意力矩阵,获取基于注意力机制的函数嵌 入向量。
[0014]可选地,根据所述第一函数特征向量,计算注意力矩阵,包括:
[0015]根据每个函数对应的所述第一函数特征向量,计算输入层的第一注意力矩 阵;
[0016]根据所述第一函数特征向量和注意力矩阵,获取基于注意力机制的函数嵌 入向量,包括:
[0017]根据所述第一函数特征向量和所述第一注意力矩阵,分别获取每个函数对 应的基于注意力机制的输入函数特征向量;
[0018]根据所述输入函数特征向量,获取输出层的第二函数特征向量;
[0019]根据所述第二函数特征向量,计算所述基于注意力机制的函数嵌入向量。
[0020]可选地,所述根据所述第二函数特征向量,计算所述基于注意力机制的函 数嵌入向量,包括:
[0021]根据所述第二函数特征向量,计算输出层的第二注意力矩阵;
[0022]根据所述第二函数特征向量和所述第二注意力矩阵,分别获取不同函数对 应的基于注意力机制的函数嵌入向量。
[0023]可选地,根据所述第一函数特征向量和所述第一注意力矩阵,分别获取每 个函数对应的基于注意力机制的输入函数特征向量,包括:
[0024]将所述第一函数特征向量和所述第一注意力矩阵相乘,获得第一注意力转 移特征图;
[0025]对所述第一注意力转移特征图进行池化操作,获得第一注意力权重向量;
[0026]将所述第一注意力权重向量与所述第一函数特征向量的每一行进行点积 计算,获得第一注意力特征图;
[0027]对所述第一注意力特征图进行卷积计算,获得第一卷积特征图;
[0028]对所述第一卷积特征图进行平均池化处理,获得基于注意力机制的输入函 数特征向量。
[0029]可选地,所述对所述第一卷积特征图进行平均池化处理,获得基于注意力 机制的输入函数特征向量,包括:
[0030]对所述第一卷积特征图的每N列计算平均值,获得所述输入函数特征向 量;
[0031]其中,所述输入函数特征向量与所述第一函数特征向量的维度相同。
[0032]可选地,根据所述第二函数特征向量和所述第二注意力矩阵,分别获取不 同函数对应的基于注意力机制的函数嵌入向量,包括:
[0033]将所述第二函数特征向量和所述第二注意力矩阵相乘,获得第二注意力转 移特征图;
[0034]对所述第二注意力转移特征图进行池化操作,获得第二注意力权重向量;
[0035]将所述第二注意力权重向量与所述第二函数特征向量的每一行进行点积 计算,获得第二注意力特征图;
[0036]对所述第二注意力特征图进行卷积计算,获得第二卷积特征图;
[0037]对所述第二卷积特征图进行平均池化处理,获得基于注意力机制的函数嵌 入向量。
[0038]可选地,所述对所述第二卷积特征图进行平均池化处理,获得基于注意力 机制的函数嵌入向量,包括:
[0039]对所述第二卷积特征图的每列分别计算平均值,获得基于注意力机制的函 数嵌入向量。
[0040]可选地,获取所述输入函数特征向量的过程可以重复执行预定次数。
[0041]可选地,所述根据所述函数嵌入向量,确定不同的函数的相似性,包括:
[0042]根据不同平台的函数对应的函数嵌入向量之间的余弦距离,计算不同函数 的相似性。
[0043]为达到上述目的,本专利技术的实施例提供一种二进制函数相似性检测装置, 包括:
[0044]提取模块,用于提取二进制文件中每个函数的汇编指令;
[0045]第一获取模块,用于根据所述汇编指令,获取基于注意力机制的函数嵌入 向量;
[0046]第一确定模块,用于根据所述函数嵌入向量,确定不同的函数的相似性。
[0047]可选地,所述第一获取模块包括:
[0048]转换单元,用于将每个函数对应的所述汇编指令分别转换为第一函数特征 向量;
[0049]第一处理单元,用于根据所述第一函数特征向量,计算注意力矩阵;
[0050]第一获取单元,用于根据所述第一函数特征向量和注意力矩阵,获取基于 注意力机制的函数嵌入向量。
[0051]可选地,所述第一处理单元具体用于:根据每个函数对应的所述第一函数 特征向量,计算输入层的第一注意力矩阵;
[0052]所述第一获取单元包括:
[0053]第一获取子单元,用于根据所述第一函数特征向量和所述第一注意力矩阵, 分别获取每个函数对应的基于注意力机制的输入函数特征向量;
[0054]第二获取子单元,用于根据所述输入函数特征向量,获取输出层的第二函 数特征向量;
[0055]第一计算子单元,用于根据所述第二函数特征向量,计算所述基于注意力 机制的函数嵌入向量。
[0056]可选地,所述第一计算子单元具体用于:
[0057]根据所述第二函数特征向量,计算输出层的第二注意力矩阵;
[0058]根据所述第二函数特征向量和所述第二注意力矩阵,分别获取不同函数对 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种二进制函数相似性检测方法,其特征在于,包括:提取二进制文件中每个函数的汇编指令;根据所述汇编指令,获取基于注意力机制的函数嵌入向量;根据所述函数嵌入向量,确定不同的函数的相似性。2.根据权利要求1所述的方法,其特征在于,所述根据所述汇编指令,获取基于注意力机制的函数嵌入向量,包括:将每个函数对应的所述汇编指令分别转换为第一函数特征向量;根据所述第一函数特征向量,计算注意力矩阵;根据所述第一函数特征向量和注意力矩阵,获取基于注意力机制的函数嵌入向量。3.根据权利要求2所述的方法,其特征在于,根据所述第一函数特征向量,计算注意力矩阵,包括:根据每个函数对应的所述第一函数特征向量,计算输入层的第一注意力矩阵;根据所述第一函数特征向量和注意力矩阵,获取基于注意力机制的函数嵌入向量,包括:根据所述第一函数特征向量和所述第一注意力矩阵,分别获取每个函数对应的基于注意力机制的输入函数特征向量;根据所述输入函数特征向量,获取输出层的第二函数特征向量;根据所述第二函数特征向量,计算所述基于注意力机制的函数嵌入向量。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二函数特征向量,计算所述基于注意力机制的函数嵌入向量,包括:根据所述第二函数特征向量,计算输出层的第二注意力矩阵;根据所述第二函数特征向量和所述第二注意力矩阵,分别获取不同函数对应的基于注意力机制的函数嵌入向量。5.根据权利要求3所述的方法,其特征在于,根据所述第一函数特征向量和所述第一注意力矩阵,分别获取每个函数对应的基于注意力机制的输入函数特征向量,包括:将所述第一函数特征向量和所述第一注意力矩阵相乘,获得第一注意力转移特征图;对所述第一注意力转移特征图进行池化操作,获得第一注意力权重向量;将所述第一注意力权重向量与所述第一函数特征向量的每一行进行点积计算,获得第一注意力特征图;对所述第一注意力特征图进行卷积计算,获得第一卷积特征图;对所述第一卷积特征图进行平均池化处理,获得基于注意力机制的输入函数特征向量。6.根据权利要求5所述的方法,其特征在于,所述对所述第一卷积特征图进行平均池化处理,获得基于注意力机制的输入函数特征向量,包括:对所述第一卷积特征图的每N列计算平均值,获得所述输入函数特征向量;其中,所述输入函数...

【专利技术属性】
技术研发人员:张玉亭樊期光彭华熹石松泉刘祖臣
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1