System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 二进制代码相似性检测方法、装置及电子设备制造方法及图纸_技高网
当前位置: 首页 > 专利查询>清华大学专利>正文

二进制代码相似性检测方法、装置及电子设备制造方法及图纸

技术编号:41205788 阅读:7 留言:0更新日期:2024-05-07 22:31
本发明专利技术提供一种二进制代码相似性检测方法、装置及电子设备,其中的方法包括:对待检测二进制代码的编译属性特征进行编译优化等级分类,得到编译优化等级;对待检测二进制代码的功能属性特征进行编码处理,得到初步功能特征向量;基于编译优化等级,对初步功能特征向量进行适配,得到目标功能特征向量;根据两组不同的待检测二进制代码的目标功能特征向量,获取两组不同的待检测二进制代码的相似性检测结果。该方法通过对待检测二进制代码进行编译属性和功能属性两方面的分析,对于不同编译条件下的功能特征向量进行不同的适配处理,将不同编译条件下的相似函数映射到向量空间中距离较近的特征向量,实现了不同二进制代码相似性的高精度检测。

【技术实现步骤摘要】

本专利技术涉及计算机安全,尤其涉及一种二进制代码相似性检测方法、装置及电子设备


技术介绍

1、二进制代码相似性检测用于检测两个给定的二进制代码是否相似,其在计算机安全方面具有广泛的应用,如剽窃检测、恶意软件检测、漏洞搜索、安全补丁分析等。

2、随着计算机的迅速发展以及代码的重用和共享,恶意代码以及开源代码的相关漏洞可能会在不同的硬件架构和软件平台的设备传播,如果没有合适的检测技术,软件安全问题将会随着时间继续恶化。因此,在计算机安全领域中,代码相似性检测显得尤为重要。

3、传统的相似检测方法,采用包括图同构检测、符号执行或数据流分析,以提取二进制代码中的指令、控制流和数据值等有用信息,并进行代码相似性比较。

4、然而,这些相似性检测方法依赖于直接从二进制代码文件中提取的原始特征,无法准确捕获二进制代码的精确语义,从而导致其准确度较低且容易受到编译过程的影响。

5、因此,如何解决现有代码相似性检测方法因容易受到编译过程的影响,导致相似性检测结果准确度不高的问题,是计算机安全
亟待解决的重要课题。


技术实现思路

1、本专利技术提供一种二进制代码相似性检测方法、装置及电子设备,用以克服现有代码相似性检测方法因容易受到编译过程的影响,导致相似性检测结果准确度不高的缺陷,实现不同二进制代码相似性的高精度检测。

2、一方面,本专利技术提供一种二进制代码相似性检测方法,包括:对待检测二进制代码的编译属性特征进行编译优化等级分类,得到所述待检测二进制代码的编译优化等级;对所述待检测二进制代码的功能属性特征进行编码处理,得到所述待检测二进制代码的初步功能特征向量;基于所述编译优化等级,对所述初步功能特征向量进行适配,得到所述待检测二进制代码的目标功能特征向量;根据两组不同的所述待检测二进制代码的目标功能特征向量,获取所述两组不同的待检测二进制代码的相似性检测结果。

3、进一步地,所述对待检测二进制代码的编译属性特征进行编译优化等级分类,得到所述待检测二进制代码的编译优化等级,包括:以二进制代码文件为单位,对所述待检测二进制代码进行特征提取,得到所述待检测二进制代码的编译属性特征;基于预先训练的优化等级分类器,根据所述编译属性特征,获取所述待检测二进制代码的编译优化等级。

4、进一步地,所述对所述待检测二进制代码的功能属性特征进行编码处理,得到所述待检测二进制代码的初步功能特征向量,包括:对所述待检测二进制代码进行逆向分析,得到所述待检测二进制代码中的二进制函数;对所述二进制函数进行特征提取,得到所述二进制函数的功能属性特征;基于预先训练的二进制函数编码模型,对所述功能属性特征进行编码处理,得到所述二进制函数的初步功能特征向量。

5、进一步地,所述基于所述编译优化等级,对所述初步功能特征向量进行适配,得到所述待检测二进制代码的目标功能特征向量,包括:根据所述编译优化等级,确定所述初步功能特征向量对应的适配模型;利用所述适配模型对所述初步功能特征向量进行微调,得到所述待检测二进制代码中二进制函数的目标功能特征向量。

6、进一步地,训练所述优化等级分类器,具体包括:构建第一训练样本数据集,所述第一训练样本数据集中每一训练样本包括待检测样本代码,以及所述待检测样本代码对应的编译优化等级标签;根据所述第一训练样本数据集,通过交叉熵损失函数将所述优化等级分类器训练至收敛。

7、进一步地,训练所述二进制函数编码模型,具体包括:构建第二训练样本数据集,所述第二训练样本数据集中每一训练样本包括二进制函数样本对,以及所述二进制函数样本对的相似标签;根据所述第二训练样本数据集,通过对比学习损失函数将所述二进制函数编码模型训练至收敛。

8、进一步地,训练所述适配模型,具体包括:构建第三训练样本数据集,所述第三训练样本数据集中每一训练样本包括二进制函数样本对,以及所述二进制函数样本对对应的相似标签和优化等级;根据所述第三训练样本数据集,通过对比学习损失函数将所述适配模型训练至收敛。

9、第二方面,本专利技术还提供一种二进制代码相似性检测装置,包括:编译优化等级获取模块,用于对待检测二进制代码的编译属性特征进行编译优化等级分类,得到所述待检测二进制代码的编译优化等级;初步功能特征向量获取模块,用于对所述待检测二进制代码的功能属性特征进行编码处理,得到所述待检测二进制代码的初步功能特征向量;目标功能特征向量获取模块,用于基于所述编译优化等级,对所述初步功能特征向量进行适配,得到所述待检测二进制代码的目标功能特征向量;代码相似性检测结果计算模块,用于根据两组不同的所述待检测二进制代码的目标功能特征向量,获取所述两组不同的待检测二进制代码的相似性检测结果。

10、第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的二进制代码相似性检测方法。

11、第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的二进制代码相似性检测方法。

12、本专利技术提供的二进制代码相似性检测方法,通过对待检测二进制代码的编译属性特征进行编译优化等级分类,得到待检测二进制代码的编译优化等级,并对待检测二进制代码的功能属性特征进行编码处理,得到待检测二进制代码的初步功能特征向量,进而基于编译优化等级,对初步功能特征向量进行适配,得到待检测二进制代码的目标功能特征向量,从而根据两组不同的待检测二进制代码的目标功能特征向量,获取两组不同的待检测二进制代码的相似性检测结果。该方法通过对待检测二进制代码进行编译属性和功能属性两方面的分析,对于不同编译条件下的功能特征向量使用不同的适配处理,将不同编译条件下的相似函数映射到向量空间中距离较近的特征向量,缓解了现有代码相似性检测方法因容易受到编译过程的影响,导致相似性检测结果准确度不高的问题,实现了不同二进制代码相似性的高精度检测。

本文档来自技高网...

【技术保护点】

1.一种二进制代码相似性检测方法,其特征在于,包括:

2.根据权利要求1所述的二进制代码相似性检测方法,其特征在于,所述对待检测二进制代码的编译属性特征进行编译优化等级分类,得到所述待检测二进制代码的编译优化等级,包括:

3.根据权利要求1所述的二进制代码相似性检测方法,其特征在于,所述对所述待检测二进制代码的功能属性特征进行编码处理,得到所述待检测二进制代码的初步功能特征向量,包括:

4.根据权利要求1所述的二进制代码相似性检测方法,其特征在于,所述基于所述编译优化等级,对所述初步功能特征向量进行适配,得到所述待检测二进制代码的目标功能特征向量,包括:

5.根据权利要求2所述的二进制代码相似性检测方法,其特征在于,训练所述优化等级分类器,具体包括:

6.根据权利要求3所述的二进制代码相似性检测方法,其特征在于,训练所述二进制函数编码模型,具体包括:

7.根据权利要求4所述的二进制代码相似性检测方法,其特征在于,训练所述适配模型,具体包括:

8.一种二进制代码相似性检测装置,其特征在于,包括:p>

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的二进制代码相似性检测方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的二进制代码相似性检测方法。

...

【技术特征摘要】

1.一种二进制代码相似性检测方法,其特征在于,包括:

2.根据权利要求1所述的二进制代码相似性检测方法,其特征在于,所述对待检测二进制代码的编译属性特征进行编译优化等级分类,得到所述待检测二进制代码的编译优化等级,包括:

3.根据权利要求1所述的二进制代码相似性检测方法,其特征在于,所述对所述待检测二进制代码的功能属性特征进行编码处理,得到所述待检测二进制代码的初步功能特征向量,包括:

4.根据权利要求1所述的二进制代码相似性检测方法,其特征在于,所述基于所述编译优化等级,对所述初步功能特征向量进行适配,得到所述待检测二进制代码的目标功能特征向量,包括:

5.根据权利要求2所述的二进制代码相似性检测方法,其特征在于,训练所述优...

【专利技术属性】
技术研发人员:张翼罗平
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1