二进制代码相似度的计算方法、设备及介质技术

技术编号:37992451 阅读:28 留言:0更新日期:2023-06-30 10:06
本发明专利技术提供了一种二进制代码相似度的计算方法、设备及介质,通过对第一二进制代码进行处理得到对应的第一数据文本,对第二二进制代码进行处理得到对应的第二数据文本,对每个第一属性信息与其对应的第二属性信息进行相似度计算,得到多个相似度值,根据多个相似度值与预设相似度阈值得出第一二进制代码与第二二进制代码之间的相似度结果。即本方案在进行实施时,通过解析出二进制代码中函数的多个属性信息,并基于多个属性信息对比所得的相似度值,从而能够综合、全面反映对应二进制代码的主要信息,由此进一步可通过多个相似度结果以及预设相似度阈值得出准确度更高的相似度结果,从而提高检测准确度,以及避免检测结果偏差大情况。偏差大情况。偏差大情况。

【技术实现步骤摘要】
二进制代码相似度的计算方法、设备及介质


[0001]本专利技术涉及网络安全
,具体涉及二进制代码相似度的计算方法、设备及介质。

技术介绍

[0002]目前行业内,针对二进制代码相似度计算的算法,多采用特征提取比对、基于AI的训练识别等。
[0003]特征提取比对方案会从不同的二进制代码片段中提取出一些特征,如字符串、函数传参信息等,然后对比从两个代码片段中提取到的特征的相似度,从而判定两个二进制代码片段的相似度。
[0004]基于AI训练识别的算法,需要进行部署操作,包括寻找模型、转换模型、优化模型等,接着需要训练模型,最后再正式用于检测。
[0005]上述相似度计算的算法,存在以下缺陷:因为二进制代码可提取的信息较少,所以难以准确比较二进制代码相似度;同时当相同源码采用不同编译器编译后,甚至采用不同指令架构后,对相似度计算的结果影响较大,计算会出现较大误差;不够灵活变通;总体的检测效果较差。
[0006]因此,现有技术有待于改善。

技术实现思路

[0007]本专利技术的主要目的在于提出一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种二进制代码相似度的计算方法,其特征在于,包括:获取第一二进制代码和第二二进制代码;对所述第一二进制代码进行处理得到对应的第一数据文本,并对所述第二二进制代码进行处理得到对应的第二数据文本;其中,所述第一数据文本包括所述第一二进制代码中函数对应的多个第一属性信息,所述第二二进制代码包括所述第二二进制代码中函数对应的多个第二属性信息;对每个所述第一属性信息与其对应的所述第二属性信息进行相似度计算,得到多个相似度值;根据多个所述相似度值与预设相似度阈值得出所述第一二进制代码与所述第二二进制代码之间的相似度结果。2.如权利要求1所述二进制代码相似度的计算方法,其特征在于,所述对所述第一二进制代码进行处理得到对应的第一数据文本的步骤,具体包括:对所述第一二进制代码进行文本转换处理,得到第一汇编代码;对所述第一汇编代码进行预处理,得到第一预处理文本;其中,所述第一预处理文本包括函数的多行第一指令信息;分别对每行所述第一指令信息进行指令转换,得到第一分类文本;对所述第一分类文本进行类别统计,得到第一统计文本;根据所述第一统计文本得到包含有所述第一二进制代码中函数对应的多个第一属性信息的第一数据文本。3.如权利要求1所述二进制代码相似度的计算方法,其特征在于,多个第一属性信息包括第一二进制代码中函数的指令数量、指令构成、指令排列及调用子函数,多个第二属性信息包括第二二进制代码中函数的指令数量、指令构成、指令排列及调用子函数;所述对每个所述第一属性信息与其对应的所述第二属性信息进行相似度计算,得到多个相似度值的步骤,具体包括:计算所述第一二进制代码中函数的指令数量与所述第二二进制代码中函数的指令数量之间的第一相似度值;计算所述第一二进制代码中函数的指令构成与所述第二二进制代码中函数的指令构成之间的第二相似度值;计算所述第一二进制代码中函数的指令排列与所述第二二进制代码中函数的指令排列之间的第三相似度值;计算所述第一二进制代码中函数的调用子函数与所述第二二进制代码中函数的调用子函数之间的第四相似度值。4.如权利要求3所述二进制代码相似度的计算方法,其特征在于,所述根据多个所述相似度值与预设相似度阈值得出所述第一二进制代码与所述第二二进制代码之间的相似度结果的步骤,具体包括:将所述第一相似度值乘以预设的第一比重系数,得到第一目标相似度值;将所述第二相似度值乘以预设的第二比重系数,得到第二目标相似度值;将所述第三相似度值乘以预设的第三比重系数,得到第三目标相似度值;将所述第四相似度值乘以预设的第四比重系数,得到第四目标相似度值;其中,所述第
一比重系数、第二比重系数、第三比重系数及第四比重系数的和为1;根据所述第一目标相似度值、第二目标相似度值、第三目标相似度值及第四目标相似度值得到最终相似度值;根据所述最终相似度值与预设相似度阈值得出所述第一二进制代码与所述第二二进制代码之间的相似度结果。5.如权利要求3所述二进制代码相似度的计算方法,其特征在于,所述计算所述第一二进制代码中函数的指令数量与所述第二二...

【专利技术属性】
技术研发人员:朱劲松万振华王颉
申请(专利权)人:深圳开源互联网安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1